論文の概要: From None to Severe: Predicting Severity in Movie Scripts
- arxiv url: http://arxiv.org/abs/2109.09276v1
- Date: Mon, 20 Sep 2021 03:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:36:54.364021
- Title: From None to Severe: Predicting Severity in Movie Scripts
- Title(参考訳): 映画脚本の重大さを予言する「None to Severe」
- Authors: Yigeng Zhang, Mahsa Shafaei, Fabio Gonzalez, Thamar Solorio
- Abstract要約: まず, 性, 暴力, 嫌悪感, 物質消費, 恐怖の5つの側面から, 映画の日常的重大度を分類する。
この問題は、予測の解釈性を同時に改善するシアムネットワークベースのマルチタスクフレームワークを用いて処理される。
- 参考スコア(独自算出の注目度): 10.536898728548838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the task of predicting severity of age-restricted
aspects of movie content based solely on the dialogue script. We first
investigate categorizing the ordinal severity of movies on 5 aspects: Sex,
Violence, Profanity, Substance consumption, and Frightening scenes. The problem
is handled using a siamese network-based multitask framework which concurrently
improves the interpretability of the predictions. The experimental results show
that our method outperforms the previous state-of-the-art model and provides
useful information to interpret model predictions. The proposed dataset and
source code are publicly available at our GitHub repository.
- Abstract(参考訳): 本稿では,対話スクリプトのみに基づいて,映画コンテンツの年齢制限面の重大さを予測するタスクを紹介する。
まず, 性, 暴力, 狂気, 物質消費, 恐怖場面の5つの側面から, 映画の順序的重大さを分類した。
この問題は、予測の解釈性を同時に改善するシアムネットワークベースのマルチタスクフレームワークを用いて処理される。
実験の結果,提案手法は従来の最先端モデルよりも優れており,モデル予測の解釈に有用な情報を提供することがわかった。
提案されたデータセットとソースコードは、GitHubリポジトリで公開されています。
関連論文リスト
- Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - Models See Hallucinations: Evaluating the Factuality in Video Captioning [57.85548187177109]
ビデオキャプションにおける実感の人間による評価を行い、2つの注釈付き実感データセットを収集する。
モデル生成文の57.0%に事実誤りがあり、この分野では深刻な問題であることを示す。
本稿では,映像キャプションの事実性評価において,従来の指標より優れていたモデルベース事実性指標FactVCを提案する。
論文 参考訳(メタデータ) (2023-03-06T08:32:50Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Semantic Prediction: Which One Should Come First, Recognition or
Prediction? [21.466783934830925]
下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。
事前学習されたビデオ予測と事前学習された意味抽出モデルを考えると、同じ結果を得るための主な方法は2つある。
ビデオ予測モデルとしてLFDTN(Local Frequency Domain Transformer Network)と,合成データセットと実データセットのセマンティック抽出モデルとしてU-Netを用いて,これらの構成について検討する。
論文 参考訳(メタデータ) (2021-10-06T15:01:05Z) - FitVid: Overfitting in Pixel-Level Video Prediction [117.59339756506142]
われわれはFitVidという新しいアーキテクチャを導入し、一般的なベンチマークに厳しいオーバーフィッティングを行えるようにした。
FitVidは、4つの異なるメトリクスで4つの異なるビデオ予測ベンチマークで現在の最先端モデルを上回っている。
論文 参考訳(メタデータ) (2021-06-24T17:20:21Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Data Expansion using Back Translation and Paraphrasing for Hate Speech
Detection [1.192436948211501]
本稿では,バック翻訳手法を融合した新しい深層学習手法と,データ拡張のためのパラフレージング手法を提案する。
AskFm corpus, Formspring データセット, Warner と Waseem データセット, Olid および Wikipedia の有毒なコメントデータセットである。
論文 参考訳(メタデータ) (2021-05-25T09:52:42Z) - Adaptive Future Frame Prediction with Ensemble Network [15.19884183320726]
本稿では,将来のフレーム予測タスクに適応的な更新フレームワークを提案する。
提案フレームワークは,事前学習した予測ネットワーク,連続更新予測ネットワーク,重み推定ネットワークから構成される。
我々のアプローチは、特に動的に変化するシーンにおいて、既存の手法よりも優れています。
論文 参考訳(メタデータ) (2020-11-13T07:08:06Z) - Video Understanding as Machine Translation [53.59298393079866]
我々は、単一の統合フレームワークを用いて、様々なダウンストリームビデオ理解タスクに取り組む。
映像分類(EPIC-Kitchens)、質問応答(TVQA)、キャプション(TVC, YouCook2, MSR-VTT)など、いくつかのダウンストリームタスクにおいて、現状よりもパフォーマンスの向上が報告されている。
論文 参考訳(メタデータ) (2020-06-12T14:07:04Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。