論文の概要: From None to Severe: Predicting Severity in Movie Scripts
- arxiv url: http://arxiv.org/abs/2109.09276v1
- Date: Mon, 20 Sep 2021 03:01:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-21 16:36:54.364021
- Title: From None to Severe: Predicting Severity in Movie Scripts
- Title(参考訳): 映画脚本の重大さを予言する「None to Severe」
- Authors: Yigeng Zhang, Mahsa Shafaei, Fabio Gonzalez, Thamar Solorio
- Abstract要約: まず, 性, 暴力, 嫌悪感, 物質消費, 恐怖の5つの側面から, 映画の日常的重大度を分類する。
この問題は、予測の解釈性を同時に改善するシアムネットワークベースのマルチタスクフレームワークを用いて処理される。
- 参考スコア(独自算出の注目度): 10.536898728548838
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we introduce the task of predicting severity of age-restricted
aspects of movie content based solely on the dialogue script. We first
investigate categorizing the ordinal severity of movies on 5 aspects: Sex,
Violence, Profanity, Substance consumption, and Frightening scenes. The problem
is handled using a siamese network-based multitask framework which concurrently
improves the interpretability of the predictions. The experimental results show
that our method outperforms the previous state-of-the-art model and provides
useful information to interpret model predictions. The proposed dataset and
source code are publicly available at our GitHub repository.
- Abstract(参考訳): 本稿では,対話スクリプトのみに基づいて,映画コンテンツの年齢制限面の重大さを予測するタスクを紹介する。
まず, 性, 暴力, 狂気, 物質消費, 恐怖場面の5つの側面から, 映画の順序的重大さを分類した。
この問題は、予測の解釈性を同時に改善するシアムネットワークベースのマルチタスクフレームワークを用いて処理される。
実験の結果,提案手法は従来の最先端モデルよりも優れており,モデル予測の解釈に有用な情報を提供することがわかった。
提案されたデータセットとソースコードは、GitHubリポジトリで公開されています。
関連論文リスト
- Ensembling Finetuned Language Models for Text Classification [55.15643209328513]
ファインタニング(英: Finetuning)は、特定のタスクに事前訓練されたモデルを適用するために、様々なコミュニティで一般的なプラクティスである。
ニューラルネットワークのアンサンブルは、通常、パフォーマンスを高め、信頼性の高い不確実性推定を提供するために使用される。
6つのデータセット上の5つの大きめのモデルから予測されたメタデータセットを提示し、異なるアンサンブル戦略の結果を報告する。
論文 参考訳(メタデータ) (2024-10-25T09:15:54Z) - CaRDiff: Video Salient Object Ranking Chain of Thought Reasoning for Saliency Prediction with Diffusion [35.26835471419003]
ビデオのサリエンシ予測は、ビデオのボトムアップ機能や、記憶や認知などのトップダウンプロセスによって、人間の注意を引き、視線を惹きつけるビデオ内の領域を特定することを目的としている。
既存の手法は主に知覚情報のモデリングに重点を置いているが、言語による推論プロセスは無視されている。
本稿では,マルチモーダル大言語モデル(MLLM),グラウンドモジュール,拡散モデルを統合することで,そのプロセスを模倣するフレームワークであるCaRDiffを提案する。
論文 参考訳(メタデータ) (2024-08-21T21:40:30Z) - Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - Predicting Long-horizon Futures by Conditioning on Geometry and Time [49.86180975196375]
我々は,過去を前提とした将来のセンサ観測の課題を探求する。
マルチモーダリティを扱える画像拡散モデルの大規模事前学習を活用する。
我々は、屋内と屋外のシーンにまたがる多様なビデオのセットについて、ビデオ予測のためのベンチマークを作成する。
論文 参考訳(メタデータ) (2024-04-17T16:56:31Z) - Towards Debiasing Frame Length Bias in Text-Video Retrieval via Causal
Intervention [72.12974259966592]
トリミングビデオクリップのトレーニングセットとテストセットのフレーム長差による時間偏差について,一意かつ体系的に検討した。
Epic-Kitchens-100, YouCook2, MSR-VTTデータセットについて, 因果脱バイアス法を提案し, 広範な実験およびアブレーション研究を行った。
論文 参考訳(メタデータ) (2023-09-17T15:58:27Z) - UATVR: Uncertainty-Adaptive Text-Video Retrieval [90.8952122146241]
一般的なプラクティスは、テキストとビデオのペアを同じ埋め込みスペースに転送し、特定のエンティティとのクロスモーダルなインタラクションを構築することである。
UATVRと呼ばれる不確実性言語によるテキスト・ビデオ検索手法を提案し、各ルックアップを分布マッチング手順としてモデル化する。
論文 参考訳(メタデータ) (2023-01-16T08:43:17Z) - A Generative Language Model for Few-shot Aspect-Based Sentiment Analysis [90.24921443175514]
我々は、アスペクト項、カテゴリを抽出し、対応する極性を予測するアスペクトベースの感情分析に焦点を当てる。
本稿では,一方向の注意を伴う生成言語モデルを用いて,抽出タスクと予測タスクをシーケンス生成タスクに再構成することを提案する。
提案手法は,従来の最先端(BERTをベースとした)の性能を,数ショットとフルショットの設定において,大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-04-11T18:31:53Z) - Semantic Prediction: Which One Should Come First, Recognition or
Prediction? [21.466783934830925]
下流の主なタスクの1つは、シーンのセマンティックな構成を解釈し、意思決定にそれを使用することである。
事前学習されたビデオ予測と事前学習された意味抽出モデルを考えると、同じ結果を得るための主な方法は2つある。
ビデオ予測モデルとしてLFDTN(Local Frequency Domain Transformer Network)と,合成データセットと実データセットのセマンティック抽出モデルとしてU-Netを用いて,これらの構成について検討する。
論文 参考訳(メタデータ) (2021-10-06T15:01:05Z) - Unsupervised Video Summarization via Multi-source Features [4.387757291346397]
ビデオ要約は、オリジナルビデオの本質を伝達するコンパクトだが代表的な視覚的要約を生成することを目的としている。
本稿では,複数の特徴源をチャンクとストライド融合で組み込むことにより,視覚的コンテンツについてより詳細な情報を提供する。
また,TVSumとSumMeの2つのベンチマークを総合的に評価するために,本手法を4つの最先端手法と比較した。
論文 参考訳(メタデータ) (2021-05-26T13:12:46Z) - Motion Segmentation using Frequency Domain Transformer Networks [29.998917158604694]
本稿では,前景と背景を別々にモデル化することで,次のフレームを予測できる新しいエンドツーエンド学習アーキテクチャを提案する。
我々の手法は、ビデオラダーネットワークや予測ゲーテッドピラミドなど、広く使われているビデオ予測手法よりも優れた合成データが得られる。
論文 参考訳(メタデータ) (2020-04-18T15:05:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。