論文の概要: Situation and Behavior Understanding by Trope Detection on Films
- arxiv url: http://arxiv.org/abs/2101.07632v1
- Date: Tue, 19 Jan 2021 14:09:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-22 11:33:46.590533
- Title: Situation and Behavior Understanding by Trope Detection on Films
- Title(参考訳): フィルムのトロープ検出による状況と行動の理解
- Authors: Chen-Hsi Chang, Hung-Ting Su, Juiheng Hsu, Yu-Siang Wang, Yu-Cheng
Chang, Zhe Yu Liu, Ya-Liang Chang, Wen-Feng Cheng, Ke-Jyun Wang and Winston
H. Hsu
- Abstract要約: 機械の状況と行動の理解を作成するために、新しいタスク、フィルム上のトロピー検出を提示します。
我々は、新しいデータセットであるTropes in Movie Synopses (TiMoS)を導入し、5623の映画シンプと95の異なるトロープをウィキペディアスタイルのデータベースであるTVTropesから収集した。
単語,文,役割関係の多段階的注目を活用したマルチストリーム理解ネットワーク(MulCom)を提案する。
- 参考スコア(独自算出の注目度): 26.40954537814751
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The human ability of deep cognitive skills are crucial for the development of
various real-world applications that process diverse and abundant user
generated input. While recent progress of deep learning and natural language
processing have enabled learning system to reach human performance on some
benchmarks requiring shallow semantics, such human ability still remains
challenging for even modern contextual embedding models, as pointed out by many
recent studies. Existing machine comprehension datasets assume sentence-level
input, lack of casual or motivational inferences, or could be answered with
question-answer bias. Here, we present a challenging novel task, trope
detection on films, in an effort to create a situation and behavior
understanding for machines. Tropes are storytelling devices that are frequently
used as ingredients in recipes for creative works. Comparing to existing movie
tag prediction tasks, tropes are more sophisticated as they can vary widely,
from a moral concept to a series of circumstances, and embedded with
motivations and cause-and-effects. We introduce a new dataset, Tropes in Movie
Synopses (TiMoS), with 5623 movie synopses and 95 different tropes collecting
from a Wikipedia-style database, TVTropes. We present a multi-stream
comprehension network (MulCom) leveraging multi-level attention of words,
sentences, and role relations. Experimental result demonstrates that modern
models including BERT contextual embedding, movie tag prediction systems, and
relational networks, perform at most 37% of human performance (23.97/64.87) in
terms of F1 score. Our MulCom outperforms all modern baselines, by 1.5 to 5.0
F1 score and 1.5 to 3.0 mean of average precision (mAP) score. We also provide
a detailed analysis and human evaluation to pave ways for future research.
- Abstract(参考訳): 深層認知能力の人間の能力は、多様なユーザ生成入力を処理する様々な現実世界のアプリケーションの開発に不可欠である。
ディープラーニングと自然言語処理の最近の進歩により、浅い意味論を必要とするいくつかのベンチマークにおいて、学習システムが人間のパフォーマンスに到達できるようになったが、最近の多くの研究で指摘されているように、このような人間の能力は、現代の文脈埋め込みモデルにおいても依然として困難である。
既存の機械理解データセットは文レベルの入力を仮定し、カジュアルな推論や動機づけの推論を欠いている。
そこで,我々は,機械の状況と行動を理解するために,フィルムのトロープ検出という挑戦的な新しい課題を提示する。
トロープ(英: Trope)は、創作作品のレシピの材料として頻繁に使用されるストーリーテリング装置である。
既存の映画タグ予測タスクと比較すると、トロピーは道徳的概念から一連の状況まで、動機付けや原因と効果が組み込まれているため、より洗練されている。
我々は、新しいデータセットであるTropes in Movie Synopses (TiMoS)を導入し、5623の映画シンプと95の異なるトピックをウィキペディアスタイルのデータベースであるTVTropesから収集した。
本稿では,単語,文,役割関係の多段階的注意を生かしたマルチストリーム理解ネットワーク(MulCom)を提案する。
実験結果から, BERTのコンテキスト埋め込み, 映画タグ予測システム, リレーショナルネットワークなどの現代モデルは, F1スコアの少なくとも37%(23.97/64.87)で動作していることがわかった。
私たちのmulcomは、現在のすべてのベースラインを1.5から5.0 f1、平均精度(map)スコアを1.5から3.0で上回っています。
また,今後の研究への道を開くために,詳細な分析と人的評価も提供する。
関連論文リスト
- Investigating Video Reasoning Capability of Large Language Models with Tropes in Movies [69.28082193942991]
本稿では、これまで見過ごされていた2つの重要なビデオ推論スキルを探索するためのテストベッドとして設計された、新しいデータセットであるTropes in Movies (TiM)を紹介する。
映画ストーリーテリングのトポロジを利用して、TiMは最先端のLCMベースのアプローチの推論能力を評価する。
これらの欠陥に対処するために、FEVoRI(Face-Enhanced Viper of Role Interactions)とConQueR(Context Query Reduction)を提案する。
論文 参考訳(メタデータ) (2024-06-16T12:58:31Z) - ACQUIRED: A Dataset for Answering Counterfactual Questions In Real-Life
Videos [53.92440577914417]
ACQUIREDは3.9Kの注釈付きビデオで構成され、幅広いイベントタイプを包含し、ファーストパーソンとサードパーソンの両方の視点を取り入れている。
各ビデオは、物理的、社会的、時間的な3つの異なる推論の次元にまたがる質問で注釈付けされている。
我々は,現在最先端の言語のみおよびマルチモーダルモデルに対して,我々のデータセットをベンチマークし,実験結果から大きな性能差が示された。
論文 参考訳(メタデータ) (2023-11-02T22:17:03Z) - JECC: Commonsense Reasoning Tasks Derived from Interactive Fictions [75.42526766746515]
本稿では,人間のインタラクティブ・フィクション(IF)ゲームプレイ・ウォークスルーに基づく新しいコモンセンス推論データセットを提案する。
本データセットは,事実知識ではなく,機能的コモンセンス知識ルールの評価に重点を置いている。
実験の結果、導入したデータセットは、以前の機械読影モデルと新しい大規模言語モデルに難題であることが示されている。
論文 参考訳(メタデータ) (2022-10-18T19:20:53Z) - Explainable Verbal Deception Detection using Transformers [1.5104201344012347]
本稿では,BERT(およびRoBERTa),マルチヘッドアテンション,コアテンション,トランスフォーマーの組み合わせを含む6つのディープラーニングモデルを提案し,評価する。
この結果から,我々のトランスを用いたモデルでは,自動偽造検出性能(精度+2.11%)が向上することが示唆された。
論文 参考訳(メタデータ) (2022-10-06T17:36:00Z) - AES Systems Are Both Overstable And Oversensitive: Explaining Why And
Proposing Defenses [66.49753193098356]
スコアリングモデルの驚くべき逆方向の脆さの原因について検討する。
のモデルとして訓練されているにもかかわらず、単語の袋のように振る舞うことを示唆している。
高い精度で試料を発生させる過敏性と過敏性を検出できる検出ベース保護モデルを提案する。
論文 参考訳(メタデータ) (2021-09-24T03:49:38Z) - TrUMAn: Trope Understanding in Movies and Animations [19.80173687261055]
本稿では,新しい概念モジュールを備えたTrUStデータセットを提案する。
TrUStは、潜伏した空間でビデオストーリーテリングを行うことで、ビデオエンコーダをガイドする。
実験の結果,既存のタスクにおける最先端学習システムは生の入力信号で12.01%の精度しか達成できないことがわかった。
論文 参考訳(メタデータ) (2021-08-10T09:34:14Z) - MERLOT: Multimodal Neural Script Knowledge Models [74.05631672657452]
我々はMERLOTを紹介した。MERLOTは、翻訳された音声で何百万ものYouTubeビデオを視聴することで、マルチモーダルなスクリプト知識を学習するモデルである。
MERLOTは、時間的コモンセンスの強力なアウトオブボックス表現を示し、12の異なるビデオQAデータセット上で最先端のパフォーマンスを達成する。
Visual Commonsense Reasoning では、MERLOT が80.6%の精度で正解し、同じ大きさの最先端のモデルを3%以上上回っている。
論文 参考訳(メタデータ) (2021-06-04T17:57:39Z) - My Teacher Thinks The World Is Flat! Interpreting Automatic Essay
Scoring Mechanism [71.34160809068996]
最近の研究では、自動スコアリングシステムが常識的な敵対的サンプルになりやすいことが示されています。
近年の解釈能力の進歩を活かし,コヒーレンスやコンテント,関連性といった特徴がスコアリングの自動化にどの程度重要であるかを見出す。
また、モデルが意味的に世界知識や常識に基づかないことから、世界のような虚偽の事実を追加することは、それを減らすよりもむしろスコアを増加させる。
論文 参考訳(メタデータ) (2020-12-27T06:19:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。