論文の概要: MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning
- arxiv url: http://arxiv.org/abs/2409.17647v2
- Date: Sun, 27 Oct 2024 06:48:08 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-06 16:10:55.862475
- Title: MECD: Unlocking Multi-Event Causal Discovery in Video Reasoning
- Title(参考訳): MECD:複数イベントの因果関係の発見をビデオ推論で解き放つ
- Authors: Tieyuan Chen, Huabin Liu, Tianyao He, Yihang Chen, Chaofan Gan, Xiao Ma, Cheng Zhong, Yang Zhang, Yingxue Wang, Hui Lin, Weiyao Lin,
- Abstract要約: 新しいタスクとデータセットであるMulti-Event Causal Discovery (MECD)を導入する。
時系列的に長いビデオに分散したイベント間の因果関係を明らかにすることを目的としている。
我々は,効率的なマスクベースの事象予測モデルを用いて,Granger Causality法にインスパイアされた新しいフレームワークを考案した。
- 参考スコア(独自算出の注目度): 23.928977574352796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Video causal reasoning aims to achieve a high-level understanding of video content from a causal perspective. However, current video reasoning tasks are limited in scope, primarily executed in a question-answering paradigm and focusing on short videos containing only a single event and simple causal relationships, lacking comprehensive and structured causality analysis for videos with multiple events. To fill this gap, we introduce a new task and dataset, Multi-Event Causal Discovery (MECD). It aims to uncover the causal relationships between events distributed chronologically across long videos. Given visual segments and textual descriptions of events, MECD requires identifying the causal associations between these events to derive a comprehensive, structured event-level video causal diagram explaining why and how the final result event occurred. To address MECD, we devise a novel framework inspired by the Granger Causality method, using an efficient mask-based event prediction model to perform an Event Granger Test, which estimates causality by comparing the predicted result event when premise events are masked versus unmasked. Furthermore, we integrate causal inference techniques such as front-door adjustment and counterfactual inference to address challenges in MECD like causality confounding and illusory causality. Experiments validate the effectiveness of our framework in providing causal relationships in multi-event videos, outperforming GPT-4o and VideoLLaVA by 5.7% and 4.1%, respectively.
- Abstract(参考訳): ビデオ因果推論は、因果的観点からの映像コンテンツの高レベルな理解の実現を目的としている。
しかし、現在のビデオ推論タスクはスコープに限られており、主に質問応答パラダイムで実行され、単一のイベントと単純な因果関係のみを含む短いビデオに焦点を当てている。
このギャップを埋めるために、新しいタスクとデータセット、Multi-Event Causal Discovery (MECD)を導入します。
時系列的に長いビデオに分散したイベント間の因果関係を明らかにすることを目的としている。
イベントの視覚的セグメントとテキスト的記述が与えられたため、MECDはこれらのイベント間の因果関係を識別し、なぜ、どのように最終的な結果イベントが発生したかを説明する包括的な構造化されたイベントレベルのビデオ因果図を導出する必要がある。
MECDに対処するために,効率的なマスクベースのイベント予測モデルを用いて,前提イベントがマスクされている場合とマスクされていない場合の予測結果イベントを比較し,因果関係を推定する新しいフレームワークを考案した。
さらに,前庭調整や対物推論などの因果推論技術を統合し,因果関係の解明や因果関係の解明など,MECDの課題に対処する。
GPT-4o と VideoLLaVA をそれぞれ5.7% と4.1% で比較した。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - EventHallusion: Diagnosing Event Hallucinations in Video LLMs [80.00303150568696]
我々はまず,ビデオイベント理解におけるビデオLMMの幻覚現象を評価する新しいベンチマークであるEventHallusionを提案する。
既存の VideoLLM が基盤モデルから派生した先行モデルと絡み合っているという観測に基づいて,私たちのEventHallusion はビデオ収集と注釈付質問によってキュレートされる。
また,ビデオLLMの幻覚化問題に対処するため,TCD(Temporal Contrastive Decoding)と呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T03:49:46Z) - Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM [47.786978666537436]
本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
論文 参考訳(メタデータ) (2024-09-14T08:30:59Z) - Enhancing Event Causality Identification with Rationale and Structure-Aware Causal Question Answering [30.000134835133522]
事象因果同定(DECI)は、文書中の2つの事象間の因果関係を特定することを目的としている。
近年の研究では、事前訓練された言語モデルを用いて事象因果関係を生成する傾向にある。
本稿では,合理的かつ構造を考慮した因果的質問応答による事象因果同定を強化するためのマルチタスク学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-17T07:41:58Z) - Glance and Focus: Memory Prompting for Multi-Event Video Question
Answering [36.00733800536469]
VideoQAは、人間の日常行動を理解するエージェントの能力を評価する重要なツールとして登場した。
人間は一連のエピソード記憶をアンカーとして使い、推論のための質問に関連する重要な瞬間を素早く見つけることで、簡単に対処できる。
この効果的な推論戦略を模倣するGlance-Focusモデルを提案する。
論文 参考訳(メタデータ) (2024-01-03T03:51:16Z) - Event Causality Extraction with Event Argument Correlations [13.403222002600558]
Event Causality extractは、プレーンテキストから因果関係のイベント因果関係のペアを抽出することを目的としている。
本稿では,ECE の時間内および時間内引数相関を捉えるための二重グリッドタギング方式を提案する。
論文 参考訳(メタデータ) (2023-01-27T09:48:31Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - EA$^2$E: Improving Consistency with Event Awareness for Document-Level
Argument Extraction [52.43978926985928]
本稿では、トレーニングと推論のための拡張コンテキストを備えたイベント・アウェア・引数抽出(EA$2$E)モデルを紹介する。
WIKIEVENTSとACE2005データセットの実験結果から,EA$2$Eの有効性が示された。
論文 参考訳(メタデータ) (2022-05-30T04:33:51Z) - ClarET: Pre-training a Correlation-Aware Context-To-Event Transformer
for Event-Centric Generation and Classification [74.6318379374801]
本稿では,イベント中心推論のための一般相関対応コンテキスト・イベント変換器(ClarET)の事前学習を提案する。
提案されたClarETは、幅広いイベント中心の推論シナリオに適用できる。
論文 参考訳(メタデータ) (2022-03-04T10:11:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。