論文の概要: Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM
- arxiv url: http://arxiv.org/abs/2409.09362v1
- Date: Sat, 14 Sep 2024 08:30:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-17 21:09:38.719879
- Title: Generating Event-oriented Attribution for Movies via Two-Stage Prefix-Enhanced Multimodal LLM
- Title(参考訳): 2段階プレフィックス強化マルチモーダルLDMによる映画イベント指向属性生成
- Authors: Yuanjie Lyu, Tong Xu, Zihan Niu, Bo Peng, Jing Ke, Enhong Chen,
- Abstract要約: 本稿では,2段階の事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、1つのクリップ内の関連するマルチモーダル情報にフォーカスするようモデルに誘導する対話対応プレフィックスを導入する。
グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化する。
- 参考スコア(独自算出の注目度): 47.786978666537436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The prosperity of social media platforms has raised the urgent demand for semantic-rich services, e.g., event and storyline attribution. However, most existing research focuses on clip-level event understanding, primarily through basic captioning tasks, without analyzing the causes of events across an entire movie. This is a significant challenge, as even advanced multimodal large language models (MLLMs) struggle with extensive multimodal information due to limited context length. To address this issue, we propose a Two-Stage Prefix-Enhanced MLLM (TSPE) approach for event attribution, i.e., connecting associated events with their causal semantics, in movie videos. In the local stage, we introduce an interaction-aware prefix that guides the model to focus on the relevant multimodal information within a single clip, briefly summarizing the single event. Correspondingly, in the global stage, we strengthen the connections between associated events using an inferential knowledge graph, and design an event-aware prefix that directs the model to focus on associated events rather than all preceding clips, resulting in accurate event attribution. Comprehensive evaluations of two real-world datasets demonstrate that our framework outperforms state-of-the-art methods.
- Abstract(参考訳): ソーシャルメディアプラットフォームの繁栄は、イベントやストーリーラインの属性など、セマンティックリッチなサービスに対する緊急の需要を高めている。
しかし、既存の研究のほとんどは、映画全体にわたる出来事の原因を分析することなく、主に基本的なキャプションタスクを通して、クリップレベルのイベント理解に焦点を当てている。
高度なマルチモーダル大規模言語モデル(MLLM)でさえ、コンテキスト長が制限されているため、広範囲なマルチモーダル情報に苦しむため、これは大きな課題である。
この問題に対処するために,ビデオビデオにおけるイベント属性,すなわち関連イベントと因果意味論を結びつけるための2段階事前修正強化MLLM (TSPE) アプローチを提案する。
局所的な段階では、対話対応プレフィックスを導入し、単一のイベントを簡潔に要約して、関連するマルチモーダル情報に集中するようモデルに誘導する。
それに対応して、グローバルな段階では、推論知識グラフを用いて関連するイベント間の接続を強化し、モデルに先行するすべてのクリップではなく関連するイベントにフォーカスするよう指示するイベント認識プレフィックスを設計し、正確なイベント帰属をもたらす。
2つの実世界のデータセットの総合的な評価は、我々のフレームワークが最先端の手法より優れていることを示している。
関連論文リスト
- Grounding Partially-Defined Events in Multimodal Data [61.0063273919745]
部分定義イベントに対するマルチモーダル定式化を導入し、これらのイベントの抽出を3段階スパン検索タスクとしてキャストする。
このタスクのベンチマークであるMultiVENT-Gを提案し,22.8Kのラベル付きイベント中心エンティティを含む,14.5時間の高密度アノテーション付き現在のイベントビデオと1,168のテキストドキュメントからなる。
結果は、イベント理解の抽象的な課題を示し、イベント中心のビデオ言語システムにおける約束を実証する。
論文 参考訳(メタデータ) (2024-10-07T17:59:48Z) - Synergetic Event Understanding: A Collaborative Approach to Cross-Document Event Coreference Resolution with Large Language Models [41.524192769406945]
クロスドキュメントイベントコア参照解決(CDECR)では、複数のドキュメントにまたがって、同じ実世界のイベントを参照するイベントをクラスタリングする。
既存のアプローチでは、イベント参照のコンテキスト間の互換性に対処するために、小さな言語モデル(SLM)の微調整を利用している。
本稿では,CDECR の協調的アプローチを提案し,汎用性のある LLM とタスク固有の SLM の両機能を活用している。
論文 参考訳(メタデータ) (2024-06-04T09:35:47Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - Leveraging the Video-level Semantic Consistency of Event for
Audio-visual Event Localization [8.530561069113716]
AVEローカライゼーションタスクのためのビデオレベルのセマンティック・コンセンサス・ガイダンス・ネットワークを提案する。
クロスモーダルなイベント表現抽出器と、モーダル内のセマンティック一貫性向上器の2つのコンポーネントから構成される。
我々は、パブリックなAVVデータセット上で広範な実験を行い、完全に教師された設定と弱い設定の両方において最先端の手法より優れています。
論文 参考訳(メタデータ) (2022-10-11T08:15:57Z) - Unifying Event Detection and Captioning as Sequence Generation via
Pre-Training [53.613265415703815]
本稿では,イベント検出とキャプションのタスク間関連性を高めるための,事前学習と微調整の統合フレームワークを提案する。
我々のモデルは最先端の手法よりも優れており、大規模ビデオテキストデータによる事前学習ではさらに向上できる。
論文 参考訳(メタデータ) (2022-07-18T14:18:13Z) - Beyond Grounding: Extracting Fine-Grained Event Hierarchies Across
Modalities [43.048896440009784]
マルチモーダル(ビデオとテキスト)データからイベント階層を抽出するタスクを提案する。
これはイベントの構造を明らかにし、それらを理解するのに不可欠である。
我々は,この課題に対して,最先端のユニモーダルベースラインとマルチモーダルベースラインの限界を示す。
論文 参考訳(メタデータ) (2022-06-14T23:24:15Z) - Multi-Modulation Network for Audio-Visual Event Localization [138.14529518908736]
本研究では,映像中の可聴性と可視性の両方を有する音声視覚事象のローカライズの問題について検討する。
既存の作業は、セグメントレベルでのオーディオと視覚機能のエンコーディングと調整に重点を置いている。
本稿では、上記の相関関係を学習し、意味的ガイダンスとして活用する新しいマルチ変調ネットワーク(M2N)を提案する。
論文 参考訳(メタデータ) (2021-08-26T13:11:48Z) - Team RUC_AIM3 Technical Report at Activitynet 2020 Task 2: Exploring
Sequential Events Detection for Dense Video Captioning [63.91369308085091]
本稿では、イベントシーケンス生成のための新規でシンプルなモデルを提案し、ビデオ中のイベントシーケンスの時間的関係を探索する。
提案モデルでは,非効率な2段階提案生成を省略し,双方向時間依存性を条件としたイベント境界を直接生成する。
総合システムは、チャレンジテストセットの9.894 METEORスコアで、ビデオタスクにおける密封イベントの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2020-06-14T13:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。