論文の概要: ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction
- arxiv url: http://arxiv.org/abs/2603.06683v1
- Date: Wed, 04 Mar 2026 02:01:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:12.792192
- Title: ECHO: Event-Centric Hypergraph Operations via Multi-Agent Collaboration for Multimedia Event Extraction
- Title(参考訳): ECHO:マルチメディアイベント抽出のためのマルチエージェント協調によるイベント中心ハイパーグラフ操作
- Authors: Hailong Chu, Shuo Zhang, Yunlong Chu, Shutai Huang, Xingyue Zhang, Tinghe Yan, Jinsong Zhang, Lei Li,
- Abstract要約: ECHOは、共有マルチメディアイベントハイパーグラフ(MEHG)を反復的に洗練するマルチエージェントフレームワークである
対話中心のフレームワークとは異なり、ECHOはMEHGに原子ハイパーグラフ操作を適用することで特殊エージェントを調整する。
ECHOは最先端技術(SOTA)を大幅に上回る
- 参考スコア(独自算出の注目度): 10.094579816167572
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimedia Event Extraction (M2E2) involves extracting structured event records from both textual and visual content. Existing approaches, ranging from specialized architectures to direct Large Language Model (LLM) prompting, typically rely on a linear, end-to-end generation and thus suffer from cascading errors: early cross-modal misalignments often corrupt downstream role assignment under strict grounding constraints. We propose ECHO (Event-Centric Hypergraph Operations), a multi-agent framework that iteratively refines a shared Multimedia Event Hypergraph (MEHG), which serves as an explicit intermediate structure for multimodal event hypotheses. Unlike dialogue-centric frameworks, ECHO coordinates specialized agents by applying atomic hypergraph operations to the MEHG. Furthermore, we introduce a Link-then-Bind strategy that enforces deferred commitment: agents first identify relevant arguments and only then determine their precise roles, mitigating incorrect grounding and limiting error propagation. Extensive experiments on the M2E2 benchmark show that ECHO significantly outperforms the state-of-the-art (SOTA) : with Qwen3-32B, it achieves a 7.3% and 15.5% improvement in average event mention and argument role F1, respectively.
- Abstract(参考訳): マルチメディアイベント抽出(M2E2)は、テキストコンテンツとビジュアルコンテンツの両方から構造化されたイベントレコードを抽出する。
既存のアプローチは、特殊なアーキテクチャから直接言語モデル(LLM)まで、通常は線形のエンドツーエンド生成に依存し、カスケードエラーに悩まされる。
マルチモーダルイベント仮説の明示的な中間構造として機能する共有マルチメディアイベントハイパーグラフ(MEHG)を反復的に洗練するマルチエージェントフレームワークであるECHO(Event-Centric Hypergraph Operations)を提案する。
対話中心のフレームワークとは異なり、ECHOはMEHGに原子ハイパーグラフ操作を適用することで特殊エージェントを調整する。
エージェントはまず関係する議論を識別し、それらの正確な役割を判断し、誤った接地を緩和し、エラーの伝播を制限する。
M2E2ベンチマークの大規模な実験により、ECHOは最先端(SOTA)を著しく上回り、Qwen3-32Bでは、平均イベント参照と引数ロールF1でそれぞれ7.3%と15.5%の改善が達成された。
関連論文リスト
- Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events [53.2930351741501]
MMS(Multimodal Summarization)は、ビデオ、テキスト、画像間の情報を理解し統合することで、簡潔なテキスト要約を生成することを目的としている。
既存のアプローチは、(1)ドメイン固有の監督への依存、(2)弱いクロスモーダルな接地による暗黙の融合、(3)イベント遷移のないフラット・テンポラル・モデリングの3つの主要な課題に悩まされている。
これらの問題に対処するために、**CoE*は、階層イベントグラフ(HEG)によってガイドされた**Chain-of-Events**を通じて構造化推論を実行する、トレーニング不要なMMSフレームワークである**CoE*を紹介する。
論文 参考訳(メタデータ) (2026-03-06T12:29:33Z) - RMPL: Relation-aware Multi-task Progressive Learning with Stage-wise Training for Multimedia Event Extraction [8.874574211900562]
本稿では,マルチメディアイベント抽出のための多タスクプログレッシブラーニングフレームワークを提案する。
RMPLは、一様イベント抽出からの異種監視と、ステージワイドトレーニングによるマルチメディア関係抽出を取り入れている。
複数のVLMを用いたM2E2ベンチマークの実験では、異なるモード設定で一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-02-14T12:43:25Z) - Metacognitive Self-Correction for Multi-Agent System via Prototype-Guided Next-Execution Reconstruction [58.51530390018909]
大規模言語モデルに基づくマルチエージェントシステムは、協調的な問題解決において優れているが、エラーのカスケードには脆弱である。
我々は,MASにリアルタイム,教師なし,ステップレベルの誤り検出と自己補正を付与するメタ認知フレームワークMASCを提案する。
論文 参考訳(メタデータ) (2025-10-16T05:35:37Z) - Diagnose, Localize, Align: A Full-Stack Framework for Reliable LLM Multi-Agent Systems under Instruction Conflicts [75.20929587906228]
LLM(Large Language Model)を利用したマルチエージェントシステム(MAS)は、複雑なタスクにおける協調推論、ツールの使用、役割特化調整を急速に進めている。
しかし、信頼性クリティカルなデプロイメントは、体系的な障害モード、すなわち命令の競合による階層的コンプライアンスによって妨げられている。
論文 参考訳(メタデータ) (2025-09-27T08:43:34Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z) - GenEARL: A Training-Free Generative Framework for Multimodal Event Argument Role Labeling [89.07386210297373]
GenEARLは、イベントタスク記述を理解するために近代的な生成モデルの力を利用する、トレーニング不要な生成フレームワークである。
GenEARLは、M2E2データセットとSwiGデータセット上のゼロショットEARLに対して、CLIPベースラインを9.4%、精度14.2%で上回っている。
論文 参考訳(メタデータ) (2024-04-07T00:28:13Z) - Utilizing Contextual Clues and Role Correlations for Enhancing Document-level Event Argument Extraction [14.684710634595866]
文書レベルのイベント引数抽出は,情報抽出分野において重要な課題である。
本稿では、CARLGという新しいフレームワークを紹介し、CCA(Contextual Clues Aggregation)とRLIG(Role-based Latent Information Guidance)の2つの革新的なコンポーネントについて紹介する。
次に、CARLGフレームワークを、現在の主流EAEアプローチの2つのタイプに基づいて、2つの変種にインスタンス化します。特に、我々のCARLGフレームワークは、1%未満の新しいパラメータを導入し、性能を著しく改善しています。
論文 参考訳(メタデータ) (2023-10-08T11:09:16Z) - MsPrompt: Multi-step Prompt Learning for Debiasing Few-shot Event
Detection [16.98619925632727]
イベント検出(ED)は、構造化されていないテキストでキートリガーワードを特定し、それに従ってイベントタイプを予測することを目的としている。
従来のEDモデルは、ラベル付きデータが不足している実際のアプリケーションに対応するには、データ不足が多すぎる。
本稿では,複数ステップのプロンプト学習モデル(MsPrompt)を提案する。
論文 参考訳(メタデータ) (2023-05-16T10:19:12Z) - Abnormal Event Detection via Hypergraph Contrastive Learning [54.80429341415227]
異常事象検出は多くの実アプリケーションにおいて重要な役割を果たす。
本稿では,分散異種情報ネットワークにおける異常事象検出問題について検討する。
AEHCLと呼ばれる新しいハイパーグラフコントラスト学習法が,異常事象のパターンをフルに捉えるために提案されている。
論文 参考訳(メタデータ) (2023-04-02T08:23:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。