論文の概要: Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events
- arxiv url: http://arxiv.org/abs/2603.06213v1
- Date: Fri, 06 Mar 2026 12:29:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 13:17:45.689192
- Title: Cut to the Chase: Training-free Multimodal Summarization via Chain-of-Events
- Title(参考訳): Cut to the Chase: Chain-of-Eventsによるトレーニング不要なマルチモーダル要約
- Authors: Xiaoxing You, Qiang Huang, Lingyu Li, Xiaojun Chang, Jun Yu,
- Abstract要約: MMS(Multimodal Summarization)は、ビデオ、テキスト、画像間の情報を理解し統合することで、簡潔なテキスト要約を生成することを目的としている。
既存のアプローチは、(1)ドメイン固有の監督への依存、(2)弱いクロスモーダルな接地による暗黙の融合、(3)イベント遷移のないフラット・テンポラル・モデリングの3つの主要な課題に悩まされている。
これらの問題に対処するために、**CoE*は、階層イベントグラフ(HEG)によってガイドされた**Chain-of-Events**を通じて構造化推論を実行する、トレーニング不要なMMSフレームワークである**CoE*を紹介する。
- 参考スコア(独自算出の注目度): 53.2930351741501
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Summarization (MMS) aims to generate concise textual summaries by understanding and integrating information across videos, transcripts, and images. However, existing approaches still suffer from three main challenges: (1) reliance on domain-specific supervision, (2) implicit fusion with weak cross-modal grounding, and (3) flat temporal modeling without event transitions. To address these issues, we introduce **CoE**, a training-free MMS framework that performs structured reasoning through a **Chain-of-Events** guided by a Hierarchical Event Graph (HEG). The HEG encodes textual semantics into an explicit event hierarchy that scaffolds cross-modal grounding and temporal reasoning. Guided by this structure, **CoE** localizes key visual cues, models event evolution and causal transitions, and refines outputs via lightweight style adaptation for domain alignment. Extensive experiments on eight diverse datasets demonstrate that **CoE** consistently outperforms state-of-the-art video CoT baselines, achieving average gains of **+3.04 ROUGE**, **+9.51 CIDEr**, and **+1.88 BERTScore**, highlighting its robustness, interpretability, and cross-domain generalization. Our code is available at https://github.com/youxiaoxing/CoE.
- Abstract(参考訳): MMS(Multimodal Summarization)は、ビデオ、テキスト、画像間の情報を理解し統合することで、簡潔なテキスト要約を生成することを目的としている。
しかし、既存のアプローチは、(1)ドメイン固有の監督への依存、(2)クロスモーダルの弱い接地による暗黙の融合、(3)イベント遷移のないフラット・テンポラル・モデリングの3つの主要な課題に悩まされている。
これらの問題に対処するために、**CoE*は、階層イベントグラフ(HEG)によってガイドされた**Chain-of-Events**を通じて構造化推論を実行する、トレーニング不要なMMSフレームワークである**CoE*を紹介する。
HEGはテキストセマンティクスを明示的なイベント階層にエンコードする。
この構造によって導かれる**CoE**は、重要な視覚的手がかり、イベントの進化と因果遷移をローカライズし、ドメインアライメントのための軽量なスタイル適応を通じて出力を洗練します。
8つの多様なデータセットに対する大規模な実験により、**CoE**は最先端のビデオCoTベースラインを一貫して上回り、**+3.04 ROUGE**、**+9.51 CIDEr*、**+1.88 BERTScore*の平均ゲインを達成する。
私たちのコードはhttps://github.com/youxiaoxing/CoE.comで利用可能です。
関連論文リスト
- RMPL: Relation-aware Multi-task Progressive Learning with Stage-wise Training for Multimedia Event Extraction [8.874574211900562]
本稿では,マルチメディアイベント抽出のための多タスクプログレッシブラーニングフレームワークを提案する。
RMPLは、一様イベント抽出からの異種監視と、ステージワイドトレーニングによるマルチメディア関係抽出を取り入れている。
複数のVLMを用いたM2E2ベンチマークの実験では、異なるモード設定で一貫した改善が見られた。
論文 参考訳(メタデータ) (2026-02-14T12:43:25Z) - DynaPURLS: Dynamic Refinement of Part-aware Representations for Skeleton-based Zero-Shot Action Recognition [51.80782323686666]
textbfDynaPURLSは、堅牢でマルチスケールなビジュアル・セマンティック対応を確立する統一的なフレームワークである。
我々のフレームワークは、グローバルな動きと局所的な身体部分のダイナミクスの両方を含む階層的なテキスト記述を生成するために、大きな言語モデルを活用する。
NTU RGB+D 60/120とPKU-MMDを含む3つの大規模ベンチマークデータセットの実験は、DynaPURLSが先行技術よりも大幅に優れていることを示した。
論文 参考訳(メタデータ) (2025-12-12T10:39:10Z) - Do We Need Perfect Data? Leveraging Noise for Domain Generalized Segmentation [20.89655949578527]
本稿では,この制限を頑健な学習機会に変換するフレームワークFLEX-Segを提案する。
5つの実世界のデータセットに対する実験は、最先端の手法よりも一貫した改善を示している。
その結果、不完全な合成データを扱うための適応的戦略が、ドメインの一般化に優れた結果をもたらすことが検証された。
論文 参考訳(メタデータ) (2025-11-28T07:46:32Z) - The Telephone Game: Evaluating Semantic Drift in Unified Models [41.650904633974584]
単一の統一モデル(UM)を視覚的理解(画像からテキストへのI2T)と視覚生成(テキストから画像へのT2I)の両方に使用することで、ビジュアル言語モデル(VLM)研究の新しい方向性が開かれた。
FIDとGenEvalはT2I用であり、MMEやMMBenchはI2T用である。
これらの孤立したシングルパスメトリクスは、相互整合性を明らかにしない。概念を"理解"するモデルが、それを"レンダリング"できるのか、意味的な意味を持つのか。
論文 参考訳(メタデータ) (2025-09-04T17:53:52Z) - E-CaTCH: Event-Centric Cross-Modal Attention with Temporal Consistency and Class-Imbalance Handling for Misinformation Detection [4.34871407874107]
E-CaTCHはソーシャルメディア上の誤情報を堅牢に検出するためのフレームワークである。
テキストの類似性と時間的近接性に基づいて、ポストを擬似イベントに集約し、各イベントを独立して処理する。
E-CaTCHは、最先端のベースラインを一貫して上回る。
論文 参考訳(メタデータ) (2025-08-15T04:13:23Z) - ESTR-CoT: Towards Explainable and Accurate Event Stream based Scene Text Recognition with Chain-of-Thought Reasoning [57.767536707234036]
本稿では,イベントストリームシーンのテキスト認識フレームワークESTR-CoTを提案する。
具体的には、まず視覚エンコーダEVA-CLIPを採用し、入力イベントストリームをトークンに変換し、Llamaトークン化器を使用して与えられた生成プロンプトをエンコードする。
Qフォーマーは、事前訓練された大言語モデルVicuna-7Bにビジョントークンを整列させ、応答とチェーン・オブ・シークレット(CoT)推論プロセスの両方を同時に出力する。
論文 参考訳(メタデータ) (2025-07-02T23:41:31Z) - Compile Scene Graphs with Reinforcement Learning [69.36723767339001]
次世代予測は大規模言語モデル(LLM)の訓練の基本原理である
本稿では,マルチモーダルLLM(M-LLM)であるR1-SGGを紹介する。
私たちは、Hard Recall、Hard Recall+Relax、Soft Recallの3つのリコールベースのバリエーションを含む、グラフ中心の報酬セットを設計します。
論文 参考訳(メタデータ) (2025-04-18T10:46:22Z) - Unlocking Multi-Modal Potentials for Link Prediction on Dynamic Text-Attributed Graphs [28.533930417703715]
Dynamic Text-Attributed Graphs (DyTAGs)は、リッチテキスト属性とともに進化する時間的イベント(エッジ)をキャプチャする新しいグラフパラダイムである。
MoMentは、リンク予測のためのノード表現を学習するために、各モードを明示的にモデル化し、統合し、調整するマルチモーダルモデルである。
実験の結果、MoMentは最大17.28%の精度向上を実現し、8つのベースラインに対して最大31倍のスピードアップを達成した。
論文 参考訳(メタデータ) (2025-02-27T00:49:44Z) - NativE: Multi-modal Knowledge Graph Completion in the Wild [51.80447197290866]
本研究では,MMKGCを実現するための包括的フレームワークNativEを提案する。
NativEは、任意のモダリティに対して適応的な融合を可能にするリレーショナル誘導デュアルアダプティブフュージョンモジュールを提案する。
提案手法を評価するために,5つのデータセットを用いたWildKGCという新しいベンチマークを構築した。
論文 参考訳(メタデータ) (2024-03-28T03:04:00Z) - Object Segmentation by Mining Cross-Modal Semantics [68.88086621181628]
マルチモーダル特徴の融合と復号を導くために,クロスモーダル・セマンティックスをマイニングする手法を提案する。
具体的には,(1)全周減衰核融合(AF),(2)粗大デコーダ(CFD),(3)多層自己超越からなる新しいネットワークXMSNetを提案する。
論文 参考訳(メタデータ) (2023-05-17T14:30:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。