論文の概要: Symphony: A Cognitively-Inspired Multi-Agent System for Long-Video Understanding
- arxiv url: http://arxiv.org/abs/2603.17307v1
- Date: Wed, 18 Mar 2026 03:04:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.490113
- Title: Symphony: A Cognitively-Inspired Multi-Agent System for Long-Video Understanding
- Title(参考訳): Symphony:ロングビデオ理解のための認知型マルチエージェントシステム
- Authors: Haiyang Yan, Hongyun Zhou, Peng Xu, Xiaoxue Feng, Mengyi Liu,
- Abstract要約: ロングフォームビデオ理解(LVU)タスクは、高情報密度と拡張時空間によって特徴づけられる。
LVUエージェントに関する最近の研究は、単純なタスク分解と協調機構がLVUタスクには不十分であることを実証している。
我々は,LVUを細粒度サブタスクに分解し,深い推論協調機構を組み込んだマルチエージェントシステムであるSymphonyを提案する。
- 参考スコア(独自算出の注目度): 5.981841802050151
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite rapid developments and widespread applications of MLLM agents, they still struggle with long-form video understanding (LVU) tasks, which are characterized by high information density and extended temporal spans. Recent research on LVU agents demonstrates that simple task decomposition and collaboration mechanisms are insufficient for long-chain reasoning tasks. Moreover, directly reducing the time context through embedding-based retrieval may lose key information of complex problems. In this paper, we propose Symphony, a multi-agent system, to alleviate these limitations. By emulating human cognition patterns, Symphony decomposes LVU into fine-grained subtasks and incorporates a deep reasoning collaboration mechanism enhanced by reflection, effectively improving the reasoning capability. Additionally, Symphony provides a VLM-based grounding approach to analyze LVU tasks and assess the relevance of video segments, which significantly enhances the ability to locate complex problems with implicit intentions and large temporal spans. Experimental results show that Symphony achieves state-of-the-art performance on LVBench, LongVideoBench, VideoMME, and MLVU, with a 5.0% improvement over the prior state-of-the-art method on LVBench. Code is available at https://github.com/Haiyang0226/Symphony.
- Abstract(参考訳): MLLMエージェントの急速な開発と広範囲の応用にもかかわらず、彼らは高情報密度と時空間の拡張を特徴とするLVU(Long-form Video Understanding)タスクに苦慮している。
LVUエージェントに関する最近の研究は、単純なタスクの分解と協調機構が長鎖推論タスクには不十分であることを実証している。
さらに,組込み型検索による時間文脈の直接的低減は,複雑な問題の鍵となる情報を失う可能性がある。
本稿では,これらの制約を緩和するマルチエージェントシステムであるSymphonyを提案する。
人間の認知パターンをエミュレートすることで、SymphonyはLVUを微細なサブタスクに分解し、リフレクションによって強化された深い推論協調機構を組み込み、推論能力を効果的に改善する。
さらに、SymphonyはVLMベースのグラウンド方式でLVUタスクを分析し、ビデオセグメントの関連性を評価する。
実験の結果,SymphonyはLVBench,LongVideoBench,VideoMME,MLVUに対して,従来のLVBenchよりも5.0%改善した。
コードはhttps://github.com/Haiyang0226/Symphony.comで入手できる。
関連論文リスト
- VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - Memory-enhanced Retrieval Augmentation for Long Video Understanding [91.7163732531159]
本稿では,メモリ強化型RAGベースの新しいアプローチであるMemVidを紹介する。
提案手法は,1) 全体的映像情報の記憶,2) メモリに基づくタスクの情報要求の推論,3) 情報要求に基づくクリティカルモーメントの検索,4) 最終回答を生成するための検索モーメントの抽出という4つの基本的なステップで機能する。
MemVid は LVLM 法と RAG 法に比較して, 効率と有効性を示す。
論文 参考訳(メタデータ) (2025-03-12T08:23:32Z) - Do Language Models Understand Time? [2.290956583394892]
大規模言語モデル(LLM)は、アクション認識、異常検出、要約を含む、ビデオベースのコンピュータビジョンアプリケーションに革命をもたらした。
本研究は,ビデオ処理におけるLLMの役割を,時間的推論能力に着目して批判的に考察する。
LLMの時間的理解を制限するため、バイアス、時間的アノテーションの欠如、ドメイン固有の制限など、既存のビデオデータセットによる課題を分析します。
論文 参考訳(メタデータ) (2024-12-18T13:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。