論文の概要: SVAgent: Storyline-Guided Long Video Understanding via Cross-Modal Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2604.05079v1
- Date: Mon, 06 Apr 2026 18:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-08 17:42:09.439737
- Title: SVAgent: Storyline-Guided Long Video Understanding via Cross-Modal Multi-Agent Collaboration
- Title(参考訳): SVAgent: クロスモーダルなマルチエージェントコラボレーションによるストーリーラインガイド付きロングビデオ理解
- Authors: Zhongyu Yang, Zuhao Yang, Shuo Zhan, Tan Yue, Wei Pang, Yingfang Yuan,
- Abstract要約: VideoQAは、ビデオシーケンスの複雑なダイナミクスをキャプチャするために、空間的、時間的、意味的な情報を統合する必要がある、困難なタスクである。
本稿では,ビデオQAのためのストーリーライン誘導型クロスモーダルマルチエージェントフレームワークであるSVAgentを提案する。
実験により,SVAgentは映像理解において人間のようなストーリーライン推論をエミュレートすることにより,優れた性能と解釈性を実現することが示された。
- 参考スコア(独自算出の注目度): 6.451186120567798
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Video question answering (VideoQA) is a challenging task that requires integrating spatial, temporal, and semantic information to capture the complex dynamics of video sequences. Although recent advances have introduced various approaches for video understanding, most existing methods still rely on locating relevant frames to answer questions rather than reasoning through the evolving storyline as humans do. Humans naturally interpret videos through coherent storylines, an ability that is crucial for making robust and contextually grounded predictions. To address this gap, we propose SVAgent, a storyline-guided cross-modal multi-agent framework for VideoQA. The storyline agent progressively constructs a narrative representation based on frames suggested by a refinement suggestion agent that analyzes historical failures. In addition, cross-modal decision agents independently predict answers from visual and textual modalities under the guidance of the evolving storyline. Their outputs are then evaluated by a meta-agent to align cross-modal predictions and enhance reasoning robustness and answer consistency. Experimental results demonstrate that SVAgent achieves superior performance and interpretability by emulating human-like storyline reasoning in video understanding.
- Abstract(参考訳): ビデオ質問応答(Video QA)は、ビデオシーケンスの複雑なダイナミクスを捉えるために、空間的、時間的、意味的な情報を統合する必要がある課題である。
近年の進歩はビデオ理解に様々なアプローチを導入しているが、既存の手法の多くは、人間がしているように進化するストーリーラインを推論するのではなく、質問に答えるために関連するフレームの配置に依存している。
人間は自然にコヒーレントなストーリーラインを通じてビデオを解釈する。
このギャップに対処するため,ビデオQAのためのストーリーライン誘導型クロスモーダルマルチエージェントフレームワークであるSVAgentを提案する。
ストーリーラインエージェントは、歴史的失敗を分析する洗練提案エージェントによって提案されたフレームに基づいて物語表現を段階的に構築する。
さらに、クロスモーダルな意思決定エージェントは、進化するストーリーラインの指導の下で、視覚的およびテキスト的モダリティからの回答を独立して予測する。
それらの出力はメタエージェントによって評価され、クロスモーダルな予測を整列させ、推論の堅牢性を高め、答えの整合性を高める。
実験により,SVAgentは映像理解において人間のようなストーリーライン推論をエミュレートすることにより,優れた性能と解釈性を実現することが示された。
関連論文リスト
- Think, Then Verify: A Hypothesis-Verification Multi-Agent Framework for Long Video Understanding [25.82963105515627]
VideoHV-Agentは、構造化仮説検証プロセスとしてビデオ質問応答を再構成するフレームワークである。
ビデオHV-Agentは,解釈性の向上,論理的音質の向上,計算コストの低減を実現し,最先端の精度を実現する。
論文 参考訳(メタデータ) (2026-03-05T09:16:07Z) - LongVideoAgent: Multi-Agent Reasoning with Long Videos [69.28914905197426]
本稿では,主LLMが問題関連セグメントの局所化のために接地エージェントをコーディネートするマルチエージェントフレームワークと,対象とするテキスト観察を抽出する視覚エージェントを提案する。
マスターエージェントは、ステップ制限で計画し、簡潔で正確で効率的なマルチエージェント協調を促進するために強化学習で訓練されている。
テレビQA/TVQA+から集約したエピソードレベルのデータセットであるLongTVQAとLongTVQA+では,マルチエージェントシステムは強力な非エージェントベースラインよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-12-23T18:59:49Z) - VideoExplorer: Think With Videos For Agentic Long-Video Understanding [117.68219930263153]
ロングビデオ理解はコンピュータビジョンにおいて難しい問題である。
ビデオによる思考の原則に基づくフレームワークであるVideoExplorerを提案する。
静的なコンテキストを推論する代わりに、VideoExplorerは、サブクエストを反復的に定式化し、関連するモーメントを特定し、タスク指向で時間的にスケーラブルなビデオ理解を実行する。
論文 参考訳(メタデータ) (2025-06-12T15:39:10Z) - VideoMultiAgents: A Multi-Agent Framework for Video Question Answering [11.514596823413736]
Video Question Answering (VQA) は本質的にマルチモーダル推論に依存している。
本稿では,視覚,シーングラフ解析,テキスト処理などの特殊エージェントを統合するフレームワークであるVideoMultiAgentsを紹介する。
提案手法は, 対象, 行動, 時間的遷移をハイライトするキャプションを生成する, 質問誘導キャプション生成を補足する。
論文 参考訳(メタデータ) (2025-04-25T22:08:09Z) - StoryAgent: Customized Storytelling Video Generation via Multi-Agent Collaboration [88.94832383850533]
CSVG(Customized Storytelling Video Generation)のためのマルチエージェントフレームワークを提案する。
StoryAgentはCSVGを特殊エージェントに割り当てられた個別のサブタスクに分解し、プロの制作プロセスを反映する。
具体的には、撮影時間内整合性を高めるために、カスタマイズされたイメージ・ツー・ビデオ(I2V)手法であるLoRA-BEを導入する。
コントリビューションには、ビデオ生成タスクのための汎用フレームワークであるStoryAgentの導入や、プロタゴニストの一貫性を維持するための新しい技術が含まれている。
論文 参考訳(メタデータ) (2024-11-07T18:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。