論文の概要: HiCrew: Hierarchical Reasoning for Long-Form Video Understanding via Question-Aware Multi-Agent Collaboration
- arxiv url: http://arxiv.org/abs/2604.21444v1
- Date: Thu, 23 Apr 2026 09:04:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-24 14:40:06.396556
- Title: HiCrew: Hierarchical Reasoning for Long-Form Video Understanding via Question-Aware Multi-Agent Collaboration
- Title(参考訳): HiCrew: 質問対応マルチエージェントコラボレーションによる長時間のビデオ理解のための階層的推論
- Authors: Yuehan Zhu, Jingqi Zhao, Jiawen Zhao, Xudong Mao, Baoquan Zhao,
- Abstract要約: 3つのコアコントリビューションを通じて制限に対処する階層型マルチエージェントフレームワークであるHiCrewを紹介する。
まず,時間的トポロジを保存し,関連性を考慮した階層クラスタリングを行うハイブリッドツリー構造を提案する。
第2に,意図駆動型視覚的プロンプトを合成して意味記述を生成する質問認識キャプション機構を開発する。
- 参考スコア(独自算出の注目度): 9.907651803712803
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long-form video understanding remains fundamentally challenged by pervasive spatiotemporal redundancy and intricate narrative dependencies that span extended temporal horizons. While recent structured representations compress visual information effectively, they frequently sacrifice temporal coherence, which is critical for causal reasoning. Meanwhile, existing multi-agent frameworks operate through rigid, pre-defined workflows that fail to adapt their reasoning strategies to question-specific demands. In this paper, we introduce HiCrew, a hierarchical multi-agent framework that addresses these limitations through three core contributions. First, we propose a Hybrid Tree structure that leverages shot boundary detection to preserve temporal topology while performing relevance-guided hierarchical clustering within semantically coherent segments. Second, we develop a Question-Aware Captioning mechanism that synthesizes intent-driven visual prompts to generate precision-oriented semantic descriptions. Third, we integrate a Planning Layer that dynamically orchestrates agent collaboration by adaptively selecting roles and execution paths based on question complexity. Extensive experiments on EgoSchema and NExT-QA validate the effectiveness of our approach, demonstrating strong performance across diverse question types with particularly pronounced gains in temporal and causal reasoning tasks that benefit from our hierarchical structure-preserving design.
- Abstract(参考訳): 長期的ビデオ理解は、広範に時空間的冗長性と、時間的地平線にまたがる複雑な物語的依存関係によって、根本的な課題が残されている。
最近の構造化された表現は視覚情報を効果的に圧縮するが、因果推論にとって重要な時間的コヒーレンスをしばしば犠牲にする。
一方、既存のマルチエージェントフレームワークは、厳格で定義されたワークフローを通じて動作し、推論戦略を問題固有の要求に適応できない。
本稿では,3つのコアコントリビューションを通じてこれらの制限に対処する階層型マルチエージェントフレームワークであるHiCrewを紹介する。
まず、ショット境界検出を利用して時間的トポロジを保存し、意味的コヒーレントセグメント内で関連性誘導階層クラスタリングを行うハイブリッドツリー構造を提案する。
次に、意図駆動型視覚プロンプトを合成し、精度指向のセマンティック記述を生成する質問認識キャプション機構を開発する。
第3に,質問複雑性に基づいて役割や実行経路を適応的に選択することで,エージェントの協調を動的にオーケストレーションするプランニング層を統合する。
EgoSchema と NExT-QA の広範囲にわたる実験により, 階層構造保存設計の恩恵を受ける時間的・因果的推論タスクにおいて, 多様な質問型に対して高い性能を示した。
関連論文リスト
- Improving Coherence and Persistence in Agentic AI for System Optimization [9.443037059325086]
Engramは、反復的にメカニズムを設計、テスト、分析する一連のエージェントを探索する。
本研究では,マルチクラウドマルチキャスト推論,LLM要求ルーティング,自然言語クエリを用いたデータベースにおけるKVキャッシュ再利用の最適化など,さまざまな領域において優れた性能を示すことを示す。
論文 参考訳(メタデータ) (2026-03-22T17:04:50Z) - AgentLongBench: A Controllable Long Benchmark For Long-Contexts Agents via Environment Rollouts [78.33143446024485]
我々は、横方向思考パズルに基づく環境ロールアウトによるエージェントの評価を行うtextbfAgentLongBenchを紹介した。
このフレームワークは、知識集約的で知識のないシナリオにまたがる厳密な相互作用の軌跡を生成する。
論文 参考訳(メタデータ) (2026-01-28T16:05:44Z) - AMA: Adaptive Memory via Multi-Agent Collaboration [54.490349689939166]
複数の粒度にまたがるメモリ管理に協調エージェントを活用する新しいフレームワークであるAMA(Adaptive Memory via Multi-Agent Collaboration)を提案する。
AMAは、ステート・オブ・ザ・アートのベースラインを著しく上回り、トークンの消費をフルコンテキストの手法と比べて約80%削減する。
論文 参考訳(メタデータ) (2026-01-28T08:09:49Z) - Adaptive Multi-Agent Reasoning for Text-to-Video Retrieval [12.701443847087164]
本稿では,複数の推論を繰り返して特殊エージェントを編成する適応型マルチエージェント検索フレームワークを提案する。
私たちのフレームワークは、CLIP4Clipよりも2倍の改善を実現し、最先端のメソッドを大きなマージンで大幅に上回ります。
論文 参考訳(メタデータ) (2025-12-02T09:52:51Z) - COACH: Collaborative Agents for Contextual Highlighting - A Multi-Agent Framework for Sports Video Analysis [29.994841160588397]
本稿では,スポーツ映像理解のための基盤フレームワークとして,再構成可能なマルチエージェントシステム(MAS)を提案する。
本システムでは,各エージェントが,分析の特定の側面を専門とする「認知ツール」として機能する。
この研究は、堅牢でクロスタスクなスポーツビデオインテリジェンスのためのフレキシブルでスケーラブルで解釈可能なシステムへのパラダイムシフトを示す。
論文 参考訳(メタデータ) (2025-12-01T16:38:07Z) - StreamingCoT: A Dataset for Temporal Dynamics and Multimodal Chain-of-Thought Reasoning in Streaming VideoQA [60.86024022291499]
ストリーミングビデオストリームにおける時間的に進化する推論のために明示的に設計された最初のデータセットであるStreamingCoTを紹介する。
本フレームワークは,秒単位の高密度な記述を生成し,類似性融合により時間依存性のセマンティックセグメントを構築する。
このデータセットは、ストリーミングビデオ理解、複雑な時間的推論、マルチモーダル推論の研究を促進する基盤を確立する。
論文 参考訳(メタデータ) (2025-10-29T09:47:38Z) - Layer-of-Thoughts Prompting (LoT): Leveraging LLM-Based Retrieval with Constraint Hierarchies [0.3946282433423277]
Layer-of-Thoughts Prompting (LoT)は、制約階層を使用して、所定のクエリに対する候補応答をフィルタリングし、精査する。
LoTは情報検索タスクの精度と理解性を著しく改善する。
論文 参考訳(メタデータ) (2024-10-16T01:20:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。