論文の概要: Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search
- arxiv url: http://arxiv.org/abs/2601.13719v1
- Date: Tue, 20 Jan 2026 08:23:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:23.225791
- Title: Hierarchical Long Video Understanding with Audiovisual Entity Cohesion and Agentic Search
- Title(参考訳): 聴覚的エンティティ結合とエージェントサーチによる階層的ロングビデオ理解
- Authors: Xinlei Yin, Xiulian Peng, Xiao Li, Zhiwei Xiong, Yan Lu,
- Abstract要約: 我々は,コヒーレントかつ包括的推論を可能にする,長時間ビデオ理解のための統一的なフレームワークであるHAVENを提案する。
視覚ストリームと聴覚ストリームをまたいだエンティティレベルの表現を統合することで、セマンティック一貫性を維持する。
これらの層にまたがる動的検索と推論を可能にするためにエージェント検索機構を用いる。
- 参考スコア(独自算出の注目度): 61.88597038104749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Long video understanding presents significant challenges for vision-language models due to extremely long context windows. Existing solutions relying on naive chunking strategies with retrieval-augmented generation, typically suffer from information fragmentation and a loss of global coherence. We present HAVEN, a unified framework for long-video understanding that enables coherent and comprehensive reasoning by integrating audiovisual entity cohesion and hierarchical video indexing with agentic search. First, we preserve semantic consistency by integrating entity-level representations across visual and auditory streams, while organizing content into a structured hierarchy spanning global summary, scene, segment, and entity levels. Then we employ an agentic search mechanism to enable dynamic retrieval and reasoning across these layers, facilitating coherent narrative reconstruction and fine-grained entity tracking. Extensive experiments demonstrate that our method achieves good temporal coherence, entity consistency, and retrieval efficiency, establishing a new state-of-the-art with an overall accuracy of 84.1% on LVBench. Notably, it achieves outstanding performance in the challenging reasoning category, reaching 80.1%. These results highlight the effectiveness of structured, multimodal reasoning for comprehensive and context-consistent understanding of long-form videos.
- Abstract(参考訳): 長いビデオ理解は、非常に長いコンテキストウィンドウのため、視覚言語モデルにとって大きな課題となる。
既存のソリューションは、情報断片化とグローバルコヒーレンスの喪失に苦しむ、検索強化世代による単純なチャンキング戦略に依存している。
本稿では,音声視覚的実体結合と階層的ビデオインデックスをエージェント検索と統合することにより,一貫性と包括的推論を可能にする,長時間ビデオ理解のための統合フレームワークであるHAVENを提案する。
まず,世界的要約,シーン,セグメント,エンティティレベルにまたがる構造化階層にコンテンツを整理しながら,視覚的および聴覚的ストリームにまたがるエンティティレベルの表現を統合することで,セマンティック一貫性を維持する。
次にエージェント検索機構を用いて,これらの層をまたいだ動的検索と推論を可能にし,コヒーレントな物語再構築ときめ細かい実体追跡を容易にする。
大規模な実験により,LVBench上での時間的コヒーレンス,エンティティの整合性,検索効率が向上し,総合精度84.1%の新たな最先端技術が確立された。
特に、挑戦的な推論カテゴリーで卓越したパフォーマンスを達成し、80.1%に達した。
これらの結果は,長期ビデオの包括的・文脈的理解における構造化・多モーダル推論の有効性を浮き彫りにした。
関連論文リスト
- EEA: Exploration-Exploitation Agent for Long Video Understanding [24.45791994592314]
ロングフォームビデオ理解には、重要でない情報をピンポイントするために、広範囲の視覚データの効率的なナビゲーションが必要である。
ビデオ理解のロングフォーム化への現在のアプローチは、高密度な前処理による計算オーバーヘッドに悩まされるか、どちらかである。
セマンティックガイダンスを通じて探索・探索バランスをアーカイブする新しいビデオエージェントフレームワークであるEEAを紹介する。
論文 参考訳(メタデータ) (2025-12-03T06:48:36Z) - VideoForest: Person-Anchored Hierarchical Reasoning for Cross-Video Question Answering [14.039561301034848]
ビデオ間の質問応答は、従来のシングルビデオ理解以上の大きな課題を提示する。
我々は、人による階層的推論を通じてこれらの課題に対処する、新しいフレームワークであるVideoForestを紹介する。
提案手法では,ビデオ間の自然なブリッジポイントとして人間レベルの特徴を活用し,エンドツーエンドのトレーニングを必要とせず,効果的にビデオ間の理解を可能にする。
論文 参考訳(メタデータ) (2025-08-05T03:33:24Z) - Query-centric Audio-Visual Cognition Network for Moment Retrieval, Segmentation and Step-Captioning [56.873534081386]
ビデオ検索、モーメント検索、モーメントセグメンテーション、ステップキャプションを含む新しいトピックHIRESTが紹介されている。
3つのタスクに対して信頼性の高いマルチモーダル表現を構築するために,クエリ中心の音声視覚認知ネットワークを提案する。
これにより、ユーザが優先するコンテンツを認識し、3つのタスクに対してクエリ中心の音声視覚表現を実現することができる。
論文 参考訳(メタデータ) (2024-12-18T06:43:06Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z) - Tree-Augmented Cross-Modal Encoding for Complex-Query Video Retrieval [98.62404433761432]
インターネット上のユーザ生成ビデオの急速な増加により、テキストベースのビデオ検索システムの必要性が高まっている。
従来の手法は主に単純なクエリによる検索における概念に基づくパラダイムを好んでいる。
木を増設したクロスモーダルを提案する。
クエリの言語構造とビデオの時間表現を共同で学習する手法。
論文 参考訳(メタデータ) (2020-07-06T02:50:27Z) - See More, Know More: Unsupervised Video Object Segmentation with
Co-Attention Siamese Networks [184.4379622593225]
教師なしビデオオブジェクトセグメンテーションタスクに対処するため,CO-attention Siamese Network (COSNet) と呼ばれる新しいネットワークを導入する。
我々は,ビデオフレーム間の固有相関の重要性を強調し,グローバルなコアテンション機構を取り入れた。
本稿では、ビデオ内のリッチなコンテキストをマイニングするために、異なるコアテンションの変種を導出する、統一的でエンドツーエンドのトレーニング可能なフレームワークを提案する。
論文 参考訳(メタデータ) (2020-01-19T11:10:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。