論文の概要: TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding
- arxiv url: http://arxiv.org/abs/2512.23483v1
- Date: Mon, 29 Dec 2025 14:10:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.528562
- Title: TV-RAG: A Temporal-aware and Semantic Entropy-Weighted Framework for Long Video Retrieval and Understanding
- Title(参考訳): TV-RAG:ロングビデオ検索と理解のための時間的・意味的エントロピー重み付きフレームワーク
- Authors: Zongsheng Cao, Yangfan He, Anran Liu, Feng Chen, Zepeng Wang, Jun Xie,
- Abstract要約: TV-RAGは、時間的アライメントとエントロピー誘導のセマンティクスを結合して、長時間ビデオの推論を改善する、トレーニング不要のアーキテクチャである。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
- 参考スコア(独自算出の注目度): 14.570869250170139
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Video Language Models (LVLMs) have rapidly emerged as the focus of multimedia AI research. Nonetheless, when confronted with lengthy videos, these models struggle: their temporal windows are narrow, and they fail to notice fine-grained semantic shifts that unfold over extended durations. Moreover, mainstream text-based retrieval pipelines, which rely chiefly on surface-level lexical overlap, ignore the rich temporal interdependence among visual, audio, and subtitle channels. To mitigate these limitations, we propose TV-RAG, a training-free architecture that couples temporal alignment with entropy-guided semantics to improve long-video reasoning. The framework contributes two main mechanisms: \emph{(i)} a time-decay retrieval module that injects explicit temporal offsets into the similarity computation, thereby ranking text queries according to their true multimedia context; and \emph{(ii)} an entropy-weighted key-frame sampler that selects evenly spaced, information-dense frames, reducing redundancy while preserving representativeness. By weaving these temporal and semantic signals together, TV-RAG realises a dual-level reasoning routine that can be grafted onto any LVLM without re-training or fine-tuning. The resulting system offers a lightweight, budget-friendly upgrade path and consistently surpasses most leading baselines across established long-video benchmarks such as Video-MME, MLVU, and LongVideoBench, confirming the effectiveness of our model. The code can be found at https://github.com/AI-Researcher-Team/TV-RAG.
- Abstract(参考訳): マルチメディアAI研究の焦点としてLVLM(Large Video Language Models)が急速に登場した。
それでも、長いビデオに直面すると、これらのモデルは苦労する。その時間窓は狭く、長い期間にわたって広がる細かいセマンティックシフトに気づかない。
さらに、主に表面レベルの語彙重なりに依存している主流のテキストベースの検索パイプラインは、ビジュアル、オーディオ、サブタイトルチャネル間の豊富な時間的相互依存性を無視している。
これらの制約を緩和するために,エントロピー誘導型セマンティクスと時間的アライメントを結合して長時間ビデオ推論を改善するトレーニングフリーアーキテクチャであるTV-RAGを提案する。
このフレームワークは2つの主要なメカニズムに貢献している。
i) 時間デカイ検索モジュールで、明示的な時間オフセットを類似性計算に注入することで、真のマルチメディアコンテキストに従ってテキストクエリをランク付けする。
(ii) エントロピー重み付きキーフレームサンプリング器で、均一に空間化された情報密度のフレームを選択し、代表性を保ちながら冗長性を低下させる。
これらの時間的および意味的な信号を織り合わせることで、TV-RAGは、再トレーニングや微調整なしに任意のLVLMに移植できる二重レベルの推論ルーチンを実現する。
このシステムは軽量で予算に優しいアップグレードパスを提供し、ビデオMME、MLVU、LongVideoBenchなどの確立した長ビデオベンチマークにおいて、主要なベースラインを一貫して上回り、我々のモデルの有効性を確認します。
コードはhttps://github.com/AI-Researcher-Team/TV-RAGで見ることができる。
関連論文リスト
- Episodic Memory Representation for Long-form Video Understanding [52.33907540905242]
大きなビデオ言語モデルは、一般的なビデオ理解において優れているが、長い形式のコンテキストウィンドウの制限に苦労する。
人間の記憶の原理にインスパイアされたトレーニングフリーのフレームワークであるVideo-EMを紹介する。
Video-EMでは、各ベースラインに対して4-9%のパフォーマンス向上を実現し、フレームの削減を実現している。
論文 参考訳(メタデータ) (2025-08-13T04:33:07Z) - Exploiting Temporal State Space Sharing for Video Semantic Segmentation [53.8810901249897]
ビデオセマンティックセグメンテーション(VSS)はシーンの時間的進化を理解する上で重要な役割を担っている。
従来の手法では、ビデオはフレーム単位で、あるいは短い時間ウィンドウで分割されることが多く、時間的コンテキストや冗長な計算、重いメモリ要求に繋がる。
本研究では,時間的特徴共有にマンバ状態空間モデルを活用するための時間的ビデオ状態空間共有アーキテクチャを提案する。
本モデルでは,映像フレーム間の関連情報を効率的に伝播する選択的ゲーティング機構を特徴とし,メモリ量の多い機能プールの必要性を解消する。
論文 参考訳(メタデータ) (2025-03-26T01:47:42Z) - STORM: Token-Efficient Long Video Understanding for Multimodal LLMs [116.4479155699528]
STORMは、イメージエンコーダとビデオLLMの間に専用のテンポラリエンコーダを組み込んだ、新しいアーキテクチャである。
我々は,STORMが様々な長いビデオ理解ベンチマークにおいて最先端の結果を達成することを示す。
論文 参考訳(メタデータ) (2025-03-06T06:17:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。