論文の概要: E-VRAG: Enhancing Long Video Understanding with Resource-Efficient Retrieval Augmented Generation
- arxiv url: http://arxiv.org/abs/2508.01546v1
- Date: Sun, 03 Aug 2025 02:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.934675
- Title: E-VRAG: Enhancing Long Video Understanding with Resource-Efficient Retrieval Augmented Generation
- Title(参考訳): E-VRAG: 資源効率の良い検索拡張生成による長いビデオ理解の強化
- Authors: Zeyu Xu, Junkang Zhang, Qiang Wang, Yi Liu,
- Abstract要約: ビデオ理解のための新規かつ効率的なビデオRAGフレームワークであるE-VRAGを提案する。
まず,階層的な問合せ分解に基づくフレーム前フィルタリング手法を適用し,無関係なフレームを除去する。
次に、フレームスコアリングに軽量なVLMを用い、モデルレベルでの計算コストをさらに削減する。
- 参考スコア(独自算出の注目度): 8.441615871480858
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models (VLMs) have enabled substantial progress in video understanding by leveraging cross-modal reasoning capabilities. However, their effectiveness is limited by the restricted context window and the high computational cost required to process long videos with thousands of frames. Retrieval-augmented generation (RAG) addresses this challenge by selecting only the most relevant frames as input, thereby reducing the computational burden. Nevertheless, existing video RAG methods struggle to balance retrieval efficiency and accuracy, particularly when handling diverse and complex video content. To address these limitations, we propose E-VRAG, a novel and efficient video RAG framework for video understanding. We first apply a frame pre-filtering method based on hierarchical query decomposition to eliminate irrelevant frames, reducing computational costs at the data level. We then employ a lightweight VLM for frame scoring, further reducing computational costs at the model level. Additionally, we propose a frame retrieval strategy that leverages the global statistical distribution of inter-frame scores to mitigate the potential performance degradation from using a lightweight VLM. Finally, we introduce a multi-view question answering scheme for the retrieved frames, enhancing the VLM's capability to extract and comprehend information from long video contexts. Experiments on four public benchmarks show that E-VRAG achieves about 70% reduction in computational cost and higher accuracy compared to baseline methods, all without additional training. These results demonstrate the effectiveness of E-VRAG in improving both efficiency and accuracy for video RAG tasks.
- Abstract(参考訳): VLM(Vision-Language Models)は、モーダル間推論機能を活用することで、映像理解の大幅な進歩を実現している。
しかし、それらの効果は制限されたコンテキストウィンドウと、数千フレームの長いビデオを処理するのに必要な計算コストによって制限されている。
Retrieval-augmented Generation (RAG) は、最も関連性の高いフレームのみを入力として選択することで、計算負担を軽減することで、この問題に対処する。
それにもかかわらず、既存のビデオRAG法は、特に多種多様な複雑なビデオコンテンツを扱う際に、検索効率と精度のバランスをとるのに苦労している。
これらの制約に対処するために,ビデオ理解のための新しい,効率的なビデオRAGフレームワークであるE-VRAGを提案する。
まず、階層的なクエリ分解に基づくフレーム事前フィルタリング手法を適用し、無関係なフレームを排除し、データレベルでの計算コストを削減する。
次に、フレームスコアリングに軽量なVLMを用い、モデルレベルでの計算コストをさらに削減する。
さらに,フレーム間スコアのグローバルな統計分布を利用して,軽量なVLMによる潜在的な性能劣化を緩和するフレーム検索手法を提案する。
最後に、検索したフレームに対する多視点質問応答方式を導入し、長いビデオコンテキストから情報を抽出・理解するVLMの機能を強化した。
4つの公開ベンチマークでの実験では、E-VRAGは計算コストを約70%削減し、ベースライン法と比較して精度を向上する。
これらの結果から,映像RAGタスクの効率と精度の向上にE-VRAGの有効性が示された。
関連論文リスト
- Less is More: Token-Efficient Video-QA via Adaptive Frame-Pruning and Semantic Graph Integration [21.69452489173625]
過剰なフレームが文脈の希釈によってパラドックス的に性能を低下させる「レスはそれ以上」現象である。
視覚エコー」は「視覚エコー」という時間的冗長性を有する
AFP"は、ResNet-50とCLIPの機能空間に適応的な階層的クラスタリングアルゴリズムを用いて、これらのエコーを単一の代表に識別し、マージする。
我々の完全なアプローチは、必要なフレームを86.9%まで、合計入力トークンを83.2%まで劇的に削減することを示しています。
論文 参考訳(メタデータ) (2025-08-05T11:31:55Z) - AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - FCA2: Frame Compression-Aware Autoencoder for Modular and Fast Compressed Video Super-Resolution [68.77813885751308]
最先端(SOTA)圧縮ビデオ超解像(CVSR)モデルは、長期の推論時間、複雑なトレーニングパイプライン、補助情報への依存など、永続的な課題に直面している。
ハイパースペクトル画像(HSI)とビデオデータの構造的および統計的類似性から着想を得た,効率的でスケーラブルなソリューションを提案する。
提案手法では,計算複雑性を低減し,推論を高速化し,フレーム間の時間情報の抽出を促進する圧縮駆動型次元減少戦略を導入する。
論文 参考訳(メタデータ) (2025-06-13T07:59:52Z) - ReAgent-V: A Reward-Driven Multi-Agent Framework for Video Understanding [71.654781631463]
ReAgent-Vは、新しいエージェントビデオ理解フレームワークである。
推論中に効率の良いフレーム選択とリアルタイムの報酬生成を統合する。
12のデータセットに対する大規模な実験は、一般化と推論において大きな成果を上げている。
論文 参考訳(メタデータ) (2025-06-02T04:23:21Z) - FiLA-Video: Spatio-Temporal Compression for Fine-Grained Long Video Understanding [17.71123451197036]
ビデオデータの複雑さとコンテキスト処理の制限は、長いビデオの理解を妨げる。
本稿では,複数のフレームを単一の表現に統合する新しいフレームワークであるFiLA-Videoを提案する。
FiLA-Videoは、従来の方法に比べて、長時間ビデオ理解において優れた効率と精度を実現している。
論文 参考訳(メタデータ) (2025-04-29T03:09:46Z) - Adaptive Video Understanding Agent: Enhancing efficiency with dynamic frame sampling and feedback-driven reasoning [29.89820310679906]
本稿では,長大な映像理解の効率性と有効性を両立させるエージェントベース手法を提案する。
提案手法の重要な側面はクエリ適応型フレームサンプリングであり,LLMの推論能力を利用して,最も関連性の高いフレームのみをリアルタイムに処理する。
提案手法を複数のビデオ理解ベンチマークで評価し,最先端性能の向上だけでなく,サンプリングしたフレーム数を削減して効率の向上を図っている。
論文 参考訳(メタデータ) (2024-10-26T19:01:06Z) - Vision-Language Models Learn Super Images for Efficient Partially
Relevant Video Retrieval [2.303098021872002]
本稿では,部分的関連ビデオ検索のための効率的かつ高性能な手法を提案する。
入力テキストクエリに関連する少なくとも1つのモーメントを含む長いビデオを取得することを目的としている。
論文 参考訳(メタデータ) (2023-12-01T08:38:27Z) - Efficient Semantic Segmentation by Altering Resolutions for Compressed
Videos [42.944135041061166]
本稿では,効率的な映像分割を実現するために,圧縮ビデオのためのAR-Segと呼ばれる修正解像度フレームワークを提案する。
AR-Segは、非キーフレームに対して低解像度を使用することで、計算コストを削減することを目的としている。
CamVidとCityscapesの実験によると、AR-Segは最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-13T15:58:15Z) - Deep Unsupervised Key Frame Extraction for Efficient Video
Classification [63.25852915237032]
本研究は、畳み込みニューラルネットワーク(CNN)と時間セグメント密度ピーククラスタリング(TSDPC)を組み合わせたキーフレームの検索方法を提案する。
提案した TSDPC は汎用的で強力なフレームワークであり,従来の研究に比べて2つの利点がある。
さらに、CNNの上部にLong Short-Term Memory Network (LSTM)を追加し、分類性能をさらに高める。
論文 参考訳(メタデータ) (2022-11-12T20:45:35Z) - Temporal Context Aggregation for Video Retrieval with Contrastive
Learning [81.12514007044456]
フレームレベルの特徴間の時間的長距離情報を組み込んだビデオ表現学習フレームワークTCAを提案する。
提案手法は,映像レベルの特徴を持つ最先端の手法に対して,FIVR-200Kでは17% mAPの大幅な性能上の優位性を示す。
論文 参考訳(メタデータ) (2020-08-04T05:24:20Z) - Video Face Super-Resolution with Motion-Adaptive Feedback Cell [90.73821618795512]
深部畳み込みニューラルネットワーク(CNN)の発展により,ビデオ超解像法(VSR)は近年,顕著な成功を収めている。
本稿では,動作補償を効率的に捕捉し,適応的にネットワークにフィードバックする,シンプルで効果的なブロックである動き適応型フィードバックセル(MAFC)を提案する。
論文 参考訳(メタデータ) (2020-02-15T13:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。