論文の概要: Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding
- arxiv url: http://arxiv.org/abs/2510.14032v1
- Date: Wed, 15 Oct 2025 19:14:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-17 21:15:14.592233
- Title: Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding
- Title(参考訳): Vgent:長いビデオ理解のためのグラフベースの検索推論生成
- Authors: Xiaoqian Shen, Wenxuan Zhang, Jun Chen, Mohamed Elhoseiny,
- Abstract要約: Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。
我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
- 参考スコア(独自算出の注目度): 56.45689495743107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding and reasoning over long videos pose significant challenges for large video language models (LVLMs) due to the difficulty in processing intensive video tokens beyond context window and retaining long-term sequential information. Retrieval-Augmented Generation (RAG) has demonstrated effectiveness in processing long context for Large Language Models (LLMs); however, applying RAG to long video faces challenges such as disrupted temporal dependencies and inclusion of irrelevant information that can hinder accurate reasoning. To address these limitations, we propose Vgent, a novel graph-based retrieval-reasoning-augmented generation framework to enhance LVLMs for long video understanding. Our approach introduces two key innovations: (i) It represents videos by structured graphs with semantic relationships across video clips preserved to improve retrieval effectiveness. (ii) It introduces an intermediate reasoning step to mitigate the reasoning limitation of LVLMs, which leverages structured verification to reduce retrieval noise and facilitate the explicit aggregation of relevant information across clips, resulting in more accurate and context-aware responses. We comprehensively evaluate our framework with various open-source LVLMs on three long-video understanding benchmarks. Our approach yielded an overall performance improvement of $3.0\%\sim 5.4\%$ over base models on MLVU, and outperformed state-of-the-art video RAG methods by $8.6\%$. Our code is publicly available at https://xiaoqian-shen.github.io/Vgent.
- Abstract(参考訳): 長いビデオに対する理解と推論は、コンテキストウィンドウを超えて集中的なビデオトークンを処理し、長期間のシーケンシャルな情報を保持することが困難であるため、大きなビデオ言語モデル(LVLM)にとって大きな課題となる。
Retrieval-Augmented Generation (RAG) は、Large Language Models (LLMs) の長い文脈の処理に有効であることを示したが、RAGを長時間ビデオに適用することは、時間的依存の破壊や、正確な推論を妨げる無関係な情報の導入といった課題に直面している。
これらの制約に対処するため、長いビデオ理解のためのLVLMを強化するグラフベースの検索推論拡張生成フレームワークであるVgentを提案する。
このアプローチには2つの重要なイノベーションがあります。
(i)検索効率を向上させるために保存されたビデオクリップ間の意味関係を持つ構造化グラフによる映像を表現する。
(II)LVLMの推論制限を緩和する中間的推論ステップを導入し、構造化された検証を利用して検索ノイズを低減し、クリップ間の関連情報の明示的な集約を容易にし、より正確でコンテキスト対応な応答をもたらす。
我々は,3つの長ビデオ理解ベンチマーク上で,様々なオープンソースのLVLMを用いて,我々のフレームワークを包括的に評価した。
提案手法では,MLVUのベースモデルよりも3.0\%\sim 5.4\%の総合的な性能向上を実現し,最先端のビデオRAG法では8.6\%の性能向上を実現した。
私たちのコードはhttps://xiaoqian-shen.github.io/Vgent.comで公開されています。
関連論文リスト
- AdaVideoRAG: Omni-Contextual Adaptive Retrieval-Augmented Efficient Long Video Understanding [73.60257070465377]
AdaVideoRAGは、軽量なインテント分類器を使用して、クエリ複雑性に基づいた検索に適応する新しいフレームワークである。
我々のフレームワークは、Omni-Knowledge Indexingモジュールを使用して、テキスト(キャプション、ASR、OCR)、視覚的特徴、セマンティックグラフから階層データベースを構築する。
実験では、既存のMLLMにシームレスに統合することで、長時間ビデオ理解のための効率と精度の向上が示されている。
論文 参考訳(メタデータ) (2025-06-16T15:18:15Z) - InfLVG: Reinforce Inference-Time Consistent Long Video Generation with GRPO [73.33751812982342]
InfLVGは、追加のロングフォームビデオデータを必要としないコヒーレントなロングビデオ生成を可能にする推論時フレームワークである。
InfLVGはビデオ長を最大9$times$まで拡張でき、シーン間の一貫性とセマンティック忠実性を実現することができる。
論文 参考訳(メタデータ) (2025-05-23T07:33:25Z) - RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph [3.1671311914949545]
RAVUは、時間グラフ上の推論による検索によるビデオ強化理解のためのフレームワークである。
我々は,エンティティ間の空間的および時間的関係の両方をキャプチャーするグラフ表現を構築した。
複雑なクエリに答えるために、クエリを推論ステップのシーケンスに分解し、グラフ上でこれらのステップを実行する。
提案手法により,長いビデオのより正確な理解が可能となり,特にフレーム間のマルチホップ推論やオブジェクトの追跡を必要とするクエリに対して有効である。
論文 参考訳(メタデータ) (2025-05-06T04:38:09Z) - SALOVA: Segment-Augmented Long Video Assistant for Targeted Retrieval and Routing in Long-Form Video Analysis [52.050036778325094]
本稿では,SALOVA: Segment-Augmented Video Assistantを紹介する。
87.8Kビデオの高品質なコレクションをセグメントレベルで高密度にキャプションし、シーンの連続性を捕捉し、リッチなコンテキストを維持する。
本フレームワークは,クエリに応答して,関連ビデオセグメントの正確な識別と検索を可能にすることで,現在のビデオLMMの限界を緩和する。
論文 参考訳(メタデータ) (2024-11-25T08:04:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。