Fugu-MT 論文翻訳(概要): Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning

論文の概要: Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning

arxiv url: http://arxiv.org/abs/2604.04372v1
Date: Mon, 06 Apr 2026 02:43:03 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-07 15:49:19.068865
Title: Graph-to-Frame RAG: Visual-Space Knowledge Fusion for Training-Free and Auditable Video Reasoning
Title（参考訳）: Graph-to-Frame RAG: 学習不要で可聴なビデオ推論のためのビジュアル空間知識融合
Authors: Songyuan Yang, Weijiang Yu, Ziyu Liu, Guijian Tang, Wenjing Yang, Huibin Tan, Nong Xiao,
Abstract要約: Graph-to-Frame RAG(G2F-RAG)は、視覚空間における知識を提供する訓練自由で監査可能なパラダイムである。オフラインの段階では、エージェントは問題に依存しないビデオ知識グラフを構築し、エンティティ、イベント、空間関係、リンクされた世界知識を統合する。オンライン段階では、階層的なマルチエージェントコントローラが外部知識が必要かどうかを判断し、十分最小限のサブグラフを取得し、ビデオに付加される単一の推論フレームとしてレンダリングする。
参考スコア（独自算出の注目度）: 18.551958934364677
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: When video reasoning requires external knowledge, many systems with large multimodal models (LMMs) adopt retrieval augmentation to supply the missing context. Appending textual or multi-clip evidence, however, forces heterogeneous signals into a single attention space. We observe diluted attention and higher cognitive load even on non-long videos. The bottleneck is not only what to retrieve but how to represent and fuse external knowledge with the video backbone.We present Graph-to-Frame RAG (G2F-RAG), a training free and auditable paradigm that delivers knowledge in the visual space. On the offline stage, an agent builds a problem-agnostic video knowledge graph that integrates entities, events, spatial relations, and linked world knowledge. On the online stage, a hierarchical multi-agent controller decides whether external knowledge is needed, retrieves a minimal sufficient subgraph, and renders it as a single reasoning frame appended to the video. LMMs then perform joint reasoning in a unified visual domain. This design reduces cognitive load and leaves an explicit, inspectable evidence trail.G2F-RAG is plug-and-play across backbones and scales. It yields consistent gains on diverse public benchmarks, with larger improvements in knowledge-intensive settings. Ablations further confirm that knowledge representation and delivery matter. G2F-RAG reframes retrieval as visual space knowledge fusion for robust and interpretable video reasoning.
Abstract（参考訳）: ビデオ推論が外部知識を必要とする場合、大きなマルチモーダルモデル(LMM)を持つ多くのシステムは、欠落したコンテキストを提供するために検索拡張を採用する。しかし、テキストまたはマルチクリップの証拠を提出すると、異種信号は単一の注意空間に強制される。非長編ビデオにおいても、希薄な注意と高い認知負荷を観察する。ボトルネックは、検索するだけでなく、ビデオバックボーンで外部知識を表現し、融合する方法であり、視覚空間に知識を提供するトレーニングフリーで監査可能なパラダイムであるGraph-to-Frame RAG(G2F-RAG)を提示する。オフラインの段階では、エージェントは問題に依存しないビデオ知識グラフを構築し、エンティティ、イベント、空間関係、リンクされた世界知識を統合する。オンライン段階では、階層的なマルチエージェントコントローラが外部知識が必要かどうかを判断し、十分最小限のサブグラフを取得し、ビデオに付加される単一の推論フレームとしてレンダリングする。 LMMは統合視覚領域で共同推論を行う。この設計は認知負荷を低減し、明示的で検査可能なエビデンス・トレイルを残し、G2F-RAGはバックボーンとスケールをまたいでプラグアンドプレイする。これは様々な公開ベンチマークで一貫した利益をもたらし、知識集約的な設定が大幅に改善される。アブレーションは知識の表現と提供が問題であることをさらに確認する。 G2F-RAGは、ロバストで解釈可能なビデオ推論のための視覚空間知識融合として検索を再構成する。

関連論文リスト

Enhancing Vision-Language Navigation with Multimodal Event Knowledge from Real-World Indoor Tour Videos [15.251897505310682]
本稿では,自動プロセス知識マイニングと機能融合のためのイベント中心の知識向上戦略を提案する。構造化されたセマンティック・アクション・エフェクト・イベントに非構造化ビデオストリームを抽出し、明示的なエピソード記憶として機能する。 REVERIE、R2R、R2R-CEベンチマークの実験は、我々の戦略の効率を実証している。
論文参考訳（メタデータ） (2026-02-27T11:38:06Z)
Open-o3 Video: Grounded Video Reasoning with Explicit Spatio-Temporal Evidence [70.2803680525165]
我々は、明示的な証拠をビデオ推論に統合する非エージェントフレームワークであるOpen-o3 Videoを紹介した。このモデルは、キーオブジェクトとバウンディングボックスをその答えとともに強調し、推論を具体的な視覚的な観察で基礎付けることができる。 V-STARベンチマークでは、Open-o3 Videoは最先端のパフォーマンスを達成し、mAMを14.4%、mLタイムスタンプを24.2%向上させた。
論文参考訳（メタデータ） (2025-10-23T14:05:56Z)
Vgent: Graph-based Retrieval-Reasoning-Augmented Generation For Long Video Understanding [56.45689495743107]
Vgentは、長いビデオ理解のためにLVLMを強化するグラフベースの検索推論拡張生成フレームワークである。我々は,3つの長ビデオ理解ベンチマークを用いて,様々なオープンソースLVLMを用いてフレームワークの評価を行った。
論文参考訳（メタデータ） (2025-10-15T19:14:58Z)
VideoLucy: Deep Memory Backtracking for Long Video Understanding [102.37736560263649]
我々は、長いビデオ理解のためのディープメモリバックトラックフレームワークであるVideoLucyを提案する。粗いものから細かいものへの人間の再コンパイルプロセスにインスパイアされたVideoLucyは、階層的なメモリ構造で、段階的に粒度が細かい。 VideoLucyは、複数の長いビデオ理解ベンチマークで最先端の手法を著しく上回っている。
論文参考訳（メタデータ） (2025-10-14T11:59:19Z)
VisRAG 2.0: Evidence-Guided Multi-Image Reasoning in Visual Retrieval-Augmented Generation [64.82775032985485]
視覚検索強化世代(VRAG)は視覚言語モデル(VLM)を外的視覚知識で拡張し、基礎推論を行い幻覚を減らす。しかし、現在のVRAGシステムは、複数の画像に対して確実な認識と証拠の統合に失敗し、根拠の弱さと誤った結論に繋がることが多い。 EVisRAGは,エビデンス誘導型マルチイメージで推論を学習し,この問題に対処するエンド・ツー・エンドのフレームワークである。
論文参考訳（メタデータ） (2025-10-10T13:34:23Z)
GRIL: Knowledge Graph Retrieval-Integrated Learning with Large Language Models [59.72897499248909]
本稿では,Large Language Models (LLM) を用いたエンドツーエンド学習のための新しいグラフ検索手法を提案する。抽出したサブグラフでは, 構造的知識と意味的特徴をそれぞれ軟式トークンと言語化グラフで符号化し, LLMに注入する。提案手法は、複雑な推論タスクに対する結合グラフ-LLM最適化の強みを検証し、最先端の性能を一貫して達成する。
論文参考訳（メタデータ） (2025-09-20T02:38:00Z)
RAVU: Retrieval Augmented Video Understanding with Compositional Reasoning over Graph [3.1671311914949545]
RAVUは、時間グラフ上の推論による検索によるビデオ強化理解のためのフレームワークである。我々は,エンティティ間の空間的および時間的関係の両方をキャプチャーするグラフ表現を構築した。複雑なクエリに答えるために、クエリを推論ステップのシーケンスに分解し、グラフ上でこれらのステップを実行する。提案手法により,長いビデオのより正確な理解が可能となり,特にフレーム間のマルチホップ推論やオブジェクトの追跡を必要とするクエリに対して有効である。
論文参考訳（メタデータ） (2025-05-06T04:38:09Z)
VideoRAG: Retrieval-Augmented Generation with Extreme Long-Context Videos [25.770675590118547]
VideoRAGは、非常に長いコンテキストのビデオの処理と理解に特化して設計された最初の検索拡張生成フレームワークである。我々の中心となる革新は、(i)グラフベースのテキスト知識をシームレスに統合し、(ii)視覚的特徴を効率的に保存するマルチモーダルコンテキストエンコーディングである。
論文参考訳（メタデータ） (2025-02-03T17:30:19Z)
Bridging the Gap: A Unified Video Comprehension Framework for Moment Retrieval and Highlight Detection [45.82453232979516]
ビデオモーメント検索 (MR) とハイライト検出 (HD) は, ビデオ解析の需要が高まっているため, 注目されている。最近のアプローチでは、MRとHDをビデオグラウンド問題として扱い、トランスフォーマーベースのアーキテクチャでそれらに対処している。本稿では,そのギャップを埋め,MRとHDを効果的に解決するための統一ビデオ理解フレームワーク(UVCOM)を提案する。
論文参考訳（メタデータ） (2023-11-28T03:55:23Z)
Towards Video Anomaly Retrieval from Video Anomaly Detection: New Benchmarks and Model [70.97446870672069]
ビデオ異常検出(VAD)はその潜在的な応用により注目されている。 Video Anomaly Retrieval (VAR)は、関連のある動画をモダリティによって実用的に検索することを目的としている。一般的な異常データセットの上に構築されたUCFCrime-ARとXD-Violenceの2つのベンチマークを示す。
論文参考訳（メタデータ） (2023-07-24T06:22:37Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。