論文の概要: VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
- arxiv url: http://arxiv.org/abs/2602.12735v1
- Date: Fri, 13 Feb 2026 09:05:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.898509
- Title: VimRAG: Navigating Massive Visual Context in Retrieval-Augmented Generation via Multimodal Memory Graph
- Title(参考訳): VimRAG:マルチモーダルメモリグラフによる検索拡張生成における大規模視覚コンテキストのナビゲート
- Authors: Qiuchen Wang, Shihang Wang, Yu Zeng, Qiang Zhang, Fanrui Zhang, Zhuoning Guo, Bosi Zhang, Wenxuan Huang, Lin Chen, Zehui Chen, Pengjun Xie, Ruixue Ding,
- Abstract要約: VimRAGは、テキスト、画像、ビデオにまたがるマルチモーダル検索拡張推論に適したフレームワークである。
軌道レベルの報酬から段階的妥当性を分離するグラフガイド型ポリシー最適化手法を提案する。
実験により、VimRAGは様々なマルチモーダルRAGベンチマークにおける最先端のパフォーマンスを一貫して達成していることが示された。
- 参考スコア(独自算出の注目度): 42.348770377488094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effectively retrieving, reasoning, and understanding multimodal information remains a critical challenge for agentic systems. Traditional Retrieval-augmented Generation (RAG) methods rely on linear interaction histories, which struggle to handle long-context tasks, especially those involving information-sparse yet token-heavy visual data in iterative reasoning scenarios. To bridge this gap, we introduce VimRAG, a framework tailored for multimodal Retrieval-augmented Reasoning across text, images, and videos. Inspired by our systematic study, we model the reasoning process as a dynamic directed acyclic graph that structures the agent states and retrieved multimodal evidence. Building upon this structured memory, we introduce a Graph-Modulated Visual Memory Encoding mechanism, with which the significance of memory nodes is evaluated via their topological position, allowing the model to dynamically allocate high-resolution tokens to pivotal evidence while compressing or discarding trivial clues. To implement this paradigm, we propose a Graph-Guided Policy Optimization strategy. This strategy disentangles step-wise validity from trajectory-level rewards by pruning memory nodes associated with redundant actions, thereby facilitating fine-grained credit assignment. Extensive experiments demonstrate that VimRAG consistently achieves state-of-the-art performance on diverse multimodal RAG benchmarks. The code is available at https://github.com/Alibaba-NLP/VRAG.
- Abstract(参考訳): マルチモーダル情報の効果的検索、推論、理解は、エージェントシステムにとって重要な課題である。
従来のRetrieval-augmented Generation (RAG) 手法は、長いコンテキストのタスク、特に反復的推論シナリオにおける情報スパースでトークンの多い視覚データを含むタスクを扱うのに苦労する線形相互作用履歴に依存している。
このギャップを埋めるために、テキスト、画像、ビデオにまたがるマルチモーダル検索強化推論に適したフレームワークであるVimRAGを紹介します。
系統的な研究から着想を得て、我々は推論過程をエージェント状態の構造とマルチモーダルな証拠の検索を行う動的指向非循環グラフとしてモデル化した。
この構造化メモリを基盤として,メモリノードの重要度をトポロジカルな位置から評価するグラフ変調ビジュアルメモリ符号化機構を導入する。
このパラダイムを実現するために,グラフガイド型政策最適化戦略を提案する。
この戦略は、冗長なアクションに関連するメモリノードをプルーニングすることで、トラジェクトリレベルの報酬からステップワイズな妥当性を解消し、きめ細かいクレジット割り当てを容易にする。
広範囲な実験により、VimRAGは様々なマルチモーダルRAGベンチマーク上で、常に最先端のパフォーマンスを達成している。
コードはhttps://github.com/Alibaba-NLP/VRAGで公開されている。
関連論文リスト
- Graph-based Agent Memory: Taxonomy, Techniques, and Applications [63.70340159016138]
メモリはLarge Language Model(LLM)ベースのエージェントの中核モジュールとして出現する。
さまざまなパラダイムの中でグラフは、関係依存をモデル化する本質的な能力のため、エージェントメモリの強力な構造として際立っている。
本調査では, エージェントメモリの総合的な検討について, グラフベースの観点から述べる。
論文 参考訳(メタデータ) (2026-02-05T13:49:05Z) - Graph-Anchored Knowledge Indexing for Retrieval-Augmented Generation [53.42323544075114]
グラフアンコール型知識インデックス手法であるGraphAnchorを提案する。
4つのマルチホップ質問応答ベンチマークの実験では、GraphAnchorの有効性が示されている。
論文 参考訳(メタデータ) (2026-01-23T05:41:05Z) - Disco-RAG: Discourse-Aware Retrieval-Augmented Generation [81.53888908988756]
生成プロセスに談話信号を注入する談話認識フレームワークであるディスコRAGを提案する。
提案手法は,チャンク内談話木を構築し,局所階層を捕捉し,クロスパスコヒーレンスをモデル化するためのチャンク間修辞グラフを構築する。
質問応答と長期文書要約ベンチマークの実験から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2026-01-07T20:32:50Z) - Leveraging Spreading Activation for Improved Document Retrieval in Knowledge-Graph-Based RAG Systems [0.0]
Retrieval-augmented Generation (RAG) システムは、複雑な推論タスクに必要な多段階の証拠を確実に回収し、接続するのに苦労する。
標準的なRAGフレームワークのほとんどは、検索された全ての情報を、大きなテキストコーパスの様々な信頼性と相互接続性を見越して、等しく信頼できるものとみなしている。
自動構築された知識グラフによって相互接続された文書のコーパスから情報を取得するために,拡散活性化アルゴリズムを用いた新しいRAGフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-17T19:38:35Z) - MMGraphRAG: Bridging Vision and Language with Interpretable Multimodal Knowledge Graphs [6.165053219836395]
本稿では,シーングラフを通して視覚コンテンツを洗練し,マルチモーダルな知識グラフを構築するMMGraphRAGを提案する。
スペクトルクラスタリングを用いてクロスモーダルなエンティティリンクを実現し、推論経路に沿ってコンテキストを取得して生成プロセスを導く。
実験結果から,MMGraphRAGはDocBenchとMMLongBenchのデータセット上で最先端の性能を実現することがわかった。
論文 参考訳(メタデータ) (2025-07-28T13:16:23Z) - Divide by Question, Conquer by Agent: SPLIT-RAG with Question-Driven Graph Partitioning [62.640169289390535]
SPLIT-RAGは、質問駆動セマンティックグラフ分割と協調サブグラフ検索による制限に対処するマルチエージェントRAGフレームワークである。
革新的なフレームワークは、まずリンク情報のセマンティック分割を作成し、次にタイプ特化知識ベースを使用してマルチエージェントRAGを実現する。
属性対応グラフセグメンテーションは、知識グラフを意味的に一貫性のあるサブグラフに分割し、サブグラフが異なるクエリタイプと整合することを保証する。
階層的なマージモジュールは、論理的検証を通じて、部分グラフ由来の解答間の矛盾を解消する。
論文 参考訳(メタデータ) (2025-05-20T06:44:34Z) - ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents [27.90338725230132]
ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
論文 参考訳(メタデータ) (2025-02-25T09:26:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。