論文の概要: ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents
- arxiv url: http://arxiv.org/abs/2502.18017v1
- Date: Tue, 25 Feb 2025 09:26:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:57.643337
- Title: ViDoRAG: Visual Document Retrieval-Augmented Generation via Dynamic Iterative Reasoning Agents
- Title(参考訳): ViDoRAG:動的反復推論エージェントによるビジュアルドキュメント検索拡張生成
- Authors: Qiuchen Wang, Ruixue Ding, Zehui Chen, Weiqi Wu, Shihang Wang, Pengjun Xie, Feng Zhao,
- Abstract要約: ViDoSeekは複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計されたデータセットである。
視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
- 参考スコア(独自算出の注目度): 27.90338725230132
- License:
- Abstract: Understanding information from visually rich documents remains a significant challenge for traditional Retrieval-Augmented Generation (RAG) methods. Existing benchmarks predominantly focus on image-based question answering (QA), overlooking the fundamental challenges of efficient retrieval, comprehension, and reasoning within dense visual documents. To bridge this gap, we introduce ViDoSeek, a novel dataset designed to evaluate RAG performance on visually rich documents requiring complex reasoning. Based on it, we identify key limitations in current RAG approaches: (i) purely visual retrieval methods struggle to effectively integrate both textual and visual features, and (ii) previous approaches often allocate insufficient reasoning tokens, limiting their effectiveness. To address these challenges, we propose ViDoRAG, a novel multi-agent RAG framework tailored for complex reasoning across visual documents. ViDoRAG employs a Gaussian Mixture Model (GMM)-based hybrid strategy to effectively handle multi-modal retrieval. To further elicit the model's reasoning capabilities, we introduce an iterative agent workflow incorporating exploration, summarization, and reflection, providing a framework for investigating test-time scaling in RAG domains. Extensive experiments on ViDoSeek validate the effectiveness and generalization of our approach. Notably, ViDoRAG outperforms existing methods by over 10% on the competitive ViDoSeek benchmark.
- Abstract(参考訳): 視覚的にリッチな文書からの情報を理解することは、従来の検索・拡張生成(RAG)手法にとって重要な課題である。
既存のベンチマークは主に画像に基づく質問応答(QA)に焦点を当てており、高密度のビジュアル文書における効率的な検索、理解、推論の根本的な課題を見越している。
このギャップを埋めるために、複雑な推論を必要とする視覚的にリッチなドキュメント上でのRAGパフォーマンスを評価するために設計された、新しいデータセットViDoSeekを紹介する。
それに基づいて、現在のRAGアプローチにおける重要な制限を特定します。
(i)純粋視覚検索手法は、テキストと視覚の両方を効果的に統合するのに苦労し、
(ii)従来の手法では、十分な推論トークンを割り当て、有効性を制限することが多かった。
これらの課題に対処するため,視覚文書間の複雑な推論に適した新しいマルチエージェントRAGフレームワークであるViDoRAGを提案する。
ViDoRAGはGaussian Mixture Model(GMM)ベースのハイブリッド戦略を用いて、マルチモーダル検索を効果的に処理する。
モデルの推論能力をさらに向上するため,探索,要約,リフレクションを取り入れた反復的エージェントワークフローを導入し,RAGドメインにおけるテスト時間スケーリングを調査するためのフレームワークを提供する。
ViDoSeekに関する大規模な実験により、我々のアプローチの有効性と一般化が検証された。
特にViDoRAGは、競合するViDoSeekベンチマークで既存のメソッドを10%以上上回っている。
関連論文リスト
- RAG-Gym: Optimizing Reasoning and Search Agents with Process Supervision [43.50113345998687]
RAG-Gymは、情報検索エージェントを、各検索ステップにおけるきめ細かいプロセス管理によって強化する統合最適化フレームワークである。
また、RAG-Gymフレームワーク内での応答推論と検索クエリ生成を相乗化する新しいエージェントアーキテクチャであるReSearchを提案する。
論文 参考訳(メタデータ) (2025-02-19T18:56:03Z) - Chain-of-Retrieval Augmented Generation [72.06205327186069]
本稿では,o1-like RAGモデルを学習し,最終回答を生成する前に段階的に関連情報を抽出・推論する手法を提案する。
提案手法であるCoRAGは,進化状態に基づいて動的にクエリを再構成する。
論文 参考訳(メタデータ) (2025-01-24T09:12:52Z) - VISA: Retrieval Augmented Generation with Visual Source Attribution [100.78278689901593]
RAGの既存のアプローチは主に生成されたコンテンツをドキュメントレベルの参照にリンクする。
本稿では,視覚的ソース属性と解答生成を組み合わせた新しい手法として,視覚的ソース属性を用いた検索補助生成(VISA)を提案する。
本手法の有効性を評価するため,ウィキペディアのWebページスクリーンショットをクロールしたWiki-VISAとPubLayNetから派生したPaper-VISAの2つのデータセットを作成した。
論文 参考訳(メタデータ) (2024-12-19T02:17:35Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - VisRAG: Vision-based Retrieval-augmented Generation on Multi-modality Documents [66.42579289213941]
Retrieval-augmented Generation (RAG) は、大規模言語モデルが外部知識ソースを生成に活用できる効果的な手法である。
本稿では,視覚言語モデル(VLM)に基づくRAGパイプラインを構築することで,この問題に対処するVisRAGを紹介する。
このパイプラインでは、まず文書を解析してテキストを得る代わりに、VLMを画像として直接埋め込んで、VLMの生成を強化する。
論文 参考訳(メタデータ) (2024-10-14T15:04:18Z) - RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [69.4501863547618]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。
事実の正確性に着目し, 完全性, 幻覚, 不適切性の3つの新しい指標を提案する。
実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文 参考訳(メタデータ) (2024-08-02T13:35:11Z) - Searching for Best Practices in Retrieval-Augmented Generation [31.438681543849224]
Retrieval-augmented Generation (RAG) 技術は最新情報の統合に有効であることが証明されている。
本稿では,既存のRAG手法とその潜在的な組み合わせについて検討し,最適なRAG手法を同定する。
我々は、パフォーマンスと効率のバランスをとるRAGをデプロイするためのいくつかの戦略を提案する。
論文 参考訳(メタデータ) (2024-07-01T12:06:34Z) - Towards General Visual-Linguistic Face Forgery Detection [95.73987327101143]
ディープフェイクは現実的な顔操作であり、セキュリティ、プライバシー、信頼に深刻な脅威をもたらす可能性がある。
既存の方法は、このタスクを、デジタルラベルまたはマスク信号を使用して検出モデルをトレーニングするバイナリ分類として扱う。
本稿では, 微粒な文レベルのプロンプトをアノテーションとして用いた, VLFFD (Visual-Linguistic Face Forgery Detection) という新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2023-07-31T10:22:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。