論文の概要: Roles of MLLMs in Visually Rich Document Retrieval for RAG: A Survey
- arxiv url: http://arxiv.org/abs/2601.03262v1
- Date: Tue, 16 Dec 2025 16:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-11 18:48:17.576409
- Title: Roles of MLLMs in Visually Rich Document Retrieval for RAG: A Survey
- Title(参考訳): RAGのためのビジュアルリッチドキュメント検索におけるMLLMの役割:調査
- Authors: Xiantao Zhang,
- Abstract要約: ビジュアルリッチドキュメント (VRD) による検索強化世代 (RAG) の挑戦
本稿では,マルチモーダル大言語モデル(MLLM)を用いて,ARGのVRD検索を実現する方法について検討する。
- 参考スコア(独自算出の注目度): 0.9779798242424649
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visually rich documents (VRDs) challenge retrieval-augmented generation (RAG) with layout-dependent semantics, brittle OCR, and evidence spread across complex figures and structured tables. This survey examines how Multimodal Large Language Models (MLLMs) are being used to make VRD retrieval practical for RAG. We organize the literature into three roles: Modality-Unifying Captioners, Multimodal Embedders, and End-to-End Representers. We compare these roles along retrieval granularity, information fidelity, latency and index size, and compatibility with reranking and grounding. We also outline key trade-offs and offer some practical guidance on when to favor each role. Finally, we identify promising directions for future research, including adaptive retrieval units, model size reduction, and the development of evaluation methods.
- Abstract(参考訳): 視覚的にリッチなドキュメント(VRD)は、レイアウトに依存したセマンティクス、不安定なOCR、複雑な図形や構造化テーブルにまたがるエビデンスを備えた検索拡張生成(RAG)に挑戦する。
本稿では,マルチモーダル大言語モデル(MLLM)を用いて,ARGのVRD検索を実現する方法について検討する。
文献は,モダリティ・統一キャピタ,マルチモーダル・エンベッドダー,エンド・ツー・エンドの3つの役割に分類する。
これらの役割を,検索の粒度,情報忠実度,レイテンシとインデックスサイズ,再ランク付けとグラウンド化との互換性で比較する。
また、重要なトレードオフの概要と、それぞれの役割をいつ優先するかに関する実践的なガイダンスも提供します。
最後に,適応検索ユニット,モデルサイズ削減,評価手法の開発など,将来的な研究の方向性を明らかにした。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - MSRS: Evaluating Multi-Source Retrieval-Augmented Generation [51.717139132190574]
多くの現実世界のアプリケーションは、複数のソースにまたがる情報を統合して要約する能力を必要としている。
本稿では、RAGシステムに対して異なるソース間で情報を統合するための評価ベンチマークを構築するためのスケーラブルなフレームワークを提案する。
論文 参考訳(メタデータ) (2025-08-28T14:59:55Z) - Composed Multi-modal Retrieval: A Survey of Approaches and Applications [81.54640206021757]
複合マルチモーダル検索(CMR)は次世代技術として誕生する。
CMRは、参照視覚入力とテキスト修正を統合することで、画像やビデオをクエリすることを可能にする。
本稿では,CMRの基礎的課題,技術的進歩,応用について概説する。
論文 参考訳(メタデータ) (2025-03-03T09:18:43Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - Multi-Head RAG: Solving Multi-Aspect Problems with LLMs [18.48202014877111]
MRAG(Multi-Head RAG)は、マルチアスペクト文書を取得するための新しいスキームである。
MRAGは18RAGベースラインに対して設計上の優位性を示し,検索成功率の最大20%を実証的に改善した。
論文 参考訳(メタデータ) (2024-06-07T16:59:38Z) - CRUD-RAG: A Comprehensive Chinese Benchmark for Retrieval-Augmented Generation of Large Language Models [49.16989035566899]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)の能力を高める技術である。
本稿では,大規模かつ包括的なベンチマークを構築し,様々なRAGアプリケーションシナリオにおけるRAGシステムのすべてのコンポーネントを評価する。
論文 参考訳(メタデータ) (2024-01-30T14:25:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。