論文の概要: Beyond Patch Aggregation: 3-Pass Pyramid Indexing for Vision-Enhanced Document Retrieval
- arxiv url: http://arxiv.org/abs/2511.21121v1
- Date: Wed, 26 Nov 2025 07:18:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.006324
- Title: Beyond Patch Aggregation: 3-Pass Pyramid Indexing for Vision-Enhanced Document Retrieval
- Title(参考訳): パッチ集約を超えて:ビジョン強化ドキュメント検索のための3パスピラミッドインデックス
- Authors: Anup Roy, Rishabh Gyanendra Upadhyay, Animesh Rameshbhai Panara, Robin Mills,
- Abstract要約: ドキュメント中心のRAGパイプラインは通常、OCRから始まり、次にチャンキング、テーブル解析、レイアウト再構築のための脆さが続く。
我々は,OCRフリーかつモデル非依存なマルチモーダル検索システムであるVisionRAGを紹介する。
VisionRAGは、ドキュメントを直接イメージとしてインデックスし、レイアウト、テーブル、空間的なキューを保存し、特定の抽出にコミットすることなくセマンティックベクターを構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document centric RAG pipelines usually begin with OCR, followed by brittle heuristics for chunking, table parsing, and layout reconstruction. These text first workflows are costly to maintain, sensitive to small layout shifts, and often lose the spatial cues that contain the answer. Vision first retrieval has emerged as a strong alternative. By operating directly on page images, systems like ColPali and ColQwen preserve structure and reduce pipeline complexity while achieving strong benchmark performance. However, these late interaction models tie retrieval to a specific vision backbone and require storing hundreds of patch embeddings per page, creating high memory overhead and complicating large scale deployment. We introduce VisionRAG, a multimodal retrieval system that is OCR free and model agnostic. VisionRAG indexes documents directly as images, preserving layout, tables, and spatial cues, and builds semantic vectors without committing to a specific extraction. Our three pass pyramid indexing framework creates vectors using global page summaries, section headers, visual hotspots, and fact level cues. These summaries act as lightweight retrieval surrogates. At query time, VisionRAG retrieves the most relevant pages using the pyramid index, then forwards the raw page image encoded as base64 to a multimodal LLM for final question answering. During retrieval, reciprocal rank fusion integrates signals across the pyramid to produce robust ranking. VisionRAG stores only 17 to 27 vectors per page, matching the efficiency of patch based methods while staying flexible across multimodal encoders. On financial document benchmarks, it achieves 0.8051 accuracy at 10 on FinanceBench and 0.9629 recall at 100 on TAT DQA. These results show that OCR free, summary guided multimodal retrieval is a practical and scalable alternative to traditional text extraction pipelines.
- Abstract(参考訳): ドキュメント中心のRAGパイプラインは通常、OCRから始まり、チャンキング、テーブル解析、レイアウト再構築のための脆いヒューリスティックが続く。
これらのテキストファーストワークフローはメンテナンスにコストがかかり、小さなレイアウトシフトに敏感で、答えを含む空間的な手がかりが失われることが多い。
ビジョンファースト検索は強力な代替手段として登場した。
ページイメージを直接操作することで、ColPaliやColQwenのようなシステムは構造を保存し、強力なベンチマークパフォーマンスを実現しつつ、パイプラインの複雑さを低減することができる。
しかしながら、これらの遅延インタラクションモデルは、検索を特定のビジョンバックボーンに結び付け、数百のパッチ埋め込みをページ毎に保存し、メモリオーバーヘッドが高くなり、大規模なデプロイメントが複雑になる。
我々は,OCRフリーかつモデル非依存なマルチモーダル検索システムであるVisionRAGを紹介する。
VisionRAGは、ドキュメントを直接イメージとしてインデックスし、レイアウト、テーブル、空間的なキューを保存し、特定の抽出にコミットすることなくセマンティックベクターを構築する。
我々の3つのパスピラミッドインデックスフレームワークは、グローバルページサマリー、セクションヘッダ、ビジュアルホットスポット、ファクトレベルのキューを使用してベクトルを生成する。
これらのサマリーは軽量な検索サロゲートとして機能する。
クエリ時に、VisionRAGはピラミッドインデックスを使用して最も関連性の高いページを取得し、その後、base64としてエンコードされた生のページイメージをマルチモーダルLCMに転送して最終質問応答を行う。
検索中、相互ランクの融合はピラミッド全体の信号を統合し、堅牢なランキングを生成する。
VisionRAGは1ページあたり17から27のベクトルしか格納せず、マルチモーダルエンコーダの柔軟性を維持しながら、パッチベースのメソッドの効率と一致する。
財務文書のベンチマークでは、ファイナンスベンチで10で0.8051、TAT DQAで100で0.9629のリコールを達成している。
これらの結果から,OCRフリーで要約ガイド付きマルチモーダル検索は,従来のテキスト抽出パイプラインに代わる実用的でスケーラブルな代替手段であることが示唆された。
関連論文リスト
- MonkeyOCR v1.5 Technical Report: Unlocking Robust Document Parsing for Complex Patterns [80.05126590825121]
MonkeyOCR v1.5は、レイアウト理解とコンテンツ認識の両方を強化する統合ビジョン言語フレームワークである。
複雑なテーブル構造に対処するために,視覚的整合性に基づく強化学習手法を提案する。
2つの特別なモジュール、Image-Decoupled Table ParsingとType-Guided Table Mergingを導入し、テーブルの信頼性の高いパースを可能にする。
論文 参考訳(メタデータ) (2025-11-13T15:12:17Z) - LAD-RAG: Layout-aware Dynamic RAG for Visually-Rich Document Understanding [37.12229829548839]
レイアウト対応動的RAGフレームワークであるLAD-RAGを提案する。
LAD-RAGは、レイアウト構造とページ間の依存関係をキャプチャするシンボリック文書グラフを構築する。
MMLongBench-Doc、LongDocURL、DUDE、MP-DocVQAの実験は、LAD-RAGが検索を改善し、トップkチューニングなしで平均90%以上の完全リコールを達成することを示した。
論文 参考訳(メタデータ) (2025-10-08T17:02:04Z) - Guided Query Refinement: Multimodal Hybrid Retrieval with Test-Time Optimization [10.476757608225475]
マルチモーダルエンコーダは、視覚文書検索の境界を押し広げている。
このパラダイムに依存する最近のモデルは、クエリやドキュメントの表現のサイズを大幅に拡大しています。
軽量な高密度テキストレトリバーが、より強力な視覚中心モデルを強化することができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-10-06T17:12:53Z) - UNIDOC-BENCH: A Unified Benchmark for Document-Centric Multimodal RAG [82.84014669683863]
マルチモーダル検索拡張生成(MM-RAG)は,大規模言語モデルを現実世界の知識ベースに適用するための重要なアプローチである。
UniDoc-Benchは、70万の現実世界のPDFページから構築されたMM-RAGのための最初の大規模で現実的なベンチマークである。
実験により,マルチモーダルテキスト画像融合RAGシステムは,非モーダルおよび共同マルチモーダル埋め込みに基づく検索において一貫して優れていた。
論文 参考訳(メタデータ) (2025-10-04T04:30:13Z) - Enhancing Document VQA Models via Retrieval-Augmented Generation [1.6769365072542683]
ドキュメントVQAは数十ページに及ぶドキュメントに対処しなければならないが、主要なシステムは依然として非常に大きな視覚言語モデルに依存している。
Retrieval-Augmented Generation (RAG) は魅力的な代替手段を提供する。
論文 参考訳(メタデータ) (2025-08-26T12:32:55Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。