論文の概要: DocRetriever: A Plug-and-Play Framework for Multimodal Document Retrieval with Comprehensive Benchmark
- arxiv url: http://arxiv.org/abs/2605.30027v1
- Date: Thu, 28 May 2026 14:50:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:56.402505
- Title: DocRetriever: A Plug-and-Play Framework for Multimodal Document Retrieval with Comprehensive Benchmark
- Title(参考訳): DocRetriever: 包括的なベンチマークを備えたマルチモーダルドキュメント検索用プラグイン・アンド・プレイフレームワーク
- Authors: Ruofan Hu, Menghui Zhu, Jieming Zhu, Bo Chen, Shengyang Xu, Minjie Hong, Xiaoda Yang, Sashuai Zhou, Li Tang, Tao Jin, Zhou Zhao,
- Abstract要約: マルチモーダル文書には、テーブル、フィギュア、レイアウトなど、さまざまな要素が含まれている。
現在のアプローチでは、高精度の検索を実現するために、高密度の視覚埋め込みモデルと教師付きリランカを組み合わせるのが一般的である。
本稿では,レイアウトを意識したスパース埋め込み技術による視覚検索を支援するプラグイン・アンド・プレイフレームワークDocRetrieverを提案する。
- 参考スコア(独自算出の注目度): 48.84943754804533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal documents contain diverse elements, such as tables, figures, and layouts, which can complicate retrieval tasks. While current approaches typically combine dense visual embedding models with supervised rerankers to achieve high-precision retrieval, they face inherent limitations. First, the coarse-grained nature of dense embeddings tends to obfuscate explicit semantics, failing to leverage structurally salient information. Second, supervised reranking models suffer from generalization bottlenecks, as their performance heavily relies on domain-specific training data. Furthermore, existing benchmarks often lack diverse assessment dimensions and comprehensive relevance annotations, limiting reliable evaluation. To address these challenges, we propose DocRetriever, a plug-and-play framework. It enhances visual retrieval via a layout-aware sparse embedding technique, enabling effective hybrid encoding without the overhead of optical character recognition (OCR). We also introduce a generalizable reranker that leverages reasoning-augmented demonstrations and optimized sampling to improve accuracy in few-shot settings. Finally, we construct a new benchmark, MultiDocR, to enable more rigorous evaluation. Experiments across diverse benchmarks validate DocRetriever's superiority over state-of-the-art methods.
- Abstract(参考訳): マルチモーダル文書には、テーブル、フィギュア、レイアウトなどの様々な要素が含まれており、検索タスクを複雑にすることができる。
現在のアプローチは一般的に、密な視覚埋め込みモデルと教師付きリランカーを組み合わせて高精度検索を行うが、それらは固有の制限に直面している。
まず、密接な埋め込みの粗粒度の性質は明示的な意味論を難解にし、構造的に健全な情報を活用できない傾向にある。
第二に、教師付きリグレードモデルは、ドメイン固有のトレーニングデータに大きく依存するため、一般化ボトルネックに悩まされる。
さらに、既存のベンチマークでは、さまざまな評価範囲と包括的な関連アノテーションが欠如しており、信頼性の高い評価が制限されていることが多い。
これらの課題に対処するために,プラグイン・アンド・プレイのフレームワークであるDocRetrieverを提案する。
レイアウトを意識したスパース埋め込み技術による視覚検索を強化し、光学文字認識(OCR)のオーバーヘッドを伴わずに効果的なハイブリッド符号化を可能にする。
また、推論強化されたデモと最適化されたサンプリングを活用して、数ショット設定での精度を向上させる一般化可能なリランカも導入する。
最後に、より厳密な評価を可能にするために、新しいベンチマークであるMultiDocRを構築した。
さまざまなベンチマークによる実験は、DocRetrieverの最先端メソッドに対する優位性を検証する。
関連論文リスト
- LITTA: Late-Interaction and Test-Time Alignment for Visually-Grounded Multimodal Retrieval [0.0]
LITTAは、エビデンスページ検索のためのクエリ拡張中心の検索フレームワークである。
ユーザクエリが与えられた後、LITTAは大きな言語モデルを使用して補完的なクエリ変種を生成する。
拡張されたクエリからの候補は、エビデンスカバレッジを改善するために、相互のランクフュージョンを通じて集約される。
論文 参考訳(メタデータ) (2026-03-10T13:25:39Z) - MURE: Hierarchical Multi-Resolution Encoding via Vision-Language Models for Visual Document Retrieval [111.99106496142474]
Visual Document Retrieval (VDR)は、微細な視覚的詳細とグローバルな文書構造の両方をキャプチャする表現を必要とする。
既存のVDRモデルは、高解像度文書を処理する際に効率と効率のバランスをとるのに苦労する。
本稿では,X-VisEmbパラダイムを提案する。X-VisEmbパラダイムは,多分解能サンプリングと符号化から,粒度横断的特徴融合から適応的表現蒸留へと進展する。
論文 参考訳(メタデータ) (2026-03-07T15:17:22Z) - MARA: A Multimodal Adaptive Retrieval-Augmented Framework for Document Question Answering [51.19392014547221]
検索型マルチモーダル文書QAは,視覚的にリッチな文書から複雑なマルチモーダル構造を持つ関連情報を識別し,統合することを目的としている。
現在のアプローチは、サージェントなコンテンツを見渡すクエリに依存しないドキュメント表現に依存しています。
本稿では,クエリ適応生成を導入したMultimodal Adaptive Retrieval-Augmented (MARA)フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-01T12:27:40Z) - Guided Query Refinement: Multimodal Hybrid Retrieval with Test-Time Optimization [10.476757608225475]
マルチモーダルエンコーダは、視覚文書検索の境界を押し広げている。
このパラダイムに依存する最近のモデルは、クエリやドキュメントの表現のサイズを大幅に拡大しています。
軽量な高密度テキストレトリバーが、より強力な視覚中心モデルを強化することができるかどうかを検討する。
論文 参考訳(メタデータ) (2025-10-06T17:12:53Z) - MR$^2$-Bench: Going Beyond Matching to Reasoning in Multimodal Retrieval [86.35779264575154]
マルチモーダル検索は、現代のAIアプリケーションにおいて重要なコンポーネントになりつつあるが、その評価は、より現実的で困難なシナリオの要求に遅れている。
マルチモーダル検索のための推論集約型ベンチマークであるMR$2$-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-30T15:09:14Z) - Benchmarking Retrieval-Augmented Multimodal Generation for Document Question Answering [60.062194349648195]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。