論文の概要: From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents
- arxiv url: http://arxiv.org/abs/2604.01733v1
- Date: Thu, 02 Apr 2026 07:53:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.597554
- Title: From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents
- Title(参考訳): BM25から修正RAG:テキスト・アンド・テイブル文書の検索戦略のベンチマーク
- Authors: Meftun Akarsu, Recep Kaan Karaman, Christopher Mierbach,
- Abstract要約: スパース, 密度, ハイブリッド融合, クロスエンコーダリグレード, クエリ拡張, インデックス拡張, 適応検索にまたがる10の検索戦略をベンチマークした。
我々はRecall@k,MRR,nDCGによる検索品質とNumber Matchによるエンドツーエンド生成品質を評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-Augmented Generation (RAG) systems critically depend on retrieval quality, yet no systematic comparison of modern retrieval methods exists for heterogeneous documents containing both text and tabular data. We benchmark ten retrieval strategies spanning sparse, dense, hybrid fusion, cross-encoder reranking, query expansion, index augmentation, and adaptive retrieval on a challenging financial QA benchmark of 23,088 queries over 7,318 documents with mixed text-and-table content. We evaluate retrieval quality via Recall@k, MRR, and nDCG, and end-to-end generation quality via Number Match, with paired bootstrap significance testing. Our results show that (1) a two-stage pipeline combining hybrid retrieval with neural reranking achieves Recall@5 of 0.816 and MRR@3 of 0.605, outperforming all single-stage methods by a large margin; (2) BM25 outperforms state-of-the-art dense retrieval on financial documents, challenging the common assumption that semantic search universally dominates; and (3) query expansion methods (HyDE, multi-query) and adaptive retrieval provide limited benefit for precise numerical queries, while contextual retrieval yields consistent gains. We provide ablation studies on fusion methods and reranker depth, actionable cost-accuracy recommendations, and release our full benchmark code.
- Abstract(参考訳): Retrieval-Augmented Generation (RAG) システムは検索品質に極めて依存するが、テキストデータと表データの両方を含む異種文書に対して、現代の検索手法の体系的比較は存在しない。
テキストとテーブルが混在した7,318件の文書に対して23,088件のQAベンチマークを行い,スパース,密集,ハイブリッドフュージョン,クロスエンコーダリグレード,クエリ拡張,インデックス拡張,適応検索を対象とする10の検索戦略をベンチマークした。
我々は,Recall@k,MRR,nDCGによる検索品質,Number Matchによるエンドツーエンド生成品質を,ペアリングブートストラップによる重要度テストにより評価した。
以上の結果から,(1)ハイブリッド検索とニューラルリジェクションを組み合わせた2段階パイプラインは,0.816のRecall@5と0.605のMRR@3を大差で上回り,(2)BM25は財務文書における最先端の高密度検索を上回り,セマンティック検索が普遍的に優位であるという一般的な仮定に挑戦し,(3)クエリ拡張手法(HyDE,マルチクエリ)と適応検索は,正確な数値クエリに限定的なメリットを与える一方で,文脈的検索が一貫した利得が得られることを示した。
核融合法と再ランカ深度に関するアブレーション研究、実行可能なコスト-精度レコメンデーション、および完全なベンチマークコードのリリースについて紹介する。
関連論文リスト
- Test-Time Strategies for More Efficient and Accurate Agentic RAG [58.44913384057518]
Retrieval-Augmented Generation (RAG) システムは複雑なマルチホップ問題に直面している。
このような手法は、以前に処理された情報の反復的な検索を含む非効率性を導入することができる。
本稿では,これらの問題を軽減するために,サーチ-R1パイプラインに対するテスト時間修正について検討する。
論文 参考訳(メタデータ) (2026-03-12T19:18:59Z) - Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage [89.58253972744531]
Retrieval-augmented Generation (RAG) システムは、文書検索と生成モデルを組み合わせて、レポート生成のような複雑な情報を求める課題に対処する。
我々は,上流の検索指標が,最終生成応答の情報カバレッジの信頼性の高い早期指標として機能するかどうかを検討する。
本研究は,トピックとシステムレベルの両方で生成した応答におけるカバレッジベース検索指標とナゲットカバレッジとの間に強い相関関係を示した。
論文 参考訳(メタデータ) (2026-03-09T18:20:20Z) - Query Decomposition for RAG: Balancing Exploration-Exploitation [83.79639293409802]
RAGシステムは複雑なユーザ要求に対処し、それらをサブクエリに分解し、それぞれに関連する可能性のあるドキュメントを取得し、それを集約して回答を生成する。
クエリの分解とドキュメントの検索をエクスプロレーション探索設定で定式化し、一度に1つのドキュメントを検索すると、与えられたサブクエリの有用性についての信念が構築される。
我々の主な発見は、ランク情報と人的判断を用いた文書関連性の推定により、文書レベルの精度が35%向上し、α-nDCGが15%向上し、長文生成の下流タスクの性能が向上するということである。
論文 参考訳(メタデータ) (2025-10-21T13:37:11Z) - Cluster-based Adaptive Retrieval: Dynamic Context Selection for RAG Applications [8.946586077722822]
クラスタベースのAdaptive Retrieval (CAR) は、順序付きクエリ文書類似度距離のクラスタリングパターンを分析して、最適な文書数を決定するアルゴリズムである。
CARは、常に最適な検索深度を選択し、最高TESスコアを達成し、固定されたトップkベースラインを全て上回る。
論文 参考訳(メタデータ) (2025-10-02T05:11:12Z) - ECLIPSE: Contrastive Dimension Importance Estimation with Pseudo-Irrelevance Feedback for Dense Retrieval [14.72046677914345]
近年のInformation Retrievalは、高次元埋め込み空間を活用して、関連文書の検索を改善している。
これらの高次元表現にもかかわらず、クエリに関連する文書は、低次元のクエリ依存多様体に存在する。
本稿では,関連文書と非関連文書の両方からの情報を活用することによって,これらの制約に対処する手法を提案する。
論文 参考訳(メタデータ) (2024-12-19T15:45:06Z) - BRIGHT: A Realistic and Challenging Benchmark for Reasoning-Intensive Retrieval [54.54576644403115]
BRIGHTは、関係する文書を検索するために、集中的推論を必要とする最初のテキスト検索ベンチマークである。
私たちのデータセットは、経済学、心理学、数学、コーディングなど、さまざまな領域にまたがる1,384の現実世界のクエリで構成されています。
クエリに関する明示的な推論を取り入れることで、検索性能が最大12.2ポイント向上することを示す。
論文 参考訳(メタデータ) (2024-07-16T17:58:27Z) - How Does Generative Retrieval Scale to Millions of Passages? [68.98628807288972]
各種コーパス尺度における生成的検索手法の実証的研究を行った。
我々は8.8Mパスのコーパスで数百万のパスに生成検索をスケールし、モデルサイズを最大11Bパラメータまで評価する。
生成的検索は、小さなコーパス上の最先端のデュアルエンコーダと競合するが、数百万のパスへのスケーリングは依然として重要で未解決の課題である。
論文 参考訳(メタデータ) (2023-05-19T17:33:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。