論文の概要: Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks
- arxiv url: http://arxiv.org/abs/2507.01297v1
- Date: Wed, 02 Jul 2025 02:35:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:22:59.985033
- Title: Frustratingly Simple Retrieval Improves Challenging, Reasoning-Intensive Benchmarks
- Title(参考訳): フラストレーションにシンプルな検索がチェアリング、推論集約ベンチマークを改善した
- Authors: Xinxi Lyu, Michael Duan, Rulin Shao, Pang Wei Koh, Sewon Min,
- Abstract要約: Retrieval-augmented Generation (RAG) は主にファクトイド質問応答のような限られた環境で研究されている。
本稿では, MMLU, MMLU Pro, AGI Eval, GPQA, MATHという, 確立された推論集約型ベンチマークの一般的な考え方に挑戦する。
我々は,単一ノード上で高い検索精度とサブ秒レイテンシを実現する,多種多様な高品質なWebスケールデータストアであるCompactDSを紹介した。
- 参考スコア(独自算出の注目度): 30.439565592162413
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Retrieval-augmented Generation (RAG) has primarily been studied in limited settings, such as factoid question answering; more challenging, reasoning-intensive benchmarks have seen limited success from minimal RAG. In this work, we challenge this prevailing view on established, reasoning-intensive benchmarks: MMLU, MMLU Pro, AGI Eval, GPQA, and MATH. We identify a key missing component in prior work: a usable, web-scale datastore aligned with the breadth of pretraining data. To this end, we introduce CompactDS: a diverse, high-quality, web-scale datastore that achieves high retrieval accuracy and subsecond latency on a single-node. The key insights are (1) most web content can be filtered out without sacrificing coverage, and a compact, high-quality subset is sufficient; and (2) combining in-memory approximate nearest neighbor (ANN) retrieval and on-disk exact search balances speed and recall. Using CompactDS, we show that a minimal RAG pipeline achieves consistent accuracy improvements across all benchmarks and model sizes (8B--70B), with relative gains of 10% on MMLU, 33% on MMLU Pro, 14% on GPQA, and 19% on MATH. No single data source suffices alone, highlighting the importance of diversity of sources (web crawls, curated math, academic papers, textbooks). Finally, we show that our carefully designed in-house datastore matches or outperforms web search engines such as Google Search, as well as recently proposed, complex agent-based RAG systems--all while maintaining simplicity, reproducibility, and self-containment. We release CompactDS and our retrieval pipeline, supporting future research exploring retrieval-based AI systems.
- Abstract(参考訳): Retrieval-augmented Generation (RAG) は主に、ファクトイドの質問応答のような限られた環境で研究されており、より難しい推論集約ベンチマークでは、最小限のRAGからしか成功していない。
本稿では, MMLU, MMLU Pro, AGI Eval, GPQA, MATHという, 確立された推論集約型ベンチマークの一般的な考え方に挑戦する。
事前学習データの幅に合わせた、使用可能な、Webスケールのデータストア。
この目的のために,単一ノード上で高い検索精度とサブ秒レイテンシを実現する,多種多様な高品質なWebスケールデータストアであるCompactDSを紹介した。
主な知見は,(1) ウェブコンテンツの大部分は,カバレッジを犠牲にすることなくフィルタリングでき,また,コンパクトで高品質なサブセットが十分である,(2) インメモリに近い近接検索(ANN)とオンディスクの正確な検索バランスとリコールを組み合わせることである。
CompactDSを用いて、最小のRAGパイプラインは、全てのベンチマークとモデルサイズ(8B-70B)で一貫した精度向上を実現し、MMLUでは10%、MMLU Proでは33%、GPQAでは14%、MATHでは19%の相対的なゲインを得た。
単一のデータソースだけでは十分ではなく、ソースの多様性(ウェブクロール、キュレートされた数学、学術論文、教科書)の重要性を強調している。
最後に、我々の設計した社内データストアは、Google SearchのようなWeb検索エンジンと、最近提案された複雑なエージェントベースのRAGシステムと、シンプルさ、再現性、自己完結性を維持しつつ、一致または性能に優れていることを示す。
検索に基づくAIシステムを探究する将来の研究を支援するため,我々はCompactDSと検索パイプラインをリリースする。
関連論文リスト
- Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - MMSearch-R1: Incentivizing LMMs to Search [49.889749277236376]
MMSearch-R1は,実世界のインターネット環境において,オンデマンドでマルチターン検索が可能な,初のエンドツーエンド強化学習フレームワークである。
本フレームワークは画像検索とテキスト検索の両方を統合し,検索ペナルティによる結果に基づく報酬によって,モデルがいつ,どのように呼び出すかの判断を可能にする。
論文 参考訳(メタデータ) (2025-06-25T17:59:42Z) - GeAR: Graph-enhanced Agent for Retrieval-augmented Generation [12.966494167631113]
Retrieval-augmented Generation (RAG) は効率的な検索機能に依存している。
伝統的なスパースと密集したレトリバーは本質的にマルチホップ検索のシナリオに苦しむ。
本稿では,2つの重要なイノベーションを通じてRAG性能を向上させるシステムであるGeARを紹介する。
論文 参考訳(メタデータ) (2024-12-24T13:45:22Z) - Blended RAG: Improving RAG (Retriever-Augmented Generation) Accuracy with Semantic Search and Hybrid Query-Based Retrievers [0.0]
Retrieval-Augmented Generation (RAG) は、大規模言語モデル (LLM) で文書のプライベートな知識基盤を注入し、生成的Q&A (Question-Answering) システムを構築するための一般的なアプローチである。
本稿では,Vector インデックスや Sparse インデックスなどのセマンティック検索手法をハイブリッドクエリ手法と組み合わせた 'Blended RAG' 手法を提案する。
本研究は,NQ や TREC-COVID などの IR (Information Retrieval) データセットの検索結果の改善と,新たなベンチマーク設定を行う。
論文 参考訳(メタデータ) (2024-03-22T17:13:46Z) - CFIR: Fast and Effective Long-Text To Image Retrieval for Large Corpora [3.166549403591528]
本稿では,高速かつ効率的な画像検索のための2段階の粗度指数共有検索(CFIR)フレームワークを提案する。
CFIRは、Recall@1000で既存のMLLMを最大11.06%上回り、トレーニング時間と検索時間をそれぞれ68.75%、99.79%削減している。
論文 参考訳(メタデータ) (2024-02-23T11:47:16Z) - SPRINT: A Unified Toolkit for Evaluating and Demystifying Zero-shot
Neural Sparse Retrieval [92.27387459751309]
ニューラルスパース検索を評価するための統一PythonツールキットであるSPRINTを提供する。
我々は、よく認識されているベンチマークBEIRにおいて、強く再現可能なゼロショットスパース検索ベースラインを確立する。
SPLADEv2は、元のクエリとドキュメントの外で、ほとんどのトークンでスパース表現を生成する。
論文 参考訳(メタデータ) (2023-07-19T22:48:02Z) - Injecting Domain Adaptation with Learning-to-hash for Effective and
Efficient Zero-shot Dense Retrieval [49.98615945702959]
我々は,TAS-B高密度検索器の下流ゼロショット検索精度を向上させるためのLTHおよびベクトル圧縮技術を評価する。
以上の結果から, 従来の研究とは異なり, LTH法はゼロショットTAS-B高密度レトリバーを平均14%のnDCG@10で過小評価できることがわかった。
論文 参考訳(メタデータ) (2022-05-23T17:53:44Z) - IRLI: Iterative Re-partitioning for Learning to Index [104.72641345738425]
分散環境でのロードバランスとスケーラビリティを維持しながら、高い精度を得る方法とのトレードオフが必要だ。
クエリ項目関連データから直接バケットを学習することで、アイテムを反復的に分割するIRLIと呼ばれる新しいアプローチを提案する。
我々は,irliが極めて自然な仮定の下で高い確率で正しい項目を検索し,優れた負荷分散を実現することを数学的に示す。
論文 参考訳(メタデータ) (2021-03-17T23:13:25Z) - RadixSpline: A Single-Pass Learned Index [84.84747738666263]
RadixSpline(RS)は、データに1回のパスで構築できる学習インデックスです。
RSは2つのパラメータしか持たないにもかかわらず、すべてのデータセットで競合的な結果を達成する。
論文 参考訳(メタデータ) (2020-04-30T01:56:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。