論文の概要: Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
- arxiv url: http://arxiv.org/abs/2601.21937v2
- Date: Fri, 30 Jan 2026 02:58:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-02 14:22:45.408518
- Title: Retrieval-Infused Reasoning Sandbox: A Benchmark for Decoupling Retrieval and Reasoning Capabilities
- Title(参考訳): Retrieval-Infused Reasoning Sandbox:RetrievalとReasoning能力の分離のためのベンチマーク
- Authors: Shuangshuang Ying, Zheyu Wang, Yunjian Peng, Jin Chen, Yuhao Wu, Hongbin Lin, Dingyu He, Siyi Liu, Gengchen Yu, YinZhu Piao, Yuchen Wu, Xin Gui, Zhongyuan Peng, Xin Li, Xeron Du, Libo Qin, YiXin Cao, Ge Zhang, Stephen Huang,
- Abstract要約: DeR2(DeR2)は、ドキュメント基底推論を分離する制御されたディープ検索サンドボックスである。
DeR2は、推論から4つのレシエーション(命令のみ、概念のみ、関連のみ、フルセット)を通じてアクセスする証拠を分離する。
さまざまな最先端の基礎モデルに対する実験は、かなりのバリエーションと重要なヘッドルームを明らかにしている。
- 参考スコア(独自算出の注目度): 32.76303717104482
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Despite strong performance on existing benchmarks, it remains unclear whether large language models can reason over genuinely novel scientific information. Most evaluations score end-to-end RAG pipelines, where reasoning is confounded with retrieval and toolchain choices, and the signal is further contaminated by parametric memorization and open-web volatility. We introduce DeR2, a controlled deep-research sandbox that isolates document-grounded reasoning while preserving core difficulties of deep search: multi-step synthesis, denoising, and evidence-based conclusion making. DeR2 decouples evidence access from reasoning via four regimes--Instruction-only, Concepts (gold concepts without documents), Related-only (only relevant documents), and Full-set (relevant documents plus topically related distractors)--yielding interpretable regime gaps that operationalize retrieval loss vs. reasoning loss and enable fine-grained error attribution. To prevent parametric leakage, we apply a two-phase validation that requires parametric failure without evidence while ensuring oracle-concept solvability. To ensure reproducibility, each instance provides a frozen document library (drawn from 2023-2025 theoretical papers) with expert-annotated concepts and validated rationales. Experiments across a diverse set of state-of-the-art foundation models reveal substantial variation and significant headroom: some models exhibit mode-switch fragility, performing worse with the Full-set than with Instruction-only, while others show structural concept misuse, correctly naming concepts but failing to execute them as procedures.
- Abstract(参考訳): 既存のベンチマークの性能は高いが、大きな言語モデルが真に新しい科学的情報を引き継ぐことができるかどうかは不明だ。
ほとんどの評価はエンドツーエンドのRAGパイプラインをスコアし、推論は検索とツールチェーンの選択と組み合わせられ、信号はパラメトリック記憶とオープンウェブのボラティリティによってさらに汚染される。
深層探索の難易度を保ちながら文書的推論を分離する制御された深層検索サンドボックスであるDeR2について紹介する。
DeR2は、命令のみ、概念(文書のない金のコンセプト)、関連するドキュメントのみ)、フルセット(関連ドキュメントとトポロジ関連イントラクタ)の4つの規則による推論からアクセスする証拠を分離する。
パラメトリック・リークを防止するため, オラクル・コンセプタビリティを確保しつつ, 証拠のないパラメトリック・フェールを要求される2相検証を適用した。
再現性を確保するため、各インスタンスは、専門家による注釈付き概念と検証された合理性を備えた凍結文書ライブラリ(2023-2025理論論文から引用)を提供する。
いくつかのモデルはモードスイッチの脆弱さを示し、インストラクションのみよりもフルセットでパフォーマンスが悪く、他のモデルは構造的概念の誤用を示し、概念を正しく命名するが、プロシージャとして実行できない。
関連論文リスト
- Demystifying deep search: a holistic evaluation with hint-free multi-hop questions and factorised metrics [89.1999907891494]
We present WebDetective, a benchmark of hint-free multi-hop questions with a control Wikipedia sandbox。
25の最先端モデルに対する我々の評価は、すべてのアーキテクチャにまたがる体系的な弱点を明らかにしている。
私たちはエージェントワークフローであるEvidenceLoopを開発し、ベンチマークが特定する課題を明示的にターゲットしています。
論文 参考訳(メタデータ) (2025-10-01T07:59:03Z) - CRAVE: A Conflicting Reasoning Approach for Explainable Claim Verification Using LLMs [15.170312674645535]
CRAVE は、説明可能なクレーム VErification に対する Conflicting Reasoning Approach である。
大規模な言語モデルによって推論される矛盾する理性に基づいて、複雑なクレームを検証することができる。
CRAVEは最先端の手法よりもはるかに優れた性能を実現している。
論文 参考訳(メタデータ) (2025-04-21T07:20:31Z) - Learning Refined Document Representations for Dense Retrieval via Deliberate Thinking [58.69615583599489]
Deliberate Thinking based Retriever (Debater) は、段階的な思考プロセスを導入することで文書表現を強化する新しいアプローチである。
Debaterは、いくつかのベンチマークで既存のメソッドよりも大幅に優れています。
論文 参考訳(メタデータ) (2025-02-18T15:56:34Z) - Unsupervised dense retrieval with conterfactual contrastive learning [16.679649921935482]
そこで本研究では,高密度検索モデルの高感度化により,高密度検索モデルのロバスト性を向上させることを提案する。
この文脈での感度を達成するモデルは、クエリとの関連性を決定するドキュメントのキーパスが修正されたときに高いばらつきを示すべきである。
因果関係と反事実分析に動機付け, 一連の反事実正則化手法を提案する。
論文 参考訳(メタデータ) (2024-12-30T07:01:34Z) - Prototype-based Aleatoric Uncertainty Quantification for Cross-modal
Retrieval [139.21955930418815]
クロスモーダル検索手法は、共通表現空間を共同学習することにより、視覚と言語モダリティの類似性関係を構築する。
しかし、この予測は、低品質なデータ、例えば、腐敗した画像、速いペースの動画、詳細でないテキストによって引き起こされるアレタリック不確実性のために、しばしば信頼性が低い。
本稿では, 原型に基づくAleatoric Uncertainity Quantification (PAU) フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-29T09:41:19Z) - GERE: Generative Evidence Retrieval for Fact Verification [57.78768817972026]
本稿では,ジェネレーション方式で証拠を検索する最初のシステムであるGEREを提案する。
FEVERデータセットの実験結果は、GEREが最先端のベースラインよりも大幅に改善されていることを示している。
論文 参考訳(メタデータ) (2022-04-12T03:49:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。