論文の概要: When to Retrieve During Reasoning: Adaptive Retrieval for Large Reasoning Models
- arxiv url: http://arxiv.org/abs/2604.26649v1
- Date: Wed, 29 Apr 2026 13:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-30 15:59:36.413922
- Title: When to Retrieve During Reasoning: Adaptive Retrieval for Large Reasoning Models
- Title(参考訳): 推論中の検索のタイミング:大規模推論モデルに対する適応的検索
- Authors: Dongxin Guo, Jikun Wu, Siu Ming Yiu,
- Abstract要約: 本稿では、推論対応検索フレームワークReaLM-Retrieveを紹介する。
ステップレベルの不確実性検出は、トークンや文レベルではなく、推論ステップで知識ギャップを識別する。
検索介入政策は、外部証拠が進行中の推論に最大限の利益をもたらすことを学習する。
- 参考スコア(独自算出の注目度): 13.891522069967507
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large reasoning models such as DeepSeek-R1 and OpenAI o1 generate extended chains of thought spanning thousands of tokens, yet their integration with retrieval-augmented generation (RAG) remains fundamentally misaligned. Current RAG systems optimize for providing context before reasoning begins, while reasoning models require evidence injection during multi-step inference chains. We introduce ReaLM-Retrieve, a reasoning-aware retrieval framework that addresses this mismatch through three key innovations: (1) a step-level uncertainty detector that identifies knowledge gaps at reasoning-step granularity rather than token or sentence level; (2) a retrieval intervention policy that learns when external evidence maximally benefits ongoing reasoning; and (3) an efficiency-optimized integration mechanism that reduces per-retrieval overhead by 3.2x compared to naive integration. Experiments on MuSiQue, HotpotQA, and 2WikiMultiHopQA demonstrate that ReaLM-Retrieve achieves on average 10.1% absolute improvement in answer F1 over standard RAG (range: 9.0-11.8% across the three benchmarks) while reducing retrieval calls by 47% compared to fixed-interval approaches like IRCoT (all improvements significant at p<0.01, paired bootstrap). On the challenging MuSiQue benchmark requiring 2-4 hop reasoning, our method achieves 71.2% F1 with an average of only 1.8 retrieval calls per question. Analysis shows that ReaLM-Retrieve also improves retrieval quality itself, achieving 81.3% Recall@5 with consistently higher precision and MRR than fixed-interval baselines on supporting evidence, establishing new state-of-the-art efficiency-accuracy trade-offs for reasoning-intensive retrieval tasks.
- Abstract(参考訳): DeepSeek-R1やOpenAI o1のような大規模な推論モデルでは、数千のトークンにまたがる思考のチェーンが拡張されるが、検索強化世代(RAG)との統合は基本的には不一致である。
現在のRAGシステムは、推論が始まる前にコンテキストを提供することを最適化する一方、推論モデルはマルチステップの推論チェーン中にエビデンスインジェクションを必要とする。
このミスマッチに対処する推論対応検索フレームワークであるReaLM-Retrieveを紹介した。(1)トークンや文レベルよりも推論ステップの粒度の知識ギャップを識別するステップレベルの不確実性検出,(2)外部証拠が継続的な推論に最大限の恩恵を与えるときに学習する検索介入ポリシ,(3)検索毎のオーバーヘッドを3.2倍削減する効率最適化統合機構である。
MuSiQue、HotpotQA、および2WikiMultiHopQAの実験では、ReaLM-Retrieveは標準RAG(3つのベンチマークで9.0-11.8%の範囲)よりも平均10.1%の絶対的な改善を実現し、IRCoT(p<0.01, paired bootstrap)のような固定インターバルアプローチと比較して検索コールを47%削減した。
2-4 ホップ推論を必要とする挑戦的な MuSiQue ベンチマークでは,平均 1.8 回の検索コールで 71.2% の F1 を達成している。
分析によると、ReaLM-Retrieveは検索品質も改善し、証拠を裏付ける固定インターバルベースラインよりも81.3%の精度でRecall@5を実現し、推論集約検索タスクのための新しい最先端の効率精度トレードオフを確立した。
関連論文リスト
- REAL: Regression-Aware Reinforcement Learning for LLM-as-a-Judge [83.2858110368572]
回帰報酬を最適化するための原則的RLフレームワークである textbfREAL (underlineREgression-underlineAware Reinforcement underlineLThought) を提案する。
我々は,REALがレグレッション対応SFTベースラインと標準RL法の両方を一貫して上回ることを示す。
論文 参考訳(メタデータ) (2026-03-17T21:19:08Z) - Tiny Recursive Models on ARC-AGI-1: Inductive Biases, Identity Conditioning, and Test-Time Compute [0.0]
我々はARC-AGI-1のARC Prize TRMチェックポイントを実験的に分析した。
テストタイムの増大と多数投票の合理化が報告された性能のかなりの部分を占めていることを示す。
また, TRMとLlama 3 8BのQLoRAファインチューンを標準ARC-AGI-1上で比較した。
論文 参考訳(メタデータ) (2025-12-04T06:20:44Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - RaCoT: Plug-and-Play Contrastive Example Generation Mechanism for Enhanced LLM Reasoning Reliability [12.67288560758937]
本稿では,RaCoT(Retrieval-aware Contrastive-of-Thought)を提案する。
RaCoTは、解答の発散を決定する重要な詳細に積極的に焦点を合わせるようモデルに誘導する。
論文 参考訳(メタデータ) (2025-10-26T15:06:44Z) - From Harm to Help: Turning Reasoning In-Context Demos into Assets for Reasoning LMs [58.02809208460186]
デモとしてDeepSeek-R1の高品質なトレースを使って、このパラドックスを再検討する。
デモが最適であっても、より多くの例を加えることで、常に精度が低下することがわかった。
デモを明示的で再利用可能な洞察に変換するシーケンシャルなテストタイム手順であるInsight-to-solve(I2S)を紹介します。
論文 参考訳(メタデータ) (2025-09-27T08:59:31Z) - Eigen-1: Adaptive Multi-Agent Refinement with Monitor-Based RAG for Scientific Reasoning [53.45095336430027]
暗黙的な検索と構造化された協調を組み合わせた統合フレームワークを開発する。
Humanity's Last Exam (HLE) Bio/Chem Goldでは,48.3%の精度を実現している。
SuperGPQAとTRQAの結果はドメイン間の堅牢性を確認した。
論文 参考訳(メタデータ) (2025-09-25T14:05:55Z) - EviNote-RAG: Enhancing RAG Models via Answer-Supportive Evidence Notes [39.61443457073034]
EviNote-RAGは検索ノート・アンサーのワークフローに従うフレームワークである。
生の外部情報を直接推論する代わりに、モデルが最初にサポート・エビデンス・ノートを生成する。
EviNote-RAGは最先端のパフォーマンスを実現し、回答の正確性、トレーニングの安定性、堅牢性、効率性を向上する。
論文 参考訳(メタデータ) (2025-08-31T14:44:45Z) - From Sufficiency to Reflection: Reinforcement-Guided Thinking Quality in Retrieval-Augmented Reasoning for LLMs [13.410543801811992]
本稿では既存のRAG推論モデルを分析し,3つの障害パターンを同定する。
本稿では,思考検索と多次元報酬システムを用いた新しいフレームワークTIRESRAG-R1を提案する。
4つのマルチホップQAデータセットの実験により、TIRESRAG-R1はRAG法よりも優れており、シングルホップタスクに適していることが示された。
論文 参考訳(メタデータ) (2025-07-30T14:29:44Z) - GRPO-CARE: Consistency-Aware Reinforcement Learning for Multimodal Reasoning [53.894789613838654]
我々は、複雑な実世界のビデオにバランスの取れた知覚と推論を必要とするベンチマークであるSEED-Bench-R1を紹介する。
SEED-Bench-R1を用いて、標準GRPOは解の精度を向上する一方で、推論ステップと解の論理的コヒーレンスを57.9%の一貫性で減少させる。
応答の正しさと推論コヒーレンスの両方を明示的な監督なしに最適化する整合性を考慮したRLフレームワークGRPO-CAREを提案する。
論文 参考訳(メタデータ) (2025-06-19T08:49:13Z) - Benchmarking Reasoning Robustness in Large Language Models [76.79744000300363]
新規データや不完全データでは,性能が著しく低下することがわかった。
これらの結果は、厳密な論理的推論に対するリコールへの依存を浮き彫りにした。
本稿では,情報不足によって引き起こされる幻覚を利用して推論ギャップを明らかにする,Math-RoBと呼ばれる新しいベンチマークを提案する。
論文 参考訳(メタデータ) (2025-03-06T15:36:06Z) - Chain of Evidences and Evidence to Generate: Prompting for Context Grounded and Retrieval Augmented Reasoning [3.117335706912261]
チェイン・オブ・エビデンス(CoE)とエビデンス・トゥ・ジェネレーション(E2G)は2つのユニークな戦略に基づいて構築されている。
根拠のない推論の主張の代わりに、我々の革新的なアプローチは「意思決定の証拠」の力を利用する。
我々のフレームワークは、様々な知識集約的推論および生成タスクにおいて、常に顕著な結果を達成する。
論文 参考訳(メタデータ) (2024-01-11T09:49:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。