論文の概要: Procedural Knowledge at Scale Improves Reasoning
- arxiv url: http://arxiv.org/abs/2604.01348v1
- Date: Wed, 01 Apr 2026 20:01:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:09.869213
- Title: Procedural Knowledge at Scale Improves Reasoning
- Title(参考訳): スケールでの手続き的知識は推論を改善する
- Authors: Di Wu, Devendra Singh Sachan, Wen-tau Yih, Mingda Chen,
- Abstract要約: Reasoning Memoryは、大規模に手続き的な知識を明示的に取り出し再利用する、推論モデルのためのフレームワークである。
Reasoning Memoryは、ドキュメント、トラジェクトリ、テンプレートの知識、および計算に適合したテスト時間スケーリングベースラインで、RAGを一貫して上回ります。
- 参考スコア(独自算出の注目度): 25.36077714467684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Test-time scaling has emerged as an effective way to improve language models on challenging reasoning tasks. However, most existing methods treat each problem in isolation and do not systematically reuse knowledge from prior reasoning trajectories. In particular, they underutilize procedural knowledge: how to reframe a problem, choose an approach, and verify or backtrack when needed. We introduce Reasoning Memory, a retrieval-augmented generation (RAG) framework for reasoning models that explicitly retrieves and reuses procedural knowledge at scale. Starting from existing corpora of step-by-step reasoning trajectories, we decompose each trajectory into self-contained subquestion-subroutine pairs, yielding a datastore of 32 million compact procedural knowledge entries. At inference time, a lightweight in-thought prompt lets the model verbalize the core subquestion, retrieve relevant subroutines within its reasoning trace, and reason under diverse retrieved subroutines as implicit procedural priors. Across six math, science, and coding benchmarks, Reasoning Memory consistently outperforms RAG with document, trajectory, and template knowledge, as well as a compute-matched test-time scaling baseline. With a higher inference budget, it improves over no retrieval by up to 19.2% and over the strongest compute-matched baseline by 7.9% across task types. Ablation studies show that these gains come from two key factors: the broad procedural coverage of the source trajectories and our decomposition and retrieval design, which together enable effective extraction and reuse of procedural knowledge.
- Abstract(参考訳): テストタイムのスケーリングは、困難な推論タスクにおいて、言語モデルを改善する効果的な方法として現れました。
しかし、既存のほとんどの手法は、それぞれの問題を分離して扱い、事前の推論軌跡から知識を体系的に再利用しない。
特に彼らは、問題を再設計し、アプローチを選択し、必要な時に検証またはバックトラックする方法という、手続き的な知識を過小評価しています。
本稿では、大規模に手続き的知識を明示的に取得・再利用する推論モデルのための検索強化世代(RAG)フレームワークであるReasoning Memoryを紹介する。
既存のステップ・バイ・ステップの推論軌道のコーパスから、各軌道を自己完結したサブクエストとサブルーチンのペアに分解し、2200万のコンパクトな手続き的知識エントリのデータストアを生成する。
推論時に、軽量なインシテットプロンプトは、モデルがコアサブクエストを言語化し、その推論トレース内で関連するサブルーチンを検索し、暗黙の手続き的先行として、様々なサブルーチンの下で推論することを可能にする。
6つの数学、科学、コーディングのベンチマークで、Reasoning Memoryは、ドキュメント、軌跡、テンプレートの知識、および計算に適合したテスト時間スケーリングベースラインでRAGを一貫して上回っている。
推論予算を高くすることで、検索を19.2%、最強の計算マッチングベースラインを7.9%改善する。
アブレーション研究は、これらの成果が2つの主要な要因から得られたことを示している: ソース・トラジェクトリの広範囲なプロシージャ・カバレッジと、我々の分解・検索設計により、プロシージャ・ナレッジの効果的な抽出と再利用を可能にする。
関連論文リスト
- Multi-hop Reasoning via Early Knowledge Alignment [68.28168992785896]
アーリー・ナレッジ・アライメント(EKA)は、大規模言語モデルと文脈的に関連づけられた知識を整合させることを目的としている。
EKAは検索精度を大幅に改善し、カスケードエラーを低減し、性能と効率を向上する。
EKAは、大規模モデルにシームレスにスケールする、多目的でトレーニング不要な推論戦略として有効である。
論文 参考訳(メタデータ) (2025-12-23T08:14:44Z) - A Benchmark for Procedural Memory Retrieval in Language Agents [0.023227405857540805]
現在のAIエージェントは、慣れ親しんだ設定で優れていますが、目に見えないProcで新しいタスクに直面したとき、急激に失敗します。
タスク実行から手続き的メモリ検索を分離する最初のベンチマークを示す。
埋め込み型手法は、慣れ親しんだ文脈で強く機能するが、新規な手法では著しく劣化する。
論文 参考訳(メタデータ) (2025-11-21T08:08:53Z) - Adaptive Test-Time Reasoning via Reward-Guided Dual-Phase Search [62.1546099504045]
本稿では、推論を計画と実行に分離する二相テストタイムスケーリングフレームワークを提案する。
具体的には、推論軌跡を分解し、各フェーズの報酬モデルを構築し、探索者が個別に計画と実行を探索、実行できるようにする。
数学的推論とコード生成ベンチマークの両方の実験により、我々の手法は計算の冗長性を低減しつつ、常に精度を向上することを示した。
論文 参考訳(メタデータ) (2025-09-29T19:27:23Z) - Retrieval Feedback Memory Enhancement Large Model Retrieval Generation Method [10.654167904580838]
大規模言語モデル(LLM)は、制約付きパラメトリック知識や高いリトレーニングコストといった固有の制約に直面します。
検索フィードバックとメモリ検索拡張生成(RFM-RAG)を提案する。
RFM-RAGは, 動的エビデンスプールを構築することにより, 従来手法のステートレス検索をステートフルな継続的知識管理に変換する。
論文 参考訳(メタデータ) (2025-08-25T10:13:02Z) - FrugalRAG: Learning to retrieve and reason for multi-hop QA [10.193015391271535]
RAGメトリクスを改善するために大規模な微調整は必要ない。
監督されたRLベースの微調整は、粗悪さの観点からRAGに役立つ。
論文 参考訳(メタデータ) (2025-07-10T11:02:13Z) - Log-Augmented Generation: Scaling Test-Time Reasoning with Reusable Computation [80.69067017594709]
大規模言語モデル(LLM)とそのエージェントモデルは、以前のタスクからの推論を維持するのに苦労する。
本稿では,従来の計算を直接再利用し,テスト時に過去のログから推論する新しいフレームワークであるLAGを提案する。
本手法は,ログを使用しない標準的なエージェントシステムよりも優れている。
論文 参考訳(メタデータ) (2025-05-20T14:14:38Z) - Disentangling Memory and Reasoning Ability in Large Language Models [97.26827060106581]
本稿では、複雑な推論プロセスを2つの異なる明確なアクションに分解する新しい推論パラダイムを提案する。
実験の結果, この分解によりモデル性能が向上し, 推論プロセスの解釈可能性も向上することがわかった。
論文 参考訳(メタデータ) (2024-11-20T17:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。