論文の概要: Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL
- arxiv url: http://arxiv.org/abs/2602.03773v1
- Date: Tue, 03 Feb 2026 17:34:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.606598
- Title: Reasoning Cache: Continual Improvement Over Long Horizons via Short-Horizon RL
- Title(参考訳): キャッシュの推論:ショートホライゾンRLによるロングホライズンズの継続的な改善
- Authors: Ian Wu, Yuxiao Qu, Amrith Setlur, Aviral Kumar,
- Abstract要約: トレーニングと推論の両方で標準の自己回帰復号を置き換える反復復号アルゴリズムであるRCを導入する。
RCは、LCMの応答生成と要約能力の間の非対称性を利用して、一貫して改善する推論連鎖を構築する。
16k-tokenのトレーニング予算を使って4BモデルをRCでトレーニングすると、テスト時に0.5mトークンでHMMT 2025のパフォーマンスが40%から70%近く向上する。
- 参考スコア(独自算出の注目度): 34.12869266614113
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models (LLMs) that can continually improve beyond their training budgets are able to solve increasingly difficult problems by adapting at test time, a property we refer to as extrapolation. However, standard reinforcement learning (RL) operates over fixed problem distributions and training budgets, which limits extrapolation amidst distribution shift at test time. To address this, we introduce RC, an iterative decoding algorithm that replaces standard autoregressive decoding during both training and inference. RC exploits an asymmetry between the response generation and summarization capabilities of LLMs to construct reasoning chains that consistently improve across iterations. Models trained to use RC can extrapolate and continually improve over reasoning horizons more than an order of magnitude longer than those seen during training. Empirically, training a 4B model with RC using a 16k-token training budget improves performance on HMMT 2025 from 40% to nearly 70% with 0.5m tokens at test time, outperforming both comparably sized models and many larger reasoning LLMs. Finally, we also show that models trained with RC can more effectively leverage existing scaffolds to further scale test-time performance, due to the improved summary-conditioned generation abilities learned through training.
- Abstract(参考訳): トレーニング予算を超えて継続的に改善できる大規模言語モデル(LLM)は、テスト時に適応することで、ますます難しい問題を解決することができます。
しかし、標準強化学習(RL)は、固定された問題分布とトレーニング予算を運用しており、テスト時の分布シフトの中で外挿を制限する。
これを解決するために、トレーニングと推論の両方で標準の自己回帰復号を置き換える反復復号アルゴリズムRCを導入する。
RC は LLM の応答生成と要約能力の非対称性を利用して、反復を通して一貫して改善される推論連鎖を構築する。
RCを使用するように訓練されたモデルは、トレーニング中に見られたものよりも1桁以上長い水平線を推理し、継続的に改善することができる。
16kの訓練予算でRCで4Bモデルをトレーニングすると、テスト時のHMMT 2025の性能は40%から70%近く向上する。
最後に, RCで学習したモデルにより, 既存の足場をより効果的に活用し, テスト時間性能を向上できることを示す。
関連論文リスト
- Not All Steps are Informative: On the Linearity of LLMs' RLVR Training [14.59942263367421]
検証可能な報酬(RLVR)による強化学習は,大規模言語モデル(LLM)のポストトレーニングの中心的コンポーネントとなっている。
本研究では,将来のモデル状態が外挿による中間チェックポイントから予測可能かどうかを検討する。
Weight Extrapolationは標準RLトレーニングに匹敵する性能のモデルを生成すると同時に,計算量を大幅に削減することを示した。
論文 参考訳(メタデータ) (2026-01-08T03:06:18Z) - Taming the Long-Tail: Efficient Reasoning RL Training with Adaptive Drafter [52.111923076688505]
強力な推論能力を持つ大規模言語モデル(LLM)のトレーニングは、複雑な問題解決において新たなフロンティアを解放する重要なマイルストーンとなる。
本稿では,適応的投機的復号化を組み込むことで,RL学習の無作為に推論を高速化するシステムであるTLTを提案する。
論文 参考訳(メタデータ) (2025-11-20T18:59:25Z) - Scaling Up RL: Unlocking Diverse Reasoning in LLMs via Prolonged Training [121.5858973157225]
本研究では,長期強化学習が多種多様な推論領域にまたがる小言語モデルに及ぼす影響について検討する。
我々は,長期的パフォーマンス向上の鍵となる重要な要素として,制御KL正規化,クリッピング率,定期参照ポリシーリセットを導入する。
私たちのモデルは、数学の+14.7%、コーディングの+13.9%、論理パズルの+54.8%など、強力なベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-07-16T17:59:24Z) - Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions [17.407689582427437]
大規模言語モデル(LLM)推論は、強化学習(RL)を通して計画や自己回帰のような洗練された行動が現れることを示した。
textbfReLIFT (textbfReinforcement textbfL textbfInterleaved with Online textbfFine-textbfTuning)
ReLIFTでは、モデルを主にRLを使ってトレーニングするが、難しい問題に遭遇すると、ファインチューニングのための高品質なソリューションが収集され、トレーニングプロセスが交互に行われる。
論文 参考訳(メタデータ) (2025-06-09T08:11:20Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [93.00629872970364]
強化学習(Reinforcement Learning, RL)は, 複雑な推論タスクにおいて, 言語モデルの性能向上のための主要なパラダイムとなっている。
SPARKLE(SPARKLE)は、3つの重要な次元にわたるRLの効果を詳細に解析するフレームワークである。
我々は、RL信号と混合品質の推論トレースを産出しない難題が、依然としてトレーニングに有効であるかどうかを調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - Symmetric Reinforcement Learning Loss for Robust Learning on Diverse Tasks and Model Scales [13.818149654692863]
強化学習(RL)トレーニングは、移動目標や高勾配分散などの要因により本質的に不安定である。
本研究では,雑音データに対する教師付き学習から逆クロスエントロピー(RCE)を適用し,対称的なRL損失を定義することにより,RLトレーニングの安定性を向上させる。
論文 参考訳(メタデータ) (2024-05-27T19:28:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。