論文の概要: h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.07312v1
- Date: Wed, 08 Oct 2025 17:58:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 16:41:20.689066
- Title: h1: Bootstrapping LLMs to Reason over Longer Horizons via Reinforcement Learning
- Title(参考訳): h1:強化学習による長期ホライズンズに対するLLMのブートストラップ
- Authors: Sumeet Ramesh Motwani, Alesia Ivanova, Ziyang Cai, Philip Torr, Riashat Islam, Shital Shah, Christian Schroeder de Witt, Charles London,
- Abstract要約: 大規模言語モデルは短期水平推論タスクでは優れているが、水平線長の推論によって性能が低下する。
既存のアプローチでは、推論時の足場やコストのかかるステップレベルの監視に依存しています。
本稿では,既存短軸データのみを用いて,長軸推論機能をブートストラップするスケーラブルな手法を提案する。
- 参考スコア(独自算出の注目度): 22.930073904843212
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models excel at short-horizon reasoning tasks, but performance drops as reasoning horizon lengths increase. Existing approaches to combat this rely on inference-time scaffolding or costly step-level supervision, neither of which scales easily. In this work, we introduce a scalable method to bootstrap long-horizon reasoning capabilities using only existing, abundant short-horizon data. Our approach synthetically composes simple problems into complex, multi-step dependency chains of arbitrary length. We train models on this data using outcome-only rewards under a curriculum that automatically increases in complexity, allowing RL training to be scaled much further without saturating. Empirically, our method generalizes remarkably well: curriculum training on composed 6th-grade level math problems (GSM8K) boosts accuracy on longer, competition-level benchmarks (GSM-Symbolic, MATH-500, AIME) by up to 2.06x. Importantly, our long-horizon improvements are significantly higher than baselines even at high pass@k, showing that models can learn new reasoning paths under RL. Theoretically, we show that curriculum RL with outcome rewards achieves an exponential improvement in sample complexity over full-horizon training, providing training signal comparable to dense supervision. h1 therefore introduces an efficient path towards scaling RL for long-horizon problems using only existing data.
- Abstract(参考訳): 大規模言語モデルは短期水平推論タスクでは優れているが、水平線長の推論によって性能が低下する。
既存のアプローチでは、推論時の足場やコストのかかるステップレベルの監視に依存しています。
そこで本研究では,既存短軸データのみを用いて,長軸推論機能をブートストラップするスケーラブルな手法を提案する。
提案手法は単純問題を任意の長さの複素多段階依存鎖に合成する。
結果のみの報酬を使ってこのデータに基づいてモデルをトレーニングし、それによって自動的に複雑性が増大し、RLトレーニングは飽和することなくさらにスケールすることができる。
GSM8Kは,より長い競合レベルのベンチマーク(GSM-Symbolic, MATH-500, AIME)の精度を最大2.6倍に向上させる。
重要なことは、我々の長期的改善はハイパス@kでもベースラインよりも大幅に高く、モデルがRLの下で新しい推論パスを学習できることを示しています。
理論的には、結果報酬のあるカリキュラムRLは、全水平トレーニングよりもサンプルの複雑さを指数関数的に改善し、密集した監督に匹敵する訓練信号を提供する。
したがって、h1 は、既存のデータのみを用いて、長い水平問題に対して RL をスケーリングする効率的な方法を導入する。
関連論文リスト
- RL for Reasoning by Adaptively Revealing Rationales [36.50924054394857]
監督された微調整(SFT)は密度の高い地下構造ラベルに依存しており、シーケンスの長さが大きくなるにつれてコストが増大する。
AdaBack(アダプティブ・バックトラック)は,学習中の目標出力の部分的なプレフィックスのみを明らかにする,サンプルごとのカリキュラム学習アルゴリズムである。
部分解に対する適応的なカリキュラムは、そうでなければ難解な問題を確実に解決することを示します。
論文 参考訳(メタデータ) (2025-06-22T17:46:14Z) - Curriculum Reinforcement Learning from Easy to Hard Tasks Improves LLM Reasoning [52.32193550674408]
強化学習(RL)による言語モデルの推論能力の向上を目指す。
我々は,LLMが徐々に推論スキルを構築できるように,タスクを簡単から困難(E2H)にスケジュールすることを提案する。
E2H Reasonerは小型LLM(1.5B〜3B)の推論能力を著しく改善する
論文 参考訳(メタデータ) (2025-06-07T02:41:54Z) - Horizon Reduction Makes RL Scalable [78.67071359991218]
オフライン強化学習(RL)アルゴリズムのスケーラビリティについて検討する。
通常のオフラインRLデータセットの最大1000倍のデータセットを使用します。
オフラインRLのスケール不足の主な原因は地平線にあることを示す。
論文 参考訳(メタデータ) (2025-06-04T17:06:54Z) - AceReason-Nemotron: Advancing Math and Code Reasoning through Reinforcement Learning [50.02117478165099]
大規模強化学習は, 強大・中小モデルの推論能力を大幅に向上させることができることを示す。
まずは算数のみのプロンプト、次にコードのみのプロンプトのトレーニングを行う。
論文 参考訳(メタデータ) (2025-05-22T08:50:47Z) - T1: Advancing Language Model Reasoning through Reinforcement Learning and Inference Scaling [52.34735382627312]
大規模言語モデル(LLM)は複雑な推論タスクにおいて顕著な能力を示した。
既存のアプローチは主に、効果的なテストタイムスケーリングを達成するために、模倣学習と苦労に依存しています。
我々は、探索を奨励し、推論スケーリングを理解することで、強化学習をスケールするためにT1を提案する。
論文 参考訳(メタデータ) (2025-01-20T18:33:33Z) - DHRL: A Graph-Based Approach for Long-Horizon and Sparse Hierarchical
Reinforcement Learning [26.973783464706447]
階層強化学習(HRL)は、時間的抽象化を利用して複雑な制御タスクに顕著な進歩をもたらした。
従来のHRLアルゴリズムは、環境が大きくなるにつれて深刻なデータ非効率に悩まされることが多い。
本稿では,階層型強化学習(DHRL)におけるグラフを用いたホライズン分離手法を提案する。
論文 参考訳(メタデータ) (2022-10-11T05:09:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。