論文の概要: A Task-Centric Theory for Iterative Self-Improvement with Easy-to-Hard Curricula
- arxiv url: http://arxiv.org/abs/2602.10014v1
- Date: Tue, 10 Feb 2026 17:36:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.713047
- Title: A Task-Centric Theory for Iterative Self-Improvement with Easy-to-Hard Curricula
- Title(参考訳): 難易度曲線を用いた反復自己改善のためのタスク中心理論
- Authors: Chenruo Liu, Yijun Dong, Yiqiu Shen, Qi Lei,
- Abstract要約: 繰り返し自己改善は、報酬検証された出力に対する自己回帰型大規模言語モデル(LLM)を微調整する。
我々は、各ラウンドの自己改善を最大限の微調整としてモデル化することで、この目標に向かって前進する。
我々の分析では、より良いモデルがより多くのデータを受け取り、持続的な自己改善をサポートする明示的なフィードバックループが明らかになっている。
- 参考スコア(独自算出の注目度): 16.2171923772074
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Iterative self-improvement fine-tunes an autoregressive large language model (LLM) on reward-verified outputs generated by the LLM itself. In contrast to the empirical success of self-improvement, the theoretical foundation of this generative, iterative procedure in a practical, finite-sample setting remains limited. We make progress toward this goal by modeling each round of self-improvement as maximum-likelihood fine-tuning on a reward-filtered distribution and deriving finite-sample guarantees for the expected reward. Our analysis reveals an explicit feedback loop where better models accept more data per iteration, supporting sustained self-improvement while explaining eventual saturation of such improvement. Adopting a task-centric view by considering reasoning tasks with multiple difficulty levels, we further prove quantifiable conditions on model initialization, task difficulty, and sample budget where easy-to-hard curricula provably achieve better guarantees than training on fixed mixtures of tasks. Our analyses are validated via Monte-Carlo simulations and controlled experiments on graph-based reasoning tasks.
- Abstract(参考訳): 反復的自己改善は、LLM自体が生成した報酬検証出力に対して自己回帰的大言語モデル(LLM)を微調整する。
自己改善の実証的な成功とは対照的に、実用的有限サンプル設定におけるこの生成的反復的手順の理論的基礎は依然として限られている。
我々は,各ラウンドの自己改善を,報奨フィルタ分布の最大微調整としてモデル化し,期待される報奨に対する有限サンプル保証を導出することによって,この目標に向かって前進する。
我々の分析では、改善されたモデルがイテレーション毎により多くのデータを受け取り、改善の最終的な飽和を説明しながら持続的な自己改善をサポートする明示的なフィードバックループを明らかにした。
課題中心の視点を複数の難易度をもつタスクの推論を考慮し、モデルの初期化、タスク難易度、サンプル予算の定量的な条件を更に証明する。
解析はモンテカルロシミュレーションとグラフに基づく推論タスクの制御実験により検証される。
関連論文リスト
- Discovering Process-Outcome Credit in Multi-Step LLM Reasoning [3.584086358722852]
強化学習(RL)は、大規模言語モデル(LLM)における推論能力を高めるための強力なパラダイムとして機能する。
本稿では,連続的な報酬信号を提供するための新しいフレームワークを提案する。
本モデルでは, 予測できない, 難解な推論タスクに対して, ゼロショット転送能力を実証し, より優れた配当性を示す。
論文 参考訳(メタデータ) (2026-02-01T05:44:09Z) - Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Iterative Deepening Sampling as Efficient Test-Time Scaling [27.807695570974644]
OpenAIのO1シリーズのような最近の推論モデルは、複雑な推論タスクにおいて例外的なパフォーマンスを示している。
本稿では,自己補正の強化と高品質なサンプル生成を目的とした,新しい反復型深層サンプリングアルゴリズムフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-08T04:39:51Z) - Entropy-Regularized Process Reward Model [43.09203393852343]
大規模言語モデル(LLM)は、複雑な多段階推論を行う上で有望であるが、数学的推論に苦慮し続けている。
KL規則化マルコフ決定プロセス(MDP)を統合したエントロピー規則化プロセス報酬モデル(ER-PRM)を提案する。
MATHとGSM8Kベンチマークの実証実験により、ER-PRMは既存のプロセス報酬モデルより一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-12-15T01:09:23Z) - Step-by-Step Reasoning for Math Problems via Twisted Sequential Monte Carlo [55.452453947359736]
Twisted Sequential Monte Carlo(TSMC)に基づく新しい検証手法を提案する。
TSMCを大規模言語モデルに適用し、部分解に対する将来的な報酬を推定する。
このアプローチは、ステップワイドなヒューマンアノテーションを必要としない、より直接的なトレーニングターゲットをもたらす。
論文 参考訳(メタデータ) (2024-10-02T18:17:54Z) - When Demonstrations Meet Generative World Models: A Maximum Likelihood
Framework for Offline Inverse Reinforcement Learning [62.00672284480755]
本稿では, 専門家エージェントから, 一定の有限個の実演において観測された動作を過小評価する報酬と環境力学の構造を復元することを目的とする。
タスクを実行するための正確な専門知識モデルは、臨床的意思決定や自律運転のような安全に敏感な応用に応用できる。
論文 参考訳(メタデータ) (2023-02-15T04:14:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。