論文の概要: RL's Razor: Why Online Reinforcement Learning Forgets Less
- arxiv url: http://arxiv.org/abs/2509.04259v1
- Date: Thu, 04 Sep 2025 14:38:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.188065
- Title: RL's Razor: Why Online Reinforcement Learning Forgets Less
- Title(参考訳): RLのRazor: なぜオンライン強化学習は少ないのか
- Authors: Idan Shenfeld, Jyothish Pari, Pulkit Agrawal,
- Abstract要約: ファインチューニングモデルと強化学習(RL)と教師付きファインチューニング(SFT)を比較した。
本研究は,新しい課題に基づいて評価された細調整と基本方針のKL偏差として測定された分布シフトによって,忘れる程度が決定されることを示す。
- 参考スコア(独自算出の注目度): 13.481023080238534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Comparison of fine-tuning models with reinforcement learning (RL) and supervised fine-tuning (SFT) reveals that, despite similar performance at a new task, RL preserves prior knowledge and capabilities significantly better. We find that the degree of forgetting is determined by the distributional shift, measured as the KL-divergence between the fine-tuned and base policy evaluated on the new task. Our analysis reveals that on-policy RL is implicitly biased towards KL-minimal solutions among the many that solve the new task, whereas SFT can converge to distributions arbitrarily far from the base model. We validate these findings through experiments with large language models and robotic foundation models and further provide theoretical justification for why on-policy RL updates lead to a smaller KL change. We term this principle $\textit{RL's Razor}$: among all ways to solve a new task, RL prefers those closest in KL to the original model.
- Abstract(参考訳): ファインチューニングモデルと強化学習(RL)と教師付きファインチューニング(SFT)を比較すると、新しいタスクでの類似した性能にもかかわらず、RLは事前の知識と能力を大幅に向上させることが分かる。
本研究は,新しい課題に基づいて評価された細調整と基本方針のKL偏差として測定された分布シフトによって,忘れる程度が決定されることを示す。
分析の結果,新たな課題を解く多くの人の中で,オンラインRLは暗黙的にKL最小解に偏り,SFTはベースモデルから遠く離れた分布に収束することがわかった。
大規模言語モデルとロボット基礎モデルを用いた実験によりこれらの知見を検証し、また、オンラインRL更新がKLの変化を小さくする理由を理論的に正当化する。
我々はこの原理を $\textit{RL's Razor}$: 新しいタスクを解くあらゆる方法の中で、RLは元のモデルよりもKLに最も近いものを好む。
関連論文リスト
- Reinforcement Learning Fine-Tunes a Sparse Subnetwork in Large Language Models [0.0]
強化学習(Reinforcement Learning, RL)の微調整では、モデルのパラメータの大部分を更新する必要があると仮定されることが多い。
我々はこの現象をRLにより引き起こされるパラメータ更新空間と呼ぶ。
このスパースサブネットワークのみを微調整することで、完全なモデル性能が回復し、完全に微調整されたモデルとほぼ同じパラメータが得られることを示す。
論文 参考訳(メタデータ) (2025-07-23T01:02:17Z) - ProRL: Prolonged Reinforcement Learning Expands Reasoning Boundaries in Large Language Models [89.37819814048288]
本稿では,KL分散制御,参照ポリシ,多様なタスクスイートを取り入れた新しいトレーニング手法であるProRLを紹介する。
我々の経験的分析により、RL学習モデルは、広範囲のpass@k評価において、ベースリセットモデルよりも一貫して優れていたことが明らかとなった。
これらの知見は、RLが言語モデルにおける推論境界を有意に拡張する条件について、新たな洞察を与える。
論文 参考訳(メタデータ) (2025-05-30T17:59:01Z) - RAST: Reasoning Activation in LLMs via Small-model Transfer [33.32587030836428]
強化学習(RL)は,大規模言語モデル(LLM)の推論能力向上のための強力なアプローチとなっている。
大規模にRLを適用することは、潜在的にリソース集約であり、複数のモデルコピーと広範なGPUワークロードを必要とします。
本稿では、RL学習モデルからRL学習モデルからより大規模なモデルにRL誘導確率調整を注入することにより、推論挙動を伝達する簡易かつ効果的なRASTを提案する。
論文 参考訳(メタデータ) (2025-05-30T17:57:08Z) - Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model? [67.30809748319486]
RLVR(Reinforcement Learning with Verifiable Rewards)は近年,大規模言語モデル(LLM)の推論性能の向上に成功している。
本研究はRLVRの現状を批判的に考察する。
現在のトレーニング設定では、根本的な新しい推論パターンが生まれていないことが分かりました。
論文 参考訳(メタデータ) (2025-04-18T17:59:56Z) - Echo Chamber: RL Post-training Amplifies Behaviors Learned in Pretraining [74.83412846804977]
強化学習(RL)に基づく微調整は、訓練後の言語モデルにおいて重要なステップとなっている。
数理推論のためのRLファインタニングを、スクラッチから完全にトレーニングモデルを用いて体系的にエンドツーエンドに研究する。
論文 参考訳(メタデータ) (2025-04-10T17:15:53Z) - $Q\sharp$: Provably Optimal Distributional RL for LLM Post-Training [60.01594991938747]
$Qsharp$ は KL 正規化 RL の値に基づくアルゴリズムで、最適な正規化 $Q$ 関数を使用して参照ポリシーを導出する。
この結果から,LLMのポストトレーニングに有効なアプローチとして$Qsharp$が注目され,性能と理論的保証が向上した。
論文 参考訳(メタデータ) (2025-02-27T21:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。