論文の概要: Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
- arxiv url: http://arxiv.org/abs/2510.18874v1
- Date: Tue, 21 Oct 2025 17:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:14.128326
- Title: Retaining by Doing: The Role of On-Policy Data in Mitigating Forgetting
- Title(参考訳): 行動による保持: フォージングの緩和におけるオン・ポリティィ・データの役割
- Authors: Howard Chen, Noam Razin, Karthik Narasimhan, Danqi Chen,
- Abstract要約: 言語モデルをポストトレーニングによって新しいタスクに適応することは、既存の能力を劣化させるリスクをもたらす。
教師付き微調整(SFT)と強化学習(RL)の2つの広く採用されているポストトレーニング手法の忘れパターンを比較した。
RLはSFTよりも忘れられがちだが、目標タスクのパフォーマンスは同等か高い。
- 参考スコア(独自算出の注目度): 40.80967570661867
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting language models (LMs) to new tasks via post-training carries the risk of degrading existing capabilities -- a phenomenon classically known as catastrophic forgetting. In this paper, toward identifying guidelines for mitigating this phenomenon, we systematically compare the forgetting patterns of two widely adopted post-training methods: supervised fine-tuning (SFT) and reinforcement learning (RL). Our experiments reveal a consistent trend across LM families (Llama, Qwen) and tasks (instruction following, general knowledge, and arithmetic reasoning): RL leads to less forgetting than SFT while achieving comparable or higher target task performance. To investigate the cause for this difference, we consider a simplified setting in which the LM is modeled as a mixture of two distributions, one corresponding to prior knowledge and the other to the target task. We identify that the mode-seeking nature of RL, which stems from its use of on-policy data, enables keeping prior knowledge intact when learning the target task. We then verify this insight by demonstrating that the use on-policy data underlies the robustness of RL to forgetting in practical settings, as opposed to other algorithmic choices such as the KL regularization or advantage estimation. Lastly, as a practical implication, our results highlight the potential of mitigating forgetting using approximately on-policy data, which can be substantially more efficient to obtain than fully on-policy data.
- Abstract(参考訳): 言語モデル(LM)をポストトレーニングによって新しいタスクに適用すると、既存の能力が劣化するリスクが生じる。
本稿では,この現象を緩和するためのガイドラインの同定に向けて,教師付き微調整(SFT)と強化学習(RL)という,広く採用されている2つのポストトレーニング手法の忘れパターンを体系的に比較する。
我々の実験は、LMファミリー(Llama, Qwen)とタスク(インストラクション、一般的な知識、算術的推論)で一貫した傾向を示す。
この違いの原因を明らかにするために,従来の知識に対応する2つの分布と,対象タスクに対応する2つの分布の混合として,LMをモデル化した簡易な設定について考察する。
RLのモード探索性は、そのオン・ポリティクス・データの使用に由来するもので、目標タスクを学習する際の事前知識の維持を可能にする。
そして、この知見を、KL正規化や利点推定といった他のアルゴリズム的選択とは対照的に、実運用環境でのRLのロバスト性に基礎を置いていることを示すことによって検証する。
最後に,本研究の結果から,ほぼオンラインデータを用いた忘れの軽減の可能性を強調した。
関連論文リスト
- One-Token Rollout: Guiding Supervised Fine-Tuning of LLMs with Policy Gradient [16.05489579792086]
政策勾配法を用いてSFTを誘導する新しい微調整アルゴリズムであるワンツーケンロールアウト(OTR)を導入する。
OTRは、各トークン生成を1ステップ強化学習軌跡として扱うことにより、自己回帰学習プロセスを再構築する。
我々は,OTRを微調整LDMの強力で実用的な代替品として位置づけた。
論文 参考訳(メタデータ) (2025-09-30T14:25:56Z) - Group-Relative REINFORCE Is Secretly an Off-Policy Algorithm: Demystifying Some Myths About GRPO and Its Friends [64.71326476563213]
大規模言語モデル(LLM)の非政治強化学習が注目されている。
本稿では,特定のトレーニングデータ分布を仮定することなく,グループ化型REINFORCEの第一原理導出について述べる。
この観点は、REINFORCEを非政治的な設定に適応するための2つの一般的な原則をもたらす。
論文 参考訳(メタデータ) (2025-09-29T02:34:54Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Pessimistic Causal Reinforcement Learning with Mediators for Confounded Offline Data [17.991833729722288]
我々は新しいポリシー学習アルゴリズム PESsimistic CAusal Learning (PESCAL) を提案する。
我々のキーとなる観察は、システム力学における作用の効果を媒介する補助変数を組み込むことで、Q-関数の代わりに媒介物分布関数の下位境界を学習することは十分であるということである。
提案するアルゴリズムの理論的保証とシミュレーションによる有効性の実証、および主要な配車プラットフォームからのオフラインデータセットを利用した実世界の実験を提供する。
論文 参考訳(メタデータ) (2024-03-18T14:51:19Z) - How Can LLM Guide RL? A Value-Based Approach [68.55316627400683]
強化学習(Reinforcement Learning, RL)は、将来の行動方針をフィードバックで改善することにより、シーケンシャルな意思決定問題の事実上の標準的実践となった。
大規模言語モデル(LLM)の最近の発展は、言語理解と生成において印象的な能力を示したが、探索と自己改善能力に欠けていた。
我々はLINVITというアルゴリズムを開発し、LLMガイダンスを値ベースRLの正規化因子として組み込んで学習に必要なデータ量を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-25T20:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。