論文の概要: Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
- arxiv url: http://arxiv.org/abs/2605.28860v1
- Date: Thu, 21 May 2026 19:03:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 05:02:24.542007
- Title: Mechanistic origins of catastrophic forgetting: why RL preserves circuits better than SFT?
- Title(参考訳): 破滅的忘れの起源--なぜRLはSFTよりも回路を保存するのか?
- Authors: Jeanmely Rojas Nunez, Viraj Sawant, Nathan Allen, Nomgondalai Amgalanbaatar, Yannis Zongo, Vasu Sharma, Maheep Chaudhary,
- Abstract要約: 微調整された大型言語モデル(LLM)は、しばしば以前の能力を壊滅的に忘れてしまう。
最近の研究によると、強化学習(RL)は教師付き微調整(SFT)よりも、より効果的な事前能力を維持している。
本稿では,Qwen2.5-3B-Instruct において,回路の微調整による劣化度を頭部レベルで測定し,Qwen2.5-3B-Instruct における RL と SFT を比較した。
我々は明確な機械的トレードオフを見いだす: SFTは目標タスクにより迅速に適応するが、回路の破壊と事前の能力の忘れを著しく大きくする一方、RLはより高速に適応する。
- 参考スコア(独自算出の注目度): 3.216107495564763
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large language models (LLMs) frequently induces catastrophic forgetting of prior capabilities. Recent work has shown that reinforcement learning (RL) retains prior capabilities more effectively than supervised fine-tuning (SFT), attributing this to policy-gradient updates remaining closer to the base policy \cite{shenfeld2025rl}. We extend this behavioral account to the mechanistic level and ask whether RL's advantage is mirrored by stronger preservation of internal computational circuits. We introduce differential circuit vulnerability, a head-level measure of how much a circuit degrades under fine-tuning, and use it to compare RL and SFT on Qwen2.5-3B-Instruct adapted to scientific question-answering. We find a clear mechanistic trade-off: SFT adapts more rapidly to the target task but produces substantially greater circuit disruption and forgetting of prior capabilities, whereas RL preserves a larger fraction of the base circuit at the cost of slower task adaptation. These findings suggest that circuit preservation may help explain why RL is more robust to catastrophic forgetting. We released our code here: https://github.com/rl-sft-circuit-research/differential-circuit-vulnerability.
- Abstract(参考訳): 微調整された大型言語モデル(LLM)は、しばしば以前の能力を壊滅的に忘れてしまう。
近年の研究では、強化学習(RL)は教師付き微調整(SFT)よりもより効果的に事前能力を維持しており、これは基本方針であるcite{shenfeld2025rl}に近い政策段階の更新に起因することが示されている。
我々は、この挙動を力学レベルまで拡張し、RLの利点が内部計算回路のより強い保存によって反映されるかどうかを問う。
本稿では,Qwen2.5-3B-Instruct において,回路の微調整による劣化度を頭部レベルで測定し,Qwen2.5-3B-Instruct における RL と SFT を比較した。
SFTは目標のタスクにより迅速に適応するが、回路の破壊や事前の能力の忘れを著しく大きくする一方、RLはタスク適応を遅くするコストでベース回路のより大きな部分を保持する。
これらの結果から, 回路の保存は, RLが破滅的忘れ込みに対してより堅牢である理由を説明するのに役立つ可能性が示唆された。
https://github.com/rl-sft-circuit-research/differential-circuit-vulnerability.com(リンク)。
関連論文リスト
- When Are RL Hyperparameters Benign? A Study in Offline Goal-Conditioned RL [9.430246534202857]
オフラインDeep Reinforcement Learning(RL)におけるハイパーパラメータ構成の変化に対するロバストさを観察する。
トレーニング中のハイパーパラメータ構成の変化に対する高い感度は、RLでは必然ではなく、ブートストラップのダイナミクスによって増幅される。
これらの結果は、トレーニング中のハイパーパラメータ構成の変化に対する高い感度は、RLでは必然ではなく、ブートストラップのダイナミクスによって増幅されることを示唆している。
論文 参考訳(メタデータ) (2026-02-05T09:08:17Z) - Just-In-Time Reinforcement Learning: Continual Learning in LLM Agents Without Gradient Updates [53.3717573880076]
JitRL(Just-In-Time Reinforcement Learning、ジャスト・イン・タイム強化学習)は、テスト時間ポリシーの最適化を可能にするトレーニング不要のフレームワークである。
JitRLは、経験の動的で非パラメトリックな記憶を維持し、関連する軌跡を取得して、オンザフライでのアクションの利点を推定する。
WebArenaとJerrichoの実験では、JitRLがトレーニング不要メソッドの間に新しい最先端技術を確立していることが示されている。
論文 参考訳(メタデータ) (2026-01-26T14:16:51Z) - From Supervision to Exploration: What Does Protein Language Model Learn During Reinforcement Learning? [76.288870982181]
タンパク質言語モデル(PLM)は、大規模事前学習と拡張性のあるアーキテクチャを通じて高度な計算タンパク質科学を持つ。
強化学習(RL)は探索を拡大し、タンパク質設計における正確な多目的最適化を可能にした。
RLはサンプリング効率を向上し,さらに重要な点として,教師あり学習で捉えない能力を明らかにするかどうかを問う。
論文 参考訳(メタデータ) (2025-10-02T01:31:10Z) - SPEC-RL: Accelerating On-Policy Reinforcement Learning via Speculative Rollouts [35.82325476805143]
SPEC-RLは、SPECulativeデコーディングとRLロールアウトプロセスを統合するフレームワークである。
政策品質を損なうことなく、ロールアウト時間を2~3倍に短縮する。
純粋にロールアウトステージの強化として、SPEC-RLはメインストリームのアルゴリズムとシームレスに統合される。
論文 参考訳(メタデータ) (2025-09-27T10:32:34Z) - The Choice of Divergence: A Neglected Key to Mitigating Diversity Collapse in Reinforcement Learning with Verifiable Reward [57.56453588632619]
Reinforcement Learning with Verifiable Reward (RLVR) を用いた細調整大型言語モデル(LLM)における中心的パラドックスは、多目的性能の頻繁な劣化である。
これはしばしば破滅的な忘れが伴い、モデルが以前獲得したスキルを失う。
我々は,標準RLVR目標には知識保持のための重要なメカニズムが欠如していると主張している。
論文 参考訳(メタデータ) (2025-09-09T06:34:32Z) - Token Buncher: Shielding LLMs from Harmful Reinforcement Learning Fine-Tuning [25.19587561988995]
強化学習により、敵はより効果的に安全アライメントを破り、高度な有害なタスク支援を促進することができる。
本稿では,RLをベースとした有害な微調整を対象とする最初の効果的な防御法であるTokenBuncherを提案する。
本稿では,TokenBuncherが有害なRL微調整を効果的に軽減し,良質なタスクユーティリティと微調整性を保っていることを示す。
論文 参考訳(メタデータ) (2025-08-28T12:07:11Z) - TooBadRL: Trigger Optimization to Boost Effectiveness of Backdoor Attacks on Deep Reinforcement Learning [38.79063331759597]
TooBadRLは、DRLバックドアトリガーを3つの臨界軸(時間、空間、大きさ)に沿って体系的に最適化するフレームワークである。
TooBadRLは,通常のタスク性能の低下を最小限に抑えつつ,攻撃成功率を大幅に向上することを示す。
論文 参考訳(メタデータ) (2025-06-11T09:50:17Z) - How Much Backtracking is Enough? Exploring the Interplay of SFT and RL in Enhancing LLM Reasoning [6.92510069380188]
8つの推論課題におけるSFTとRLのダイナミクスについて検討する。
ウォームアップとしてSFTで使用される短いCoT配列は、コールドスタートRLと比較してRLトレーニングに適度に寄与する。
バックトラックの長いCoTは、一般的にRLトレーニングをより良く安定したものにします。
論文 参考訳(メタデータ) (2025-05-30T06:49:00Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Cost Explosion for Efficient Reinforcement Learning Optimisation of
Quantum Circuits [55.616364225463066]
強化学習(Reinforcement Learning, RL)は、量子回路を最適化する学習手法である。
私たちのゴールは、量子回路を手動で最適化する方法のヒントを含めることで、エージェントの最適化戦略を改善することです。
本稿では, コスト爆発を許容することは, 最適回路に到達するなど, RL トレーニングにおいて大きな利点をもたらすことを示す。
論文 参考訳(メタデータ) (2023-11-21T10:16:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。