論文の概要: Robust Policy Optimization to Prevent Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2602.08813v1
- Date: Mon, 09 Feb 2026 15:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.33458
- Title: Robust Policy Optimization to Prevent Catastrophic Forgetting
- Title(参考訳): 破砕防止のためのロバスト政策最適化
- Authors: Mahdi Sabbaghi, George Pappas, Adel Javanmard, Hamed Hassani,
- Abstract要約: 大規模言語モデルは、多段階のポストトレーニングを通じて一般的に訓練される。
小さなダウンストリーム更新は、学習済みの振る舞いを損なう可能性がある。
このことは、標準RLHFの目標は将来の適応に対する堅牢性を保証するものではないことを示唆している。
- 参考スコア(独自算出の注目度): 29.514746370429965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are commonly trained through multi-stage post-training: first via RLHF, then fine-tuned for other downstream objectives. Yet even small downstream updates can compromise earlier learned behaviors (e.g., safety), exposing a brittleness known as catastrophic forgetting. This suggests standard RLHF objectives do not guarantee robustness to future adaptation. To address it, most prior work designs downstream-time methods to preserve previously learned behaviors. We argue that preventing this requires pre-finetuning robustness: the base policy should avoid brittle high-reward solutions whose reward drops sharply under standard fine-tuning. We propose Fine-tuning Robust Policy Optimization (FRPO), a robust RLHF framework that optimizes reward not only at the current policy, but across a KL-bounded neighborhood of policies reachable by downstream adaptation. The key idea is to ensure reward stability under policy shifts via a max-min formulation. By modifying GRPO, we develop an algorithm with no extra computation, and empirically show it substantially reduces safety degradation across multiple base models and downstream fine-tuning regimes (SFT and RL) while preserving downstream task performance. We further study a math-focused RL setting, demonstrating that FRPO preserves accuracy under subsequent fine-tuning.
- Abstract(参考訳): 大規模言語モデルは、まずRLHFを経由し、次に他の下流の目的のために微調整される。
しかし、下流の小さなアップデートでさえ、初期の学習行動(例えば安全性)を損なう恐れがあり、破滅的な忘れ事として知られる脆さが露呈する。
このことは、標準RLHFの目標は将来の適応に対する堅牢性を保証するものではないことを示唆している。
これに対処するため、ほとんどの先行作業は、以前に学んだ動作を保存するために、ダウンストリームタイムのメソッドを設計する。
基本方針は、標準的な微調整の下で報酬が急落する不安定なハイリワードソリューションを避けるべきである。
我々は,現在の政策だけでなく,下流適応により到達可能なKLバウンドポリシの領域にわたって,報酬を最適化する堅牢なRLHFフレームワークである細調整ロバストポリシー最適化(FRPO)を提案する。
鍵となる考え方は、最大限の定式化を通じて政策シフトの下で報酬の安定性を確保することである。
GRPOを改良することにより、余分な計算を伴わないアルゴリズムを開発し、下流タスク性能を維持しながら、複数のベースモデルと下流ファインチューニングレジーム(SFT、RL)間での安全性低下を著しく低減することを示す。
さらに,数学に焦点をあてたRL設定について検討し,FRPOがその後の微調整下で精度を保つことを示した。
関連論文リスト
- Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for Reinforcement Learning from Human Feedback (RLHF) [0.0]
LM-RLHF設定のためのポリシーアクター批判RL法を新たに開発した。
本稿では,新たな多層安定化フレームワークであるSAFE(Stable Alignment Finetuning with Entropy-aware Control)を提案する。
論文 参考訳(メタデータ) (2026-02-04T15:26:44Z) - A Step Back: Prefix Importance Ratio Stabilizes Policy Optimization [58.116300485427764]
強化学習のポストトレーニングは、大きな言語モデルにおける推論の振る舞いを引き出すことができる。
トークンレベルの補正は、オフポリシーネスの度合いが大きい場合、不安定なトレーニングダイナミクスにつながることが多い。
我々は,最小固定率 (MinPRO) を簡易かつ効果的に提案する。
論文 参考訳(メタデータ) (2026-01-30T08:47:19Z) - Coverage Improvement and Fast Convergence of On-policy Preference Learning [67.36750525893514]
言語モデルアライメントのためのオンラインのオンラインプライオリティ学習アルゴリズムは、オフラインのアルゴリズムよりも大幅に優れている。
我々は,サンプリング政策の包括的範囲が政治訓練を通じてどのように進展するかを分析する。
一般機能クラス設定における報奨蒸留のための原則的オンライン方式を開発した。
論文 参考訳(メタデータ) (2026-01-13T10:46:06Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - A Principled Loss Function for Direct Language Model Alignment [0.0]
本稿では,RLHF最適条件から直接導出した新しい損失関数を提案する。
提案した損失は,その差ではなく,基礎となる報酬によって規定される,ロジットの特定の有限値を対象としている。
この固有の安定性は、報酬のハッキングを防ぎ、より効果的なアライメントをもたらす。
論文 参考訳(メタデータ) (2025-08-10T01:56:58Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。