論文の概要: Explaining and Preventing Alignment Collapse in Iterative RLHF
- arxiv url: http://arxiv.org/abs/2605.04266v1
- Date: Tue, 05 May 2026 20:01:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-07 18:41:07.52982
- Title: Explaining and Preventing Alignment Collapse in Iterative RLHF
- Title(参考訳): 反復RLHFにおけるアライメント崩壊の説明と防止
- Authors: Etienne Gauthier, Francis Bach, Michael I. Jordan,
- Abstract要約: 人間のフィードバックからの強化学習(RLHF)は通常、静的または非戦略的報酬モデル(RM)を前提とする。
しかし、反復的なデプロイメントでは、ポリシーはRMが再トレーニングされたデータを生成し、フィードバックループを生成します。
このステアリング項を完全に省略する標準反復RLHFは、アライメント崩壊に苦しむことを示す。
- 参考スコア(独自算出の注目度): 46.298122008420414
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement learning from human feedback (RLHF) typically assumes a static or non-strategic reward model (RM). In iterative deployment, however, the policy generates the data on which the RM is retrained, creating a feedback loop. Building on the Stackelberg game formulation of this interaction, we derive an analytical decomposition of the policy's true optimization gradient into a standard policy gradient and a parameter-steering term that captures the policy's influence on the RM's future parameters. We show that standard iterative RLHF, which drops this steering term entirely, suffers from alignment collapse: the policy systematically exploits the RM's blind spots, producing low-quality, high-reward outputs whose feedback reinforces the very errors it exploits. To mitigate this, we propose foresighted policy optimization (FPO), a mechanism-design intervention that restores the missing steering term by regularizing the policy's parameter-steering effect on RM updates. We instantiate FPO via a scalable first-order approximation and demonstrate that it prevents alignment collapse on both controlled environments and an LLM alignment pipeline using Llama-3.2-1B.
- Abstract(参考訳): 人間のフィードバック(RLHF)からの強化学習は、通常、静的または非ストラテジック報酬モデル(RM)を仮定する。
しかし、反復的なデプロイメントでは、ポリシーはRMが再トレーニングされたデータを生成し、フィードバックループを生成します。
この相互作用のStackelbergゲーム定式化に基づいて、ポリシーの真の最適化勾配を標準方針勾配とパラメータステアリング項に解析的に分解し、RMの将来パラメータに対するポリシーの影響を捉える。
このポリシーは、RMの盲点を体系的に活用し、フィードバックがそれらが悪用するエラーを補強する低品質で高利回りな出力を生成する。
これを軽減するために, RM更新におけるポリシーのパラメータ・ステアリング効果を規則化し, 欠落したステアリング項を復元する機構設計介入であるフォレスト・ポリシー・オプティマイズ(FPO)を提案する。
スケーラブルな1次近似を用いてFPOをインスタンス化し、Llama-3.2-1Bを用いた両制御環境とLLMアライメントパイプラインのアライメント崩壊を防止する。
関連論文リスト
- SiMPO: Measure Matching for Online Diffusion Reinforcement Learning [52.46919717963149]
一般単調関数を持つ拡散RLにおける再重み付けスキームを一般化する,シンプルで統一的なフレームワークであるSiMPOを紹介する。
SiMPOは2段階の測度マッチングレンズを介して拡散RLを再考する。
我々は、負の再重み付けが準最適行動から政策を積極的に反映していることを示す幾何学的解釈を提供する。
論文 参考訳(メタデータ) (2026-03-10T22:01:13Z) - Bayesian Conservative Policy Optimization (BCPO): A Novel Uncertainty-Calibrated Offline Reinforcement Learning with Credible Lower Bounds [1.2183405753834562]
オフライン強化学習(RL)は、ログ化された遷移の固定バッチから決定ポリシーを学ぶことを目的としている。
本稿では,不確実性を即興的に保守的な政策改善に変換する統一的な枠組みであるEmphBayesian conservative Policy Optimization (BCPO)を提案する。
BCPOは環境/価値モデルよりも階層的なベイズ的後縁を維持し、アクション値に基づいてエンフレッシブルな下界(LCB)を構築し、明示的なKL正規化の下でポリシー更新を行う。
論文 参考訳(メタデータ) (2026-03-06T01:46:02Z) - ReFORM: Reflected Flows for On-support Offline RL via Noise Manipulation [20.162114513881118]
オフライン強化学習(RL)は、環境の相互作用を伴わずに行動ポリシーによって生成された固定データセットから最適なポリシーを学ぶことを目的としている。
構築による制約の少ないサポート制約を強制するフローポリシーに基づくオフラインRL手法であるReFORMを提案する。
論文 参考訳(メタデータ) (2026-02-04T21:03:11Z) - SAFE: Stable Alignment Finetuning with Entropy-Aware Predictive Control for Reinforcement Learning from Human Feedback (RLHF) [0.0]
LM-RLHF設定のためのポリシーアクター批判RL法を新たに開発した。
本稿では,新たな多層安定化フレームワークであるSAFE(Stable Alignment Finetuning with Entropy-aware Control)を提案する。
論文 参考訳(メタデータ) (2026-02-04T15:26:44Z) - Entropy Ratio Clipping as a Soft Global Constraint for Stable Reinforcement Learning [49.92803982100042]
我々は,現在の政策と過去の政策のエントロピー比を新たなグローバル指標として用いることを提案する。
エントロピー比に双方向の制約を課すtextbfEntropy Ratio (ERC) 機構を導入する。
これは、グローバルな分布レベルでの政策更新を安定化させ、未サンプリングアクションの確率シフトを規制するPPOクリップの不能を補償する。
論文 参考訳(メタデータ) (2025-12-05T10:26:32Z) - GRPO-Guard: Mitigating Implicit Over-Optimization in Flow Matching via Regulated Clipping [63.33669214116784]
GRPO-Guardは、既存のGRPOフレームワークのシンプルで効果的な拡張である。
PPOクリッピングが有害な更新を適切に制限することを保証するため、バランスとステップ一貫性の重要度を回復する。
重いKL正則化に頼ることなく、暗黙の過最適化を実質的に緩和する。
論文 参考訳(メタデータ) (2025-10-25T14:51:17Z) - Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。
本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Learn Your Reference Model for Real Good Alignment [3.091688550418396]
大規模言語モデル(LLM)アライメントのためのオフラインメソッドは、過度な最適化の影響を受けやすい。
我々は、トレーニングプロセスを通して参照ポリシーを動的に更新する、Trust Regionと呼ばれるオフラインアライメント手法の新たなパラダイムを提案する。
この結果から,TRアライメント手法は過度な最適化を効果的に軽減し,初期基準ポリシからかなり逸脱したモデルでも高い性能を維持することができることがわかった。
論文 参考訳(メタデータ) (2024-04-15T10:44:31Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。