論文の概要: Failure Modes of Maximum Entropy RLHF
- arxiv url: http://arxiv.org/abs/2509.20265v1
- Date: Wed, 24 Sep 2025 15:52:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-25 20:53:19.889396
- Title: Failure Modes of Maximum Entropy RLHF
- Title(参考訳): 最大エントロピーRLHFの故障モード
- Authors: Ömer Veysel Çağatan, Barış Akgün,
- Abstract要約: 我々は,SimPOを最大エントロピー強化学習として長さ正規化温度で導出可能であることを示す。
オンラインRLHF設定において,最大エントロピーRLが同様の結果が得られるかどうかを検討する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we show that Simple Preference Optimization (SimPO) can be derived as Maximum Entropy Reinforcement Learning with length-normalized temperature, providing a theoretical foundation for this reference-free method. Motivated by SimPO's strong performance in offline preference optimization, we investigate whether Maximum Entropy RL can achieve similar results in online RLHF settings. Our experiments find that Maximum Entropy RL consistently exhibits overoptimization and unstable KL dynamics, even at very low learning rates. Unlike KL-constrained methods that maintain stable training, entropy regularization fails to prevent reward hacking and appears to correlate with overoptimization. Lastly, we discuss possible explanations for why SimPO succeeds in offline settings while Maximum Entropy RL struggles in online scenarios. Our findings suggest that reference-free approaches may face distinct challenges when applied to online or offline preference learning.
- Abstract(参考訳): 本稿では,SimPOを長さ正規化温度で最大エントロピー強化学習(Maximum Entropy Reinforcement Learning)として導出できることを示す。
オフライン選好最適化におけるSimPOの強い性能により、オンラインRLHF設定において、最大エントロピーRLが同様の結果が得られるかどうかを検討する。
実験の結果,最大エントロピーRLは極低学習率でも過度に最適化され不安定なKLダイナミクスを示すことがわかった。
安定したトレーニングを維持するKL制約の手法とは異なり、エントロピー正規化は報酬のハッキングを防ぐことができず、過度な最適化と相関しているように見える。
最後に,オンラインシナリオにおいて最大エントロピーRLが苦戦する中で,SimPOがオフライン環境で成功した理由を説明する。
本研究は,オンラインやオフラインの嗜好学習に適用した場合,参照なしのアプローチは,異なる課題に直面する可能性があることを示唆する。
関連論文リスト
- DIME:Diffusion-Based Maximum Entropy Reinforcement Learning [38.17326719163195]
拡散に基づく最大エントロピーRL(DIME)
emphDIMEは拡散モデルによる近似推論の最近の進歩を活用し、最大エントロピー目標の下位境界を導出する。
提案手法は,MaxEnt-RLの原理的探索利益を維持しつつ,表現的拡散に基づくポリシの利用を可能にする。
論文 参考訳(メタデータ) (2025-02-04T13:37:14Z) - Maximum Entropy On-Policy Actor-Critic via Entropy Advantage Estimation [0.276240219662896]
エントロピー正則化の顕著な形態は、目的をエントロピー項で増大させ、それによって期待されるリターンとエントロピーを同時に最適化することである。
最大エントロピー強化学習(MaxEnt RL)として知られるこのフレームワークは、理論的および実証的な成功を示している。
本稿では,MaxEnt RL目標からエントロピー目的を分離する簡単な手法を提案する。
論文 参考訳(メタデータ) (2024-07-25T15:48:24Z) - Preference Elicitation for Offline Reinforcement Learning [59.136381500967744]
オフラインの嗜好に基づく強化学習アルゴリズムであるSim-OPRLを提案する。
本アルゴリズムは,配当外データに対する悲観的アプローチと,最適方針に関する情報的嗜好を得るための楽観的アプローチを用いる。
論文 参考訳(メタデータ) (2024-06-26T15:59:13Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。