論文の概要: Unifying Stable Optimization and Reference Regularization in RLHF
- arxiv url: http://arxiv.org/abs/2602.11523v1
- Date: Thu, 12 Feb 2026 03:31:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.62074
- Title: Unifying Stable Optimization and Reference Regularization in RLHF
- Title(参考訳): RLHFにおける安定度最適化と基準正規化
- Authors: Li He, Qiang Qu, He Zhao, Stephen Wan, Dadong Wang, Lina Yao, Tongliang Liu,
- Abstract要約: 本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
- 参考スコア(独自算出の注目度): 64.16830602324345
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has advanced alignment capabilities significantly but remains hindered by two core challenges: \textbf{reward hacking} and \textbf{stable optimization}. Current solutions independently address these issues through separate regularization strategies, specifically a KL-divergence penalty against a supervised fine-tuned model ($π_0$) to mitigate reward hacking, and policy ratio clipping towards the current policy ($π_t$) to promote stable alignment. However, the implicit trade-off arising from simultaneously regularizing towards both $π_0$ and $π_t$ remains under-explored. In this paper, we introduce a unified regularization approach that explicitly balances the objectives of preventing reward hacking and maintaining stable policy updates. Our simple yet principled alignment objective yields a weighted supervised fine-tuning loss with a superior trade-off, which demonstrably improves both alignment results and implementation complexity. Extensive experiments across diverse benchmarks validate that our method consistently outperforms RLHF and online preference learning methods, achieving enhanced alignment performance and stability.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は高度なアライメント機能を持つが、2つのコア課題である \textbf{reward Hacking} と \textbf{stable optimization} によって妨げられている。
現在のソリューションは、個別の正規化戦略、特に報酬のハッキングを緩和するために監督された微調整モデル(π_0$)に対するKL分割のペナルティ、そして安定なアライメントを促進するために現在のポリシー(π_t$)に対する政策比率(π_t$)によって、これらの問題を個別に解決している。
しかし、$π_0$ と $π_t$ の両方に同時に正規化することで生じる暗黙のトレードオフは、未探索のままである。
本稿では、報酬のハッキングを防ぎ、安定的なポリシー更新を維持するという目的を明確にバランスさせる統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
RLHF法とオンライン選好学習法を総合的に比較し,アライメント性能と安定性の向上を図った。
関連論文リスト
- Ratio-Variance Regularized Policy Optimization for Efficient LLM Fine-tuning [48.34492357368989]
本稿では,安定なオン・ポリティクス学習をサポートし,オフ・ポリティクスデータの再利用を原則とするプリミティブ・デュアル・フレームワークを提案する。
R2VPO$は、強いクリッピングベースのベースラインよりも17%の平均的な相対的なゲインで優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2026-01-06T14:01:42Z) - The Realignment Problem: When Right becomes Wrong in LLMs [6.8304813545377]
大規模な言語モデルと人間の価値の整合性は、安全なデプロイメントの中心であるが、現在のモデルは、進化する規範やポリシーに追随しない。
既存の未学習の手法は、正確なポリシー更新を有効にするのではなく、実用性を損なう鈍い手段として機能する。
本稿では,プログラミング政策問題として再認識する原則的アンラーニングの枠組みであるTRACEを紹介する。
論文 参考訳(メタデータ) (2025-11-04T14:52:58Z) - BAPO: Stabilizing Off-Policy Reinforcement Learning for LLMs via Balanced Policy Optimization with Adaptive Clipping [69.74252624161652]
適応クリッピング(BAPO)を用いたBAlanced Policy Optimizationを提案する。
BAPOはクリッピングバウンダリを動的に調整し、適応的に正と負のコントリビューションを再バランスさせ、エントロピーを保持し、RL最適化を安定化させる。
AIME 2024とAIME 2025ベンチマークでは、7B BAPOモデルがSkyWork-OR1-7Bのようなオープンソースモデルを上回っています。
論文 参考訳(メタデータ) (2025-10-21T12:55:04Z) - Simplify RLHF as Reward-Weighted SFT: A Variational Method [34.222095430239555]
RLHF(Reinforcement Learning from Human Feedback)は、Large Language Models(LLM)と人的価値の整合に不可欠である。
変分推論の観点からRLHFの単純化を提案する。
我々は、アライメント目標を報酬駆動型微調整形式に変換し、トレーニングの安定性と効果を顕著に向上させる。
論文 参考訳(メタデータ) (2025-02-16T07:22:00Z) - Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。