論文の概要: Provably Mitigating Corruption, Overoptimization, and Verbosity Simultaneously in Offline and Online RLHF/DPO Alignment
- arxiv url: http://arxiv.org/abs/2510.05526v1
- Date: Tue, 07 Oct 2025 02:32:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.069149
- Title: Provably Mitigating Corruption, Overoptimization, and Verbosity Simultaneously in Offline and Online RLHF/DPO Alignment
- Title(参考訳): オフライン・オンラインRLHF/DPOアライメントにおける破壊・過最適化・バーブシティの同時緩和
- Authors: Ziyi Chen, Junyi Li, Peiran Yu, Heng Huang,
- Abstract要約: 人間からのフィードバックからの強化学習(RLHF)と直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる重要な手法である。
しかし、RLHFとDPOトレーニングの品質は、textittextbfCorrupted preference, reward textittextbfOveroptimization, and bias towards textittextbfVerbosityによって著しく損なわれている。
我々はRLHF-textbfCOVアルゴリズムとDPO-textbfCOVアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 89.26250000307215
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO) are important techniques to align large language models (LLM) with human preference. However, the quality of RLHF and DPO training is seriously compromised by \textit{\textbf{C}orrupted} preference, reward \textit{\textbf{O}veroptimization}, and bias towards \textit{\textbf{V}erbosity}. To our knowledge, most existing works tackle only one of these important issues, and the few other works require much computation to estimate multiple reward models and lack theoretical guarantee of generalization ability. In this work, we propose RLHF-\textbf{COV} and DPO-\textbf{COV} algorithms that can simultaneously mitigate these three issues, in both offline and online settings. This ability is theoretically demonstrated by obtaining length-regularized generalization error rates for our DPO-COV algorithms trained on corrupted data, which match the best-known rates for simpler cases with clean data and without length regularization. Moreover, our DPO-COV algorithm is simple to implement without reward estimation, and is proved to be equivalent to our RLHF-COV algorithm, which directly implies the equivalence between the vanilla RLHF and DPO algorithms. Experiments demonstrate the effectiveness of our DPO-COV algorithms under both offline and online settings.
- Abstract(参考訳): 人間からのフィードバックからの強化学習(RLHF)と直接選好最適化(DPO)は、大規模言語モデル(LLM)を人間の選好と整合させる重要な手法である。
しかしながら、RLHF と DPO のトレーニングの品質は、 \textit{\textbf{C}orrupted} の好み、報酬 \textit{\textbf{O}veroptimization} 、および \textit{\textbf{V}erbosity} に対するバイアスによって著しく損なわれている。
我々の知る限り、既存の研究の多くはこれらの重要な問題の1つにのみ取り組み、他の数少ない研究は、複数の報酬モデルの推定に多くの計算を必要とし、一般化能力の理論的保証を欠いている。
本研究では,これら3つの問題をオフラインとオンラインの両方で同時に緩和できるRLHF-\textbf{COV}とDPO-\textbf{COV}アルゴリズムを提案する。
この能力を理論的に証明するために, 汚損データに基づいて訓練したDPO-COVアルゴリズムの時間規則化一般化誤差率を求める。
さらに,DPO-COVアルゴリズムは報酬推定なしで実装が簡単であり,バニラRLHFとDPOの等価性を直接的に示唆するRLHF-COVアルゴリズムと等価であることが証明された。
オフラインとオンラインの両方でDPO-COVアルゴリズムの有効性を示す実験を行った。
関連論文リスト
- Avoiding $\mathbf{exp(R_{max})}$ scaling in RLHF through Preference-based Exploration [24.159962127055085]
RLHF(Reinforcement Learning from Human Feedback)は,大規模言語モデル(LLM)アライメントのための重要な手法として登場した。
本稿では、オンラインRLHFの設定と、サンプル効率の向上に焦点をあてる。
論文 参考訳(メタデータ) (2025-02-02T04:40:04Z) - UNA: Unifying Alignments of RLHF/PPO, DPO and KTO by a Generalized Implicit Reward Function [14.7365465149829]
我々は、RLHF/PPO、DPO、KTOを統一するtextbfUNified textbfAlignment (UNA)を提案する。
この新たな報酬モデルと最適ポリシーのマッピングにより、UNAは1。
RLHF/PPOの性能は、RL微調整プロセスの単純化、安定化、高速化、メモリ負荷の低減を図りながら向上する。
論文 参考訳(メタデータ) (2024-08-27T18:04:07Z) - Reward Difference Optimization For Sample Reweighting In Offline RLHF [18.62836654699957]
現在のオフラインRLHFは、レスポンス間の"通常の関係"のみをキャプチャし、他よりもどのくらい好まれるかという決定的な側面を見渡します。
本稿では,リワード差分最適化(Reward Difference Optimization, RDO)と呼ばれるシンプルな解を提案する。
HHとTL;DRデータセット上の7B LLMを用いた実験は、自動測定と人的評価の両方において、本手法の有効性を裏付けるものである。
論文 参考訳(メタデータ) (2024-08-18T07:04:16Z) - SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - Value-Incentivized Preference Optimization: A Unified Approach to Online and Offline RLHF [80.32171988565999]
オンラインとオフラインのRLHFに統一的なアプローチを導入します。
VPOは、報酬関数の最大値推定を対応する値関数で正規化する。
テキスト要約とダイアログの実験は、VPOの実用性と有効性を検証する。
論文 参考訳(メタデータ) (2024-05-29T17:51:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。