論文の概要: Provably Robust DPO: Aligning Language Models with Noisy Feedback
- arxiv url: http://arxiv.org/abs/2403.00409v2
- Date: Fri, 12 Apr 2024 01:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 17:23:29.227105
- Title: Provably Robust DPO: Aligning Language Models with Noisy Feedback
- Title(参考訳): 多分ロバストなDPO:ノイズフィードバックを伴う言語モデルの調整
- Authors: Sayak Ray Chowdhury, Anush Kini, Nagarajan Natarajan,
- Abstract要約: ランダムな選好フリップが存在する場合に、ポリシー最適化のための一般的なフレームワークを導入する。
本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。
IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO と比較して好みラベルのノイズに対して頑健であることが示された。
- 参考スコア(独自算出の注目度): 10.523790076060171
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning from preference-based feedback has recently gained traction as a promising approach to align language models with human interests. While these aligned generative models have demonstrated impressive capabilities across various tasks, their dependence on high-quality human preference data poses a bottleneck in practical applications. Specifically, noisy (incorrect and ambiguous) preference pairs in the dataset might restrict the language models from capturing human intent accurately. While practitioners have recently proposed heuristics to mitigate the effect of noisy preferences, a complete theoretical understanding of their workings remain elusive. In this work, we aim to bridge this gap by by introducing a general framework for policy optimization in the presence of random preference flips. We focus on the direct preference optimization (DPO) algorithm in particular since it assumes that preferences adhere to the Bradley-Terry-Luce (BTL) model, raising concerns about the impact of noisy data on the learned policy. We design a novel loss function, which de-bias the effect of noise on average, making a policy trained by minimizing that loss robust to the noise. Under log-linear parameterization of the policy class and assuming good feature coverage of the SFT policy, we prove that the sub-optimality gap of the proposed robust DPO (rDPO) policy compared to the optimal policy is of the order $O(\frac{1}{1-2\epsilon}\sqrt{\frac{d}{n}})$, where $\epsilon < 1/2$ is flip rate of labels, $d$ is policy parameter dimension and $n$ is size of dataset. Our experiments on IMDb sentiment generation and Anthropic's helpful-harmless dataset show that rDPO is robust to noise in preference labels compared to vanilla DPO and other heuristics proposed by practitioners.
- Abstract(参考訳): 嗜好に基づくフィードバックから学ぶことは、言語モデルと人間の関心を結びつけるための有望なアプローチとして、最近注目を集めている。
これらの整列生成モデルは、様々なタスクにまたがる印象的な能力を示しているが、高品質な人間の嗜好データへの依存は、実用的な応用においてボトルネックとなる。
具体的には、データセット内のノイズ(不正で曖昧な)選好ペアは、言語モデルが人間の意図を正確にキャプチャすることを制限する可能性がある。
実践者は近年、雑音の好みの影響を緩和するヒューリスティックスを提案しているが、彼らの仕事に関する完全な理論的理解はいまだに解明されていない。
本研究では、ランダムな選好フリップの存在下でポリシー最適化のための一般的な枠組みを導入することにより、このギャップを埋めることを目的とする。
特に、Bradley-Terry-Luce (BTL) モデルに優先権が従うことを前提としたDPOアルゴリズムに注目し、ノイズの多いデータが学習ポリシーに与える影響に関する懸念を提起する。
本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。
政策クラスのログ線形パラメータ化と、SFTポリシーの優れた特徴カバレッジを仮定すると、提案されたロバストDPO(rDPO)ポリシーの最適ポリシーに対する準最適ギャップは、$O(\frac{1}{1-2\epsilon}\sqrt {\frac{d}{n}})$、$\epsilon < 1/2$はラベルのフリップレート、$d$はポリシーパラメータ寸法、$n$はデータセットのサイズである。
IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO や実践者が提案した他のヒューリスティックと比較して,選好ラベルのノイズに対して頑健であることが示された。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Fine-Tuning Language Models with Reward Learning on Policy [68.70065254564642]
人間からのフィードバックからの強化学習(RLHF)は、大きな言語モデル(LLM)を人間の好みに合わせる効果的なアプローチとして現れている。
その人気にもかかわらず、(固定された)報酬モデルが不正確な流通に悩まされることがある。
本稿では、政策サンプルを用いて報酬モデルを洗練し、流通を継続する、教師なしのフレームワークであるポリシーに関する報酬学習(RLP)を提案する。
論文 参考訳(メタデータ) (2024-03-28T10:02:10Z) - Provably Sample Efficient RLHF via Active Preference Optimization [30.339377972710157]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデル(LLM)と人間の嗜好の整合において重要である。
ランダムにプロンプトを選択して選好データを収集する方法は、報酬の準最適差が$Omega(1)$の政策につながることを示す。
本稿では,小修正を施した$textttAPO$の計算効率のよいバッチバージョンを提案し,実際に性能評価を行う。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Towards Efficient and Exact Optimization of Language Model Alignment [97.41422112912574]
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
我々は,EXOがRLアルゴリズムと同じ方向に最適化されることを証明した。
さらに、現実的な人間の嗜好データに対する既存のアプローチよりも、提案手法の利点を実証する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z) - Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。
MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文 参考訳(メタデータ) (2023-12-27T06:34:54Z) - Policy Optimization in RLHF: The Impact of Out-of-preference Data [17.126977660436225]
本稿では、DPO(Direct Preference Optimization)とReward-Model-Based Policy Optimization(RMB-PO)の2つの一般的なアライメント手法について検討する。
RMB-PO+とも呼ばれるRMB-POの変種も検討されている。
特に、DPOと比較して、RMB-POはポリシー生成データを使用し、RMB-PO+は新たな好みのないデータを活用する。
論文 参考訳(メタデータ) (2023-12-17T02:14:15Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z) - Fine-Tuning Language Models with Advantage-Induced Policy Alignment [80.96507425217472]
大規模言語モデルと人間の嗜好を整合させる新しいアルゴリズムを提案する。
言語タスクにおいてPPOを常に上回り、大きなマージンを持つことを示す。
また,損失関数の設計を支援する理論的正当性も提供する。
論文 参考訳(メタデータ) (2023-06-04T01:59:40Z) - Policy learning "without'' overlap: Pessimism and generalized empirical
Bernstein's inequality [107.84979976896912]
オフライン政策学習は、収集された優先順位を利用して、最適な個別化決定ルールを学ぶことを目的としている。
既存のポリシー学習手法は、一様重なりの仮定、すなわち、すべての個々の特性に対する全てのアクションを探索する確率は、オフラインデータセットにおいて低い境界となる。
本稿では,政策値の点推定ではなく,低信頼境界(LCB)を最適化するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-12-19T22:43:08Z) - Provably Efficient Exploration in Policy Optimization [117.09887790160406]
本稿では,最適化アルゴリズム(OPPO)の最適変種を提案する。
OPPO は $tildeO(sqrtd2 H3 T )$ regret を達成する。
我々の知る限りでは、OPPOは、探索する最初の証明可能な効率的なポリシー最適化アルゴリズムである。
論文 参考訳(メタデータ) (2019-12-12T08:40:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。