論文の概要: Preference Learning Algorithms Do Not Learn Preference Rankings
- arxiv url: http://arxiv.org/abs/2405.19534v2
- Date: Tue, 3 Sep 2024 19:37:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-07 02:44:29.122937
- Title: Preference Learning Algorithms Do Not Learn Preference Rankings
- Title(参考訳): 選好学習アルゴリズムは選好ランキングを学習しない
- Authors: Angelica Chen, Sadhika Malladi, Lily H. Zhang, Xinyi Chen, Qiuyi Zhang, Rajesh Ranganath, Kyunghyun Cho,
- Abstract要約: 選好調整モデルの多くは、共通の選好データセット上で60%未満のランキング精度を実現する。
我々は、この矛盾をDPOの目的に当てはめ、これは経験的にも理論的にも、微妙なランキングエラーの修正に不適当である。
- 参考スコア(独自算出の注目度): 62.335733662381884
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preference learning algorithms (e.g., RLHF and DPO) are frequently used to steer LLMs to produce generations that are more preferred by humans, but our understanding of their inner workings is still limited. In this work, we study the conventional wisdom that preference learning trains models to assign higher likelihoods to more preferred outputs than less preferred outputs, measured via $\textit{ranking accuracy}$. Surprisingly, we find that most state-of-the-art preference-tuned models achieve a ranking accuracy of less than 60% on common preference datasets. We furthermore derive the $\textit{idealized ranking accuracy}$ that a preference-tuned LLM would achieve if it optimized the DPO or RLHF objective perfectly. We demonstrate that existing models exhibit a significant $\textit{alignment gap}$ -- $\textit{i.e.}$, a gap between the observed and idealized ranking accuracies. We attribute this discrepancy to the DPO objective, which is empirically and theoretically ill-suited to fix even mild ranking errors in the reference model, and derive a simple and efficient formula for quantifying the difficulty of learning a given preference datapoint. Finally, we demonstrate that ranking accuracy strongly correlates with the empirically popular win rate metric when the model is close to the reference model used in the objective, shedding further light on the differences between on-policy (e.g., RLHF) and off-policy (e.g., DPO) preference learning algorithms.
- Abstract(参考訳): 優先学習アルゴリズム(例えば、RLHFやDPO)は、LLMを操り、人間に好まれる世代を生成するために頻繁に使われていますが、その内部動作に対する私たちの理解は限定的です。
そこで本研究では,選好学習モデルを用いて,好ましくない出力よりも好ましくない出力により高い確率を割り当てる従来の知恵を,$\textit{ ranking accuracy}$で測定した。
驚いたことに、ほとんどの最先端の選好調整モデルでは、一般的な選好データセットでは60%未満のランキング精度が得られる。
さらに、DPO や RLHF の目的を完璧に最適化すれば、優先順位調整 LLM が達成できるという $\textit{idealized ranking accuracy}$ を導出する。
我々は既存のモデルが有意な$\textit{alignment gap}$ -- $\textit{i.e.}$を示すことを示した。
提案手法は,参照モデルにおける微妙なランク付け誤りの修正に経験的かつ理論的に不適なDPO目的に起因し,与えられた選好データポイントの学習の難しさを定量化するための単純かつ効率的な公式を導出する。
最後に、評価精度は、モデルが目的の基準モデルに近い場合に、経験的に人気の高い利率指標と強く相関し、オン・ポリティ(例えば、RLHF)とオフ・ポリティ(例えば、DPO)の選好学習アルゴリズムの違いにさらに光を当てることを示した。
関連論文リスト
- BiasDPO: Mitigating Bias in Language Models through Direct Preference Optimization [0.0]
大規模言語モデル(LLM)は、自然言語処理の進歩において重要な役割を担っているが、バイアスの持続可能性には重大な懸念がある。
本稿では、英語テキストにおけるジェンダー、人種、宗教的偏見を緩和するために、DPO(Direct Preference Optimization)を用いた新しい枠組みを提案する。
バイアスのある完了よりもバイアスの少ない損失関数を開発することで、我々のアプローチは敬意と非差別的な言語を好む。
論文 参考訳(メタデータ) (2024-07-18T22:32:20Z) - Unpacking DPO and PPO: Disentangling Best Practices for Learning from Preference Feedback [110.16220825629749]
嗜好フィードバックからの学習は、現代言語モデルの生成品質と性能を改善するための重要なステップとして現れてきた。
本研究では、嗜好データ、学習アルゴリズム、報酬モデル、政策訓練プロンプトという、嗜好に基づく学習の4つの側面を特定する。
以上の結果から,すべての側面がパフォーマンス上重要であることが示唆された。
論文 参考訳(メタデータ) (2024-06-13T16:17:21Z) - Aligning Large Language Models via Fine-grained Supervision [20.35000061196631]
事前訓練された大規模言語モデル(LLM)は、一貫性のある記事を生成するのに優れていますが、そのアウトプットは非現実的、有毒、あるいはユーザの期待に沿わないかもしれません。
現在のアプローチは、モデルアライメントを改善するために、人間のフィードバックによる強化学習を使うことに重点を置いている。
トークンレベルの微粒化によるLCMアライメント向上手法を提案する。
論文 参考訳(メタデータ) (2024-06-04T20:21:45Z) - Preference Alignment with Flow Matching [23.042382086241364]
優先フローマッチング(PFM)は、好みに基づく強化学習(PbRL)のための新しいフレームワークである
事前訓練されたモデルの任意のクラスへの好みの統合を合理化する。
提案手法の標準PbRL目標との整合性を支持する理論的知見を提供する。
論文 参考訳(メタデータ) (2024-05-30T08:16:22Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [90.4820014819937]
本稿では,分布域外領域を積極的に探索するために,潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観的手法を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整すると,SELMは命令追従ベンチマークの性能を大幅に向上することがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Preference Fine-Tuning of LLMs Should Leverage Suboptimal, On-Policy Data [102.16105233826917]
好みラベルからの学習は、微調整された大きな言語モデルにおいて重要な役割を果たす。
好みの微調整には、教師付き学習、オンライン強化学習(RL)、コントラスト学習など、いくつかの異なるアプローチがある。
論文 参考訳(メタデータ) (2024-04-22T17:20:18Z) - Dissecting Human and LLM Preferences [80.55271307662365]
人間は誤りに敏感ではなく、自分の姿勢を支持する反応を好んでおり、モデルが限界を認めている場合、明確な嫌悪を示します。
GPT-4-Turboのような先進的なLCMは、より正確さ、明快さ、無害さを強調している。
嗜好に基づく評価は意図的に操作可能であることを示す。
論文 参考訳(メタデータ) (2024-02-17T14:34:31Z) - Active Preference Learning for Large Language Models [12.093302163058436]
我々は、好みラベルをよりよく活用するために、DPOのアクティブな学習戦略を開発する。
本稿では,言語モデルの予測エントロピーに基づく,プロンプト/コンプリートペアの実用的な獲得関数を提案する。
提案手法は,ペアの選好データに基づく微調整の学習率と最終性能の両方を改善する方法を示す。
論文 参考訳(メタデータ) (2024-02-12T23:09:00Z) - Learning Fair Ranking Policies via Differentiable Optimization of
Ordered Weighted Averages [55.04219793298687]
本稿では,学習からランクへの学習ループに,効率よく解ける公正ランキングモデルを組み込む方法について述べる。
特に,本論文は,OWA目標の制約された最適化を通じてバックプロパゲーションを行う方法を示す最初のものである。
論文 参考訳(メタデータ) (2024-02-07T20:53:53Z) - Is One Epoch All You Need For Multi-Fidelity Hyperparameter
Optimization? [17.21160278797221]
MF-HPO(Multi-fidelity HPO)は、学習過程における中間精度レベルを活用し、早期に低性能モデルを捨てる。
様々な代表的MF-HPO法を,古典的ベンチマークデータに基づく単純なベースラインと比較した。
このベースラインは、計算量を大幅に減らしながら、同等の結果を得た。
論文 参考訳(メタデータ) (2023-07-28T09:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。