論文の概要: Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?
- arxiv url: http://arxiv.org/abs/2505.23749v1
- Date: Thu, 29 May 2025 17:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.078858
- Title: Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?
- Title(参考訳): AIアライメントの歪み: 優先最適化は優先に最適か?
- Authors: Paul Gölz, Nika Haghtalab, Kunhe Yang,
- Abstract要約: 事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。
本稿では,最適達成可能な平均効用量と学習ポリシーの平均効用量との最悪のケース比について,アライメント手法の歪みを紹介する。
- 参考スコア(独自算出の注目度): 20.004349891563706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After pre-training, large language models are aligned with human preferences based on pairwise comparisons. State-of-the-art alignment methods (such as PPO-based RLHF and DPO) are built on the assumption of aligning with a single preference model, despite being deployed in settings where users have diverse preferences. As a result, it is not even clear that these alignment methods produce models that satisfy users on average -- a minimal requirement for pluralistic alignment. Drawing on social choice theory and modeling users' comparisons through individual Bradley-Terry (BT) models, we introduce an alignment method's distortion: the worst-case ratio between the optimal achievable average utility, and the average utility of the learned policy. The notion of distortion helps draw sharp distinctions between alignment methods: Nash Learning from Human Feedback achieves the minimax optimal distortion of $(\frac{1}{2} + o(1)) \cdot \beta$ (for the BT temperature $\beta$), robustly across utility distributions, distributions of comparison pairs, and permissible KL divergences from the reference policy. RLHF and DPO, by contrast, suffer $\geq (1 - o(1)) \cdot \beta$ distortion already without a KL constraint, and $e^{\Omega(\beta)}$ or even unbounded distortion in the full setting, depending on how comparison pairs are sampled.
- Abstract(参考訳): 事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。
最先端のアライメント手法(PPOベースのRLHFやDPOなど)は、ユーザがさまざまな好みを持つ設定にデプロイされているにもかかわらず、単一の嗜好モデルと整合するという前提に基づいて構築されている。
結果として、これらのアライメント手法が平均してユーザを満たすモデルを生成するかどうかは、明らかになっていない。
個人のBradley-Terry(BT)モデルを用いて、社会的選択理論とユーザの比較をモデル化し、最適達成可能な平均効用と学習ポリシーの平均効用との最悪のケース比であるアライメント手法の歪みを導入する。
Nash Learning from Human Feedback は $(\frac{1}{2} + o(1)) \cdot \beta$ (BT temperature $\beta$) の最小限の歪みを達成し、ユーティリティ分布、比較ペアの分布、参照ポリシーからの許容可能なKL発散を堅牢に行う。
対照的に、RLHF と DPO は KL 制約なしで既に$\geq (1 - o(1)) \cdot \beta$ 歪みを被り、e^{\Omega(\beta)}$ あるいはフルセットでの非有界歪みも、比較ペアのサンプリング方法によって異なる。
関連論文リスト
- KL Penalty Control via Perturbation for Direct Preference Optimization [53.67494512877768]
我々は、KLのペナルティ強度を各選好ペアに対して適応的に制御できる$varepsilon$-Direct Preference Optimization (varepsilon$-DPO)を提案する。
KLペナルティ緩和のための$varepsilon$-DPOの簡単な基準は、既存の直接アライメントアルゴリズムと比較して、DPOを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-02-18T06:44:10Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment [16.230186347702737]
我々はSWEPO(Sultaneous Weighted Preference Optimization)を提案する。
SWEPOはクエリ毎に複数のレスポンスを導入し、平均的な報酬から最も逸脱したレスポンスを優先順位付けする。
このような多重参照サンプリングはアライメントバイアスを低くし、真の許容応答分布から期待される偏差を$mathcalO(tfrac1sqrtk)$とすることを示した。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。
現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。
我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
また、KLの発散に対する新しい推定器を提案し、それが密近似をもたらすことを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Lossy Compression with Distortion Constrained Optimization [14.45964083146559]
Rezende と Viola の制約付き最適化手法は,$beta$-VAE よりも損失のある圧縮モデルのトレーニングに適していることを示す。
本手法は実写画像圧縮タスクの制約を満たすことができ、ヒンジロスに基づく制約付き最適化手法よりも優れており、$beta$-VAEよりも実用的であることを示す。
論文 参考訳(メタデータ) (2020-05-08T14:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。