論文の概要: Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?
- arxiv url: http://arxiv.org/abs/2505.23749v1
- Date: Thu, 29 May 2025 17:59:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-30 18:14:08.078858
- Title: Distortion of AI Alignment: Does Preference Optimization Optimize for Preferences?
- Title(参考訳): AIアライメントの歪み: 優先最適化は優先に最適か?
- Authors: Paul Gölz, Nika Haghtalab, Kunhe Yang,
- Abstract要約: 事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。
本稿では,最適達成可能な平均効用量と学習ポリシーの平均効用量との最悪のケース比について,アライメント手法の歪みを紹介する。
- 参考スコア(独自算出の注目度): 20.004349891563706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After pre-training, large language models are aligned with human preferences based on pairwise comparisons. State-of-the-art alignment methods (such as PPO-based RLHF and DPO) are built on the assumption of aligning with a single preference model, despite being deployed in settings where users have diverse preferences. As a result, it is not even clear that these alignment methods produce models that satisfy users on average -- a minimal requirement for pluralistic alignment. Drawing on social choice theory and modeling users' comparisons through individual Bradley-Terry (BT) models, we introduce an alignment method's distortion: the worst-case ratio between the optimal achievable average utility, and the average utility of the learned policy. The notion of distortion helps draw sharp distinctions between alignment methods: Nash Learning from Human Feedback achieves the minimax optimal distortion of $(\frac{1}{2} + o(1)) \cdot \beta$ (for the BT temperature $\beta$), robustly across utility distributions, distributions of comparison pairs, and permissible KL divergences from the reference policy. RLHF and DPO, by contrast, suffer $\geq (1 - o(1)) \cdot \beta$ distortion already without a KL constraint, and $e^{\Omega(\beta)}$ or even unbounded distortion in the full setting, depending on how comparison pairs are sampled.
- Abstract(参考訳): 事前学習後、大きな言語モデルはペア比較に基づいて人間の好みに適合する。
最先端のアライメント手法(PPOベースのRLHFやDPOなど)は、ユーザがさまざまな好みを持つ設定にデプロイされているにもかかわらず、単一の嗜好モデルと整合するという前提に基づいて構築されている。
結果として、これらのアライメント手法が平均してユーザを満たすモデルを生成するかどうかは、明らかになっていない。
個人のBradley-Terry(BT)モデルを用いて、社会的選択理論とユーザの比較をモデル化し、最適達成可能な平均効用と学習ポリシーの平均効用との最悪のケース比であるアライメント手法の歪みを導入する。
Nash Learning from Human Feedback は $(\frac{1}{2} + o(1)) \cdot \beta$ (BT temperature $\beta$) の最小限の歪みを達成し、ユーティリティ分布、比較ペアの分布、参照ポリシーからの許容可能なKL発散を堅牢に行う。
対照的に、RLHF と DPO は KL 制約なしで既に$\geq (1 - o(1)) \cdot \beta$ 歪みを被り、e^{\Omega(\beta)}$ あるいはフルセットでの非有界歪みも、比較ペアのサンプリング方法によって異なる。
関連論文リスト
- On Monotonicity in AI Alignment [10.244128221542228]
本稿では、一般比較に基づく選好学習フレームワークにおける(非)単調性の根本原因について検討する。
穏やかな仮定の下では、そのような方法が局所対単調性(英語版)と呼ばれるものを満たすことが証明される。
また,モノトニティの形式化の花束を提供し,その保証に十分な条件を特定し,学習モデルがモノトニティ違反にどのように影響するかを評価するためのツールボックスを提供する。
論文 参考訳(メタデータ) (2025-06-10T17:17:48Z) - Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。
選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。
RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文 参考訳(メタデータ) (2025-05-28T09:44:27Z) - KL Penalty Control via Perturbation for Direct Preference Optimization [53.67494512877768]
我々は、KLのペナルティ強度を各選好ペアに対して適応的に制御できる$varepsilon$-Direct Preference Optimization (varepsilon$-DPO)を提案する。
KLペナルティ緩和のための$varepsilon$-DPOの簡単な基準は、既存の直接アライメントアルゴリズムと比較して、DPOを大幅に改善することを示す。
論文 参考訳(メタデータ) (2025-02-18T06:44:10Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [92.90660301195396]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - SWEPO: Simultaneous Weighted Preference Optimization for Group Contrastive Alignment [16.230186347702737]
我々はSWEPO(Sultaneous Weighted Preference Optimization)を提案する。
SWEPOはクエリ毎に複数のレスポンスを導入し、平均的な報酬から最も逸脱したレスポンスを優先順位付けする。
このような多重参照サンプリングはアライメントバイアスを低くし、真の許容応答分布から期待される偏差を$mathcalO(tfrac1sqrtk)$とすることを示した。
論文 参考訳(メタデータ) (2024-12-05T21:50:22Z) - SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Comparing Bad Apples to Good Oranges: Aligning Large Language Models via Joint Preference Optimization [105.3612692153615]
命令応答対に対して協調的に好みを抽出する新しい軸を提案する。
命令と応答ペアを併用することで、大きな言語モデルのアライメントを大幅に向上させることができる。
論文 参考訳(メタデータ) (2024-03-31T02:05:40Z) - Provably Robust DPO: Aligning Language Models with Noisy Feedback [10.523790076060171]
ランダムな選好フリップが存在する場合に、ポリシー最適化のための一般的なフレームワークを導入する。
本研究では,ノイズが平均値に与える影響を非バイアス化する新しい損失関数を設計し,その損失を騒音に頑健に抑えることで訓練を行う。
IMDb 感情生成と Anthropic's useful-harmless データセットを用いた実験により,rDPO はバニラ DPO と比較して好みラベルのノイズに対して頑健であることが示された。
論文 参考訳(メタデータ) (2024-03-01T09:55:18Z) - Active Preference Optimization for Sample Efficient RLHF [27.772423917657626]
RLHF(Reinforcement Learning from Human Feedback)は、大規模言語モデルと人間の嗜好の整合において重要である。
現在の方法は、プロンプトジェネレーションのデータセットからプロンプトジェネレーションペアを均一に選択することに依存している。
我々は、好みデータをクエリすることでモデルアライメントを向上させるアクティブな学習アルゴリズムである$textttAPO$を開発した。
論文 参考訳(メタデータ) (2024-02-16T08:19:34Z) - Theoretical guarantees on the best-of-n alignment policy [110.21094183592358]
我々は、KLの最良のn$ポリシーと参照ポリシーのKL分岐が、実際のKL分岐の上限であることを示す。
また、KLの発散に対する新しい推定器を提案し、それが密近似をもたらすことを実証的に示す。
我々は、利益率とKLの最良のn$アライメントポリシーの相違点を分析することで締めくくった。
論文 参考訳(メタデータ) (2024-01-03T18:39:13Z) - Lossy Compression with Distortion Constrained Optimization [14.45964083146559]
Rezende と Viola の制約付き最適化手法は,$beta$-VAE よりも損失のある圧縮モデルのトレーニングに適していることを示す。
本手法は実写画像圧縮タスクの制約を満たすことができ、ヒンジロスに基づく制約付き最適化手法よりも優れており、$beta$-VAEよりも実用的であることを示す。
論文 参考訳(メタデータ) (2020-05-08T14:27:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。