論文の概要: A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement
- arxiv url: http://arxiv.org/abs/2410.13828v1
- Date: Thu, 17 Oct 2024 17:52:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-18 13:22:32.829375
- Title: A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement
- Title(参考訳): Marginに基づく言語モデルアライメントの共通の落とし穴:グラディエンタングルメント
- Authors: Hui Yuan, Yifan Zeng, Yue Wu, Huazheng Wang, Mengdi Wang, Liu Leqi,
- Abstract要約: Reinforcement Learning from Human Feedback (RLHF) は言語モデルのアライメントにおいて主要なアプローチとなっている。
本稿では,マージンに基づく手法の共通の落とし穴を同定する。
我々はこれらの問題行動の背景にある理由を軽視する。
- 参考スコア(独自算出の注目度): 47.95776810771774
- License:
- Abstract: Reinforcement Learning from Human Feedback (RLHF) has become the predominant approach for language model (LM) alignment. At its core, RLHF uses a margin-based loss for preference optimization, specifying ideal LM behavior only by the difference between preferred and dispreferred responses. In this paper, we identify a common pitfall of margin-based methods -- the under-specification of ideal LM behavior on preferred and dispreferred responses individually, which leads to two unintended consequences as the margin increases: (1) The probability of dispreferred (e.g., unsafe) responses may increase, resulting in potential safety alignment failures. (2) The probability of preferred responses may decrease, even when those responses are ideal. We demystify the reasons behind these problematic behaviors: margin-based losses couple the change in the preferred probability to the gradient of the dispreferred one, and vice versa, often preventing the preferred probability from increasing while the dispreferred one decreases, and thus causing a synchronized increase or decrease in both probabilities. We term this effect, inherent in margin-based objectives, gradient entanglement. Formally, we derive conditions for general margin-based alignment objectives under which gradient entanglement becomes concerning: the inner product of the gradients of preferred and dispreferred log-probabilities is large relative to the individual gradient norms. We theoretically investigate why such inner products can be large when aligning language models and empirically validate our findings. Empirical implications of our framework extend to explaining important differences in the training dynamics of various preference optimization algorithms, and suggesting potential algorithm designs to mitigate the under-specification issue of margin-based methods and thereby improving language model alignment.
- Abstract(参考訳): Reinforcement Learning from Human Feedback (RLHF) は言語モデル(LM)アライメントの主要なアプローチとなっている。
中心となるRLHFは、好ましくない応答と好ましくない応答の差によってのみ理想的なLMの振る舞いを規定し、優先最適化にマージンベースの損失を用いる。
本稿では,(1)非推奨(例えば,安全でない)応答の確率が増加し,安全性が低下する可能性のある2つの意図しない結果をもたらす,好ましくない応答に対する理想的LM行動の過小評価を個別に行うことによる,マージンベースの手法の共通の落とし穴を同定する。
2) 理想的な応答であっても, 優先応答の確率は低下する可能性がある。
利得に基づく損失は、好ましくない傾向の勾配に対する好ましくない確率の変化と、好ましくない傾向が減少する一方、好ましくは好ましくない確率の増加を防ぎ、両方の確率を同期的に増加または減少させる。
我々はこの効果を、利幅に基づく目的、勾配絡みに固有のものと定義する。
形式的には、勾配の絡み合いが関係する一般的なマージンベースのアライメント目的の条件を導出する: 好ましく非推奨な対数確率の勾配の内積は、個々の勾配ノルムに対して大きい。
言語モデルを調整する際に,なぜそのような内積が大きくなるのかを理論的に検討し,その結果を実証的に検証する。
このフレームワークの実証的な意味は、様々な選好最適化アルゴリズムのトレーニング力学における重要な違いを説明し、マージンベースの手法の未定義問題を緩和し、言語モデルアライメントを改善するための潜在的なアルゴリズム設計を提案することである。
関連論文リスト
- Understanding Likelihood Over-optimisation in Direct Alignment Algorithms [20.043560907227018]
ダイレクトアライメントアルゴリズム(DAA)は、ヒューマンフィードバックによるオンライン強化学習の代替として登場した。
これらのアルゴリズムは、より良い(好ましくない)完了を生成する可能性を高めつつ、悪い(好ましくない)完了を阻止することを目的としている。
本研究は,最先端DAAにおける完成可能性とモデル性能の関係について検討する。
論文 参考訳(メタデータ) (2024-10-15T15:14:22Z) - Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization [60.176008034221404]
直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
論文 参考訳(メタデータ) (2024-10-11T14:22:44Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - On the Algorithmic Bias of Aligning Large Language Models with RLHF: Preference Collapse and Matching Regularization [33.331389392270665]
選好マッチング(PM) RLHF はBradley-Terry--Luce/Plackett--Luce モデルの下で、大きな言語モデルと報酬モデルの選好分布を整合させる新しいアプローチである。
我々のアプローチの中心はPM正則化器であり、応答上の LLM のポリシー確率分布の負の対数の形を取る。
本稿では,自然言語生成に適した条件付きPM RLHFを提案する。
論文 参考訳(メタデータ) (2024-05-26T07:00:05Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Controllable Preference Optimization: Toward Controllable Multi-Objective Alignment [103.12563033438715]
人工知能におけるアライメントは、モデル応答と人間の好みと値の一貫性を追求する。
既存のアライメント技術は、主に一方向であり、様々な目的に対して、最適以下のトレードオフと柔軟性の低下につながる。
制御可能な選好最適化(CPO)を導入し、異なる目的に対する選好スコアを明確に指定する。
論文 参考訳(メタデータ) (2024-02-29T12:12:30Z) - Smoothing the Edges: Smooth Optimization for Sparse Regularization using Hadamard Overparametrization [10.009748368458409]
本稿では、(構造化された)空間性に対して、明示的に正規化された目的を円滑に最適化するためのフレームワークを提案する。
提案手法は,完全微分可能近似自由最適化を実現し,深層学習におけるユビキタス勾配降下パラダイムと互換性がある。
論文 参考訳(メタデータ) (2023-07-07T13:06:12Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。