論文の概要: Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2410.08847v1
- Date: Mon, 14 Oct 2024 02:22:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:35:51.529474
- Title: Unintentional Unalignment: Likelihood Displacement in Direct Preference Optimization
- Title(参考訳): 非意図的不整合:直接選好最適化における相違
- Authors: Noam Razin, Sadhika Malladi, Adithya Bhaskar, Danqi Chen, Sanjeev Arora, Boris Hanin,
- Abstract要約: 直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合にますます利用されている。
以前の研究では、トレーニング中に好まれる反応の可能性が減少する傾向が見られた。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
- 参考スコア(独自算出の注目度): 60.176008034221404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) and its variants are increasingly used for aligning language models with human preferences. Although these methods are designed to teach a model to generate preferred responses more frequently relative to dispreferred responses, prior work has observed that the likelihood of preferred responses often decreases during training. The current work sheds light on the causes and implications of this counter-intuitive phenomenon, which we term likelihood displacement. We demonstrate that likelihood displacement can be catastrophic, shifting probability mass from preferred responses to responses with an opposite meaning. As a simple example, training a model to prefer $\texttt{No}$ over $\texttt{Never}$ can sharply increase the probability of $\texttt{Yes}$. Moreover, when aligning the model to refuse unsafe prompts, we show that such displacement can unintentionally lead to unalignment, by shifting probability mass from preferred refusal responses to harmful responses (e.g., reducing the refusal rate of Llama-3-8B-Instruct from 74.4% to 33.4%). We theoretically characterize that likelihood displacement is driven by preferences that induce similar embeddings, as measured by a centered hidden embedding similarity (CHES) score. Empirically, the CHES score enables identifying which training samples contribute most to likelihood displacement in a given dataset. Filtering out these samples effectively mitigated unintentional unalignment in our experiments. More broadly, our results highlight the importance of curating data with sufficiently distinct preferences, for which we believe the CHES score may prove valuable.
- Abstract(参考訳): 直接選好最適化(DPO)とその変種は、言語モデルと人間の選好の整合化にますます利用されている。
これらの方法は、好ましくない反応に対してより頻繁に好ましくない反応を生成するためのモデルを教えるために設計されているが、以前の研究では、好ましくない反応が訓練中に減少する可能性がしばしばある。
現在の研究は、この反直観的現象の原因と含意について光を当てている。
確率変位は破滅的になりうることを示し、確率質量を好ましくない反応から反対の意味の反応へとシフトさせる。
単純な例として、モデルに$\texttt{No}$ over $\texttt{Never}$を推奨するようにトレーニングすると、$\texttt{Yes}$の確率が急上昇する。
さらに、モデルが安全でないプロンプトを拒否するように調整すると、そのような変位が意図しない不整合を招きうることを示す(例えば、Llama-3-8B-インストラクトの拒絶率を74.4%から33.4%に下げる)。
確率変位は、中央埋込類似度(CHES)スコアによって測定されるように、類似の埋込を誘導する嗜好によって引き起こされると理論的に特徴づける。
経験的に、CHESスコアは、与えられたデータセットにおいて、どのトレーニングサンプルが最も寄与するかを識別することを可能にする。
これらのサンプルのフィルタリングは、我々の実験で意図しない不一致を効果的に軽減した。
より広範に、我々の結果は十分に異なる選好でデータをキュレートすることの重要性を強調しており、これはCHESスコアが有益であると信じている。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - A Common Pitfall of Margin-based Language Model Alignment: Gradient Entanglement [47.95776810771774]
Reinforcement Learning from Human Feedback (RLHF) は言語モデルのアライメントにおいて主要なアプローチとなっている。
本稿では,マージンに基づく手法の共通の落とし穴を同定する。
我々はこれらの問題行動の背景にある理由を軽視する。
論文 参考訳(メタデータ) (2024-10-17T17:52:01Z) - Robust Preference Optimization through Reward Model Distillation [68.65844394615702]
言語モデル (LM) は、好みのアノテーションから派生した報酬関数を最大化する。
DPOは、報酬モデルや強化学習を適用することなく、優先データに直接ポリシーを訓練する一般的なオフラインアライメント手法である。
この現象を解析し, 生成対よりも真の嗜好分布のより良いプロキシを得るため, 蒸留を提案する。
論文 参考訳(メタデータ) (2024-05-29T17:39:48Z) - Rejection via Learning Density Ratios [50.91522897152437]
拒絶による分類は、モデルを予測しないことを許容する学習パラダイムとして現れます。
そこで我々は,事前学習したモデルの性能を最大化する理想的なデータ分布を求める。
私たちのフレームワークは、クリーンでノイズの多いデータセットで実証的にテストされます。
論文 参考訳(メタデータ) (2024-05-29T01:32:17Z) - Contextual Linear Optimization with Bandit Feedback [35.692428244561626]
文脈線形最適化(CLO)は、ランダムコスト係数の不確実性を低減するために予測的文脈特徴を用いる。
我々は,帯域幅フィードバックを用いたCLOのためのオフライン学習アルゴリズムのクラスについて検討する。
IERMに対する高速な後悔境界を示し、不特定モデルクラスと最適化推定の柔軟な選択を可能にする。
論文 参考訳(メタデータ) (2024-05-26T13:27:27Z) - Calibrated Selective Classification [34.08454890436067]
そこで我々は,「不確か」な不確実性のある例を拒否する手法を提案する。
本稿では,選択的校正モデル学習のためのフレームワークを提案する。そこでは,任意のベースモデルの選択的校正誤差を改善するために,個別のセレクタネットワークを訓練する。
われわれは,複数画像分類と肺癌リスク評価におけるアプローチの実証的効果を実証した。
論文 参考訳(メタデータ) (2022-08-25T13:31:09Z) - Selective Regression Under Fairness Criteria [30.672082160544996]
少数派集団のパフォーマンスは、カバー範囲を減らしながら低下する場合もある。
満足度基準を満たす特徴を構築できれば、そのような望ましくない行動は避けられることを示す。
論文 参考訳(メタデータ) (2021-10-28T19:05:12Z) - Probabilistic and Variational Recommendation Denoising [56.879165033014026]
暗黙のフィードバックから学ぶことは、推奨システムの適用において最も一般的なケースの1つである。
本稿では,暗黙のフィードバックに対する確率的・変動的推薦を提案する。
提案したDPIとDVAEを4つの最先端レコメンデーションモデルに適用し、3つのデータセットで実験を行う。
論文 参考訳(メタデータ) (2021-05-20T08:59:44Z) - Deconfounding Scores: Feature Representations for Causal Effect
Estimation with Weak Overlap [140.98628848491146]
推定対象の偏りを伴わずに高い重なりを生じさせる,デコンファウンディングスコアを導入する。
分離スコアは観測データで識別可能なゼロ共分散条件を満たすことを示す。
特に,この手法が標準正規化の魅力的な代替となることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:50:11Z) - Sampler Design for Implicit Feedback Data by Noisy-label Robust Learning [32.76804332450971]
暗黙的なフィードバックデータに対する雑音ラベルの頑健な学習に基づく適応型サンプリング器を設計する。
モデルを用いてユーザの好みを予測し、観測されたデータラベルの可能性を最大化して学習する。
次に、これらのノイズラベルのリスクを検討し、ノイズラベルのRobust BPOを提案する。
論文 参考訳(メタデータ) (2020-06-28T05:31:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。