論文の概要: More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment
- arxiv url: http://arxiv.org/abs/2504.02193v1
- Date: Thu, 03 Apr 2025 00:36:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-04 12:56:52.550615
- Title: More is Less: The Pitfalls of Multi-Model Synthetic Preference Data in DPO Safety Alignment
- Title(参考訳): DPO安全アライメントにおけるマルチモデル合成選好データの落とし穴
- Authors: Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Deng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong,
- Abstract要約: 直接選好最適化(DPO)は、人間のフィードバックによる強化学習の、シンプルで効果的な代替手段として登場した。
我々の研究は、DPOアライメントに関連する、目覚ましい、安全性に特有な現象を明らかにした。
選択されたペアと拒否されたペアに対してのみ自己生成されたレスポンスを使用することで、より強力なモデルからのレスポンスを含む構成を大幅に上回る。
- 参考スコア(独自算出の注目度): 80.04449725137177
- License:
- Abstract: Aligning large language models (LLMs) with human values is an increasingly critical step in post-training. Direct Preference Optimization (DPO) has emerged as a simple, yet effective alternative to reinforcement learning from human feedback (RLHF). Synthetic preference data with its low cost and high quality enable effective alignment through single- or multi-model generated preference data. Our study reveals a striking, safety-specific phenomenon associated with DPO alignment: Although multi-model generated data enhances performance on general tasks (ARC, Hellaswag, MMLU, TruthfulQA, Winogrande) by providing diverse responses, it also tends to facilitate reward hacking during training. This can lead to a high attack success rate (ASR) when models encounter jailbreaking prompts. The issue is particularly pronounced when employing stronger models like GPT-4o or larger models in the same family to generate chosen responses paired with target model self-generated rejected responses, resulting in dramatically poorer safety outcomes. Furthermore, with respect to safety, using solely self-generated responses (single-model generation) for both chosen and rejected pairs significantly outperforms configurations that incorporate responses from stronger models, whether used directly as chosen data or as part of a multi-model response pool. We demonstrate that multi-model preference data exhibits high linear separability between chosen and rejected responses, which allows models to exploit superficial cues rather than internalizing robust safety constraints. Our experiments, conducted on models from the Llama, Mistral, and Qwen families, consistently validate these findings.
- Abstract(参考訳): 大規模言語モデル(LLM)と人的価値の調整は、ポストトレーニングにおけるますます重要なステップである。
直接選好最適化(DPO)は、人間からのフィードバック(RLHF)からの強化学習に代わる、シンプルで効果的な代替手段として登場した。
低コストで高品質な合成選好データにより、単モデルまたは多モデル生成選好データによる効果的なアライメントが可能となる。
マルチモデル生成データにより,多種多様な応答を提供することで,一般タスク(ARC, Hellaswag, MMLU, TruthfulQA, Winogrande)のパフォーマンスが向上する一方で,トレーニング中の報酬ハッキングを促進する傾向にある。
これは、モデルがジェイルブレイクのプロンプトに遭遇した場合、高い攻撃成功率(ASR)につながる可能性がある。
この問題は、GPT-4oのようなより強力なモデルや、同じファミリーのより大きなモデルを使用して、ターゲットモデルが自己削除された拒否された応答と組み合わせて選択された応答を生成する場合、特に顕著で、結果として安全性は劇的に低下する。
さらに、安全性に関しては、選択されたペアと拒否されたペアの両方に対してのみ自己生成応答(単一モデル生成)を使用することで、選択されたデータとして直接使用されるか、あるいはマルチモデル応答プールの一部として使用されるかにかかわらず、より強力なモデルからの応答を含む構成を著しく上回っている。
複数モデルの選好データは、選択された応答と拒否された応答の間に高い線形分離性を示し、モデルが堅牢な安全性制約を内部化するのではなく、表面的なキューを活用できることを実証する。
実験はLlama, Mistral, Qwenファミリーのモデルを用いて行った。
関連論文リスト
- Few-shot Steerable Alignment: Adapting Rewards and LLM Policies with Neural Processes [50.544186914115045]
大きな言語モデル(LLM)は、日々のアプリケーションにますます組み込まれています。
個人ユーザの多様な嗜好との整合性を確保することは、重要な課題となっている。
数発のステアライメントのための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-12-18T16:14:59Z) - Progressively Label Enhancement for Large Language Model Alignment [42.01694160556464]
大きな言語モデル(LLM)のアライメントは、モデルが人間の期待に反するコンテンツを生成するのを防ぐことを目的としている。
生成したデータの進化的品質に基づいてモデルのトレーニングプロセスを動的に調整するフレームワークであるPLEを提案する。
論文 参考訳(メタデータ) (2024-08-05T16:21:17Z) - Self-Exploring Language Models: Active Preference Elicitation for Online Alignment [88.56809269990625]
本研究では, 分布域外領域を積極的に探索するために, 潜在的に高次応答に対して楽観的に偏りを呈する2段階的客観性を提案する。
実験の結果,Zephyr-7B-SFTとLlama-3-8B-Instructモデルで微調整した場合,SELM(Self-Exploring Language Models)は命令追従ベンチマークの性能を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2024-05-29T17:59:07Z) - Online Self-Preferring Language Models [34.22412851864247]
オンライン自己選好(OSP)言語モデルは、自己生成の応答ペアと自己判断の選好強度から学習する。
OSPは、広く使われている2つの人間の嗜好データセットにおいて、さまざまなメトリクスをまたいだ最先端のアライメント性能を達成する。
論文 参考訳(メタデータ) (2024-05-23T02:13:34Z) - West-of-N: Synthetic Preferences for Self-Improving Reward Models [20.643537269666137]
合成選好データを生成することによって報酬モデルの品質を向上させる新しい手法を提案する。
提案手法は,同量の人選好データの追加に匹敵する効果で,報酬モデルの性能向上を図っている。
論文 参考訳(メタデータ) (2024-01-22T16:24:43Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z) - On the Efficacy of Adversarial Data Collection for Question Answering:
Results from a Large-Scale Randomized Study [65.17429512679695]
逆データ収集(ADC)では、人間の労働力がモデルとリアルタイムで対話し、誤った予測を誘発する例を作成しようとする。
ADCの直感的な魅力にも拘わらず、敵対的データセットのトレーニングがより堅牢なモデルを生成するかどうかは不明だ。
論文 参考訳(メタデータ) (2021-06-02T00:48:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。