論文の概要: On the Role of Preference Variance in Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.13022v1
- Date: Tue, 14 Oct 2025 22:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.436438
- Title: On the Role of Preference Variance in Preference Optimization
- Title(参考訳): 選好最適化における選好変数の役割について
- Authors: Jiacheng Guo, Zihao Li, Jiahao Qiu, Yue Wu, Mengdi Wang,
- Abstract要約: 直接選好最適化(DPO)トレーニングの有効性に対する選好分散(PVar)の影響について検討する。
PVarより高いプロンプトは、ランダムに選択されたプロンプトまたは低いPVarより優れたプロンプトを示す。
- 参考スコア(独自算出の注目度): 55.364953481473286
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) has emerged as an important approach for learning from human preferences in aligning large language models (LLMs). However, collecting human preference data is costly and inefficient, motivating methods to reduce the required annotations. In this work, we investigate the impact of \emph{preference variance} (PVar), which measures the variance in model preferences when comparing pairs of responses, on the effectiveness of DPO training. We provide a theoretical insight by establishing an upper bound on the DPO gradient norm for any given prompt, showing it is controlled by the PVar of that prompt. This implies that prompts with low PVar can only produce small gradient updates, making them less valuable for learning. We validate this finding by fine-tuning LLMs with preferences generated by a reward model, evaluating on two benchmarks (AlpacaEval 2.0 and Arena-Hard). Experimental results demonstrate that prompts with higher PVar outperform randomly selected prompts or those with lower PVar. We also show that our PVar-based selection method is robust, when using smaller reward models (1B, 3B) for selection. Notably, in a separate experiment using the original human annotations from the UltraFeedback dataset, we found that training on only the top 10\% of prompts with the highest PVar yields better evaluation performance than training on the full dataset, highlighting the importance of preference variance in identifying informative examples for efficient LLM alignment.
- Abstract(参考訳): 直接選好最適化(DPO)は、大規模言語モデル(LLM)の整列において、人間の選好から学ぶための重要なアプローチとして登場した。
しかし、人選好データの収集は費用がかかり非効率であり、必要なアノテーションを減らすための動機付け方法である。
そこで本研究では,DPO学習の有効性に及ぼすモデル選好のばらつきを測定する<emph{preference variance} (PVar) の影響について検討する。
任意のプロンプトに対してDPO勾配ノルムの上界を定め、そのプロンプトのPVarによって制御されることを示す理論的な洞察を与える。
これは、PVarの低いプロンプトは小さな勾配更新しか生成できず、学習にはあまり価値がないことを意味している。
報奨モデルによる選好を微調整して評価し,アルパカエバル2.0とアレナ・ハードの2つのベンチマークで評価した。
実験の結果,PVar が高いプロンプトはランダムに選択されたプロンプトやPVar の低いプロンプトよりも優れていた。
また, PVar を用いた選択法は, より小さな報酬モデル (1B, 3B) を用いて選択を行う場合, 頑健であることを示す。
特に,UltraFeedbackデータセットからのオリジナルヒューマンアノテーションを用いた別の実験では,PVarが最も高いプロンプトの上位10倍のトレーニングで,フルデータセットのトレーニングよりも優れた評価性能が得られることがわかった。
関連論文リスト
- Token-Importance Guided Direct Preference Optimization [2.230951739798399]
本研究では,大規模言語モデルが人間の嗜好に沿った出力を生成することを保証するため,TI-DPO(Token-Importance Guided Direct Preference Optimization)を提案する。
実験の結果,TI-DPOは高い精度とより強力な生成多様性を達成し,より安定かつ計算効率の良い解を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:11:24Z) - Calibrated Multi-Preference Optimization for Aligning Diffusion Models [90.15024547673785]
Calibrated Preference Optimization (CaPO) は、テキスト・ツー・イメージ(T2I)拡散モデルを調整する新しい手法である。
CaPOは、人間の注釈のない複数の報酬モデルからの一般的な好みを取り入れている。
実験結果から, CaPOは従来法よりも常に優れていたことが示唆された。
論文 参考訳(メタデータ) (2025-02-04T18:59:23Z) - Cal-DPO: Calibrated Direct Preference Optimization for Language Model Alignment [19.02679077706812]
大規模言語モデルと人間の嗜好データとの整合性について検討する。
我々は、単純で効果的なアルゴリズムである直接選好最適化(Cal-DPO)を提案する。
各種標準ベンチマーク実験の結果,Cal-DPOは市販の手法を著しく改善することが示された。
論文 参考訳(メタデータ) (2024-12-19T04:31:56Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Spread Preference Annotation: Direct Preference Judgment for Efficient LLM Alignment [72.99676237703099]
大規模言語モデルと人間の嗜好の整合性を高める新しいフレームワークを提案する。
私たちのキーとなるアイデアは、小さな(種)データの中で人間の事前知識を活用することです。
本稿では,ノイズ認識型選好学習アルゴリズムを導入し,生成した選好データにおける品質低下のリスクを軽減する。
論文 参考訳(メタデータ) (2024-06-06T18:01:02Z) - Relative Preference Optimization: Enhancing LLM Alignment through Contrasting Responses across Identical and Diverse Prompts [95.09994361995389]
Relative Preference Optimization (RPO) は、同一のプロンプトと関連するプロンプトの両方から、より多く、あまり好まれない応答を識別するように設計されている。
RPOは、大きな言語モデルをユーザの好みに合わせて調整し、トレーニングプロセスにおける適応性を改善する優れた能力を示している。
論文 参考訳(メタデータ) (2024-02-12T22:47:57Z) - Adversarial Preference Optimization: Enhancing Your Alignment via RM-LLM Game [31.66896160733569]
そこで本稿では,より効率的な人選好最適化を目的としたAPO(Adversarial Preference Optimization)フレームワークを提案する。
提案手法は,LLMの有効性と無害性の観点から,既存のアライメントベースラインをさらに強化する。
論文 参考訳(メタデータ) (2023-11-14T10:10:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。