論文の概要: Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization
- arxiv url: http://arxiv.org/abs/2507.07725v1
- Date: Thu, 10 Jul 2025 12:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.405105
- Title: Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization
- Title(参考訳): すべての選好がポストトレーニングに必要なものではない: 選好最適化のための選好アライメント戦略
- Authors: Zhijin Dong,
- Abstract要約: 大規模言語モデル(LLM)のトレーニング後のアライメントは、すべてのトークンがモデルのパフォーマンスに等しく寄与するわけではないため、重要な課題である。
本稿では,プライオリティペア内の高インパクトトークンを優先するアライメント戦略を提案する。
これらの情報的トークンに焦点をあてることで,計算オーバーヘッドを低減し,アライメントの忠実度を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training alignment of large language models (LLMs) is a critical challenge, as not all tokens contribute equally to model performance. This paper introduces a selective alignment strategy that prioritizes high-impact tokens within preference pairs, leveraging token-level log-probability differences between the current policy and a reference model. By focusing on these informative tokens, our approach reduces computational overhead and enhances alignment fidelity. We further explore the role of reference model quality, demonstrating that stronger reference models significantly improve token selection accuracy and overall optimization effectiveness. Comprehensive experiments on benchmarks such as Arena-Hard and MT-Bench validate the superiority of our Selective-DPO method over standard DPO and distillation-based baselines. Our findings highlight the importance of token-level optimization and reference model selection in advancing preference alignment for LLMs. The code is available at https://github.com/Dongzhijin/SDPO.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニング後のアライメントは、すべてのトークンがモデルのパフォーマンスに等しく寄与するわけではないため、重要な課題である。
本稿では,現行のポリシーと参照モデルとのトークンレベルの対数確率差を利用して,プライオリティペア内の高インパクトトークンを優先する選択的アライメント戦略を提案する。
これらの情報的トークンに焦点をあてることで,計算オーバーヘッドを低減し,アライメントの忠実度を高める。
さらに、より強力な参照モデルによりトークン選択精度が向上し、全体的な最適化効率が向上することを示す。
Arena-Hard や MT-Bench のようなベンチマークに関する総合的な実験は、標準 DPO および蒸留ベースラインよりも選択 DPO 法の方が優れていることを検証している。
本研究は, LLMの優先度調整におけるトークンレベルの最適化と参照モデル選択の重要性を強調した。
コードはhttps://github.com/Dongzhijin/SDPO.comで公開されている。
関連論文リスト
- IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [70.2753541780788]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。
IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文 参考訳(メタデータ) (2025-06-16T08:28:19Z) - ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization [48.50761200321113]
大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。
補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-10T11:54:22Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。