論文の概要: Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization
- arxiv url: http://arxiv.org/abs/2507.07725v1
- Date: Thu, 10 Jul 2025 12:58:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-11 16:40:15.405105
- Title: Not All Preferences are What You Need for Post-Training: Selective Alignment Strategy for Preference Optimization
- Title(参考訳): すべての選好がポストトレーニングに必要なものではない: 選好最適化のための選好アライメント戦略
- Authors: Zhijin Dong,
- Abstract要約: 大規模言語モデル(LLM)のトレーニング後のアライメントは、すべてのトークンがモデルのパフォーマンスに等しく寄与するわけではないため、重要な課題である。
本稿では,プライオリティペア内の高インパクトトークンを優先するアライメント戦略を提案する。
これらの情報的トークンに焦点をあてることで,計算オーバーヘッドを低減し,アライメントの忠実度を高める。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training alignment of large language models (LLMs) is a critical challenge, as not all tokens contribute equally to model performance. This paper introduces a selective alignment strategy that prioritizes high-impact tokens within preference pairs, leveraging token-level log-probability differences between the current policy and a reference model. By focusing on these informative tokens, our approach reduces computational overhead and enhances alignment fidelity. We further explore the role of reference model quality, demonstrating that stronger reference models significantly improve token selection accuracy and overall optimization effectiveness. Comprehensive experiments on benchmarks such as Arena-Hard and MT-Bench validate the superiority of our Selective-DPO method over standard DPO and distillation-based baselines. Our findings highlight the importance of token-level optimization and reference model selection in advancing preference alignment for LLMs. The code is available at https://github.com/Dongzhijin/SDPO.
- Abstract(参考訳): 大規模言語モデル(LLM)のトレーニング後のアライメントは、すべてのトークンがモデルのパフォーマンスに等しく寄与するわけではないため、重要な課題である。
本稿では,現行のポリシーと参照モデルとのトークンレベルの対数確率差を利用して,プライオリティペア内の高インパクトトークンを優先する選択的アライメント戦略を提案する。
これらの情報的トークンに焦点をあてることで,計算オーバーヘッドを低減し,アライメントの忠実度を高める。
さらに、より強力な参照モデルによりトークン選択精度が向上し、全体的な最適化効率が向上することを示す。
Arena-Hard や MT-Bench のようなベンチマークに関する総合的な実験は、標準 DPO および蒸留ベースラインよりも選択 DPO 法の方が優れていることを検証している。
本研究は, LLMの優先度調整におけるトークンレベルの最適化と参照モデル選択の重要性を強調した。
コードはhttps://github.com/Dongzhijin/SDPO.comで公開されている。
関連論文リスト
- IGD: Token Decisiveness Modeling via Information Gain in LLMs for Personalized Recommendation [70.2753541780788]
我々は,トークン決定性をチューニングと復号の両方に統合する情報ゲインに基づく決定性対応トークンハンドリング(IGD)戦略を導入する。
IGDはリコメンデーションの精度を一貫して改善し、強力なベースラインに比べて広く使われているランキングの指標で顕著に向上した。
論文 参考訳(メタデータ) (2025-06-16T08:28:19Z) - ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Preference Optimization [48.50761200321113]
大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。
補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2025-06-10T11:54:22Z) - Optimal Transport-Based Token Weighting scheme for Enhanced Preference Optimization [17.801062522027266]
DPO(Direct Preference Optimization)は,大規模言語モデルと人間の嗜好を整合させる,有望なフレームワークとして登場した。
既存の方法は応答における全てのトークンに等しい重要性を割り当て、人間はより意味のある部分に焦点を当てる。
直接textbfPreference textbfOptimization (OTPO) を強化するための textbfOptimal textbfTransport を用いたトークン重み付け方式を提案する。
論文 参考訳(メタデータ) (2025-05-24T14:44:15Z) - Margin Matching Preference Optimization: Enhanced Model Alignment with Granular Feedback [64.67540769692074]
人間のフィードバックからの強化学習など、アライメント技術で微調整された大規模言語モデル(LLM)は、これまでで最も有能なAIシステムの開発に役立っている。
マージンマッチング選好最適化(MMPO)と呼ばれる手法を導入し、相対的な品質マージンを最適化し、LLMポリシーと報酬モデルを改善する。
人間とAIの両方のフィードバックデータによる実験によると、MMPOはMT-benchやRewardBenchといった一般的なベンチマークにおいて、ベースラインメソッドよりも一貫してパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-10-04T04:56:11Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - Selective Preference Optimization via Token-Level Reward Function Estimation [34.575466253492436]
本稿では,鍵トークン選択を効率よく行う新しい選択的アライメント戦略である選択的選好最適化(SePO)を提案する。
SePOは、応答レベルのアノテーションを備えた既存のアライメントデータセットに適用します。
実験の結果、SePOはターゲットデータセット上の30%のキートークンだけを最適化することで、競合するベースラインメソッドを著しく上回ります。
論文 参考訳(メタデータ) (2024-08-24T08:44:04Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z) - Parameter-Efficient Tuning Helps Language Model Alignment [57.27390187540737]
これまでは主に強化学習(RLHF)と直接選好最適化(DPO)を採用してきた。
コントロール可能な生成は、データフォーマットに関して、より柔軟性を提供します。
パラメータ効率調整(MEET)を併用したアライメントMEntでは,制御トークンの品質が向上する。
論文 参考訳(メタデータ) (2023-10-01T23:27:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。