論文の概要: ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Large Language Model Preference Optimization
- arxiv url: http://arxiv.org/abs/2506.08712v1
- Date: Tue, 10 Jun 2025 11:54:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.372087
- Title: ConfPO: Exploiting Policy Model Confidence for Critical Token Selection in Large Language Model Preference Optimization
- Title(参考訳): ConfPO:大規模言語モデル優先最適化における臨界トークン選択のためのポリシーモデル信頼性の爆発的評価
- Authors: Hee Suk Yoon, Eunseop Yoon, Mark A. Hasegawa-Johnson, Sungwoong Kim, Chang D. Yoo,
- Abstract要約: 大型言語モデル(LLM)における嗜好学習手法ConfPOを紹介する。
補助モデルや計算を必要とせずに、トレーニングポリシの信頼性のみに基づいて、優先クリティカルトークンを特定し、最適化する。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が一様DAA を一貫して上回っていることを示している。
- 参考スコア(独自算出の注目度): 25.789645213191974
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ConfPO, a method for preference learning in Large Language Models (LLMs) that identifies and optimizes preference-critical tokens based solely on the training policy's confidence, without requiring any auxiliary models or compute. Unlike prior Direct Alignment Algorithms (DAAs) such as Direct Preference Optimization (DPO), which uniformly adjust all token probabilities regardless of their relevance to preference, ConfPO focuses optimization on the most impactful tokens. This targeted approach improves alignment quality while mitigating overoptimization (i.e., reward hacking) by using the KL divergence budget more efficiently. In contrast to recent token-level methods that rely on credit-assignment models or AI annotators, raising concerns about scalability and reliability, ConfPO is simple, lightweight, and model-free. Experimental results on challenging alignment benchmarks, including AlpacaEval 2 and Arena-Hard, demonstrate that ConfPO consistently outperforms uniform DAAs across various LLMs, delivering better alignment with zero additional computational overhead.
- Abstract(参考訳): 本稿では,Large Language Models (LLMs) における嗜好学習手法であるConfPOを紹介し,補助モデルや計算を必要とせず,トレーニング方針の信頼性のみに基づく選好クリティカルトークンの識別と最適化を行う。
直接選好最適化(DPO)のような従来のDAA(Direct Alignment Algorithm)とは異なり、ConfPOは最も影響の大きいトークンに最適化を集中させる。
このターゲットアプローチは、KL分散予算をより効率的に使用することにより、過最適化(報奨ハッキング)を緩和しながらアライメント品質を改善する。
クレジットアサインメントモデルやAIアノテータに依存する最近のトークンレベルのメソッドとは対照的に、ConfPOはシンプルで軽量でモデルフリーである。
AlpacaEval 2 や Arena-Hard などのアライメントベンチマークの実験結果は、ConfPO が様々な LLM 全体にわたって一様DAA を一貫して上回り、計算オーバーヘッドをゼロにすることでアライメントを向上することを示した。
関連論文リスト
- Token-Importance Guided Direct Preference Optimization [2.230951739798399]
本研究では,大規模言語モデルが人間の嗜好に沿った出力を生成することを保証するため,TI-DPO(Token-Importance Guided Direct Preference Optimization)を提案する。
実験の結果,TI-DPOは高い精度とより強力な生成多様性を達成し,より安定かつ計算効率の良い解を提供することがわかった。
論文 参考訳(メタデータ) (2025-05-26T08:11:24Z) - $α$-DPO: Adaptive Reward Margin is What Direct Preference Optimization Needs [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Token-level Direct Preference Optimization [8.249403373337024]
微調整された事前訓練された大規模言語モデルは、それらを人間の価値観や意図と整合させるのに不可欠である。
トークンレベルでポリシーを最適化することにより,LLMと人間の嗜好を一致させる新しいアプローチである,トークンレベルの直接選好最適化(TDPO)を導入する。
論文 参考訳(メタデータ) (2024-04-18T08:49:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。