論文の概要: Adaptive Preference Optimization with Uncertainty-aware Utility Anchor
- arxiv url: http://arxiv.org/abs/2509.10515v1
- Date: Wed, 03 Sep 2025 10:20:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-21 06:05:45.772987
- Title: Adaptive Preference Optimization with Uncertainty-aware Utility Anchor
- Title(参考訳): 不確かさを意識したユーティリティアンカーによる適応的選好最適化
- Authors: Xiaobo Wang, Zixia Jia, Jiaqi Li, Qi Liu, Zilong Zheng,
- Abstract要約: オフライン優先最適化手法は、大規模言語モデル(LLM)のアライメントに効率的である。
提案手法は, 嗜好データアノテーションから生じる不確実性を推定するアンカー機能を導入し, オフラインの選好最適化手法の一般的なフレームワークを提案する。
本手法は,データ不備のシナリオにおいてもトレーニングが可能であり,データ利用効率を大幅に向上させる。
- 参考スコア(独自算出の注目度): 33.74005997646761
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Offline preference optimization methods are efficient for large language models (LLMs) alignment. Direct Preference optimization (DPO)-like learning, one of the most popular approaches, stands out for its efficiency in reward modeling. However, these methods typically follow the convention to use Bradley-Terry (BT) reward modeling that faces several critical assumptions, including the requirement for pairwise training data, model distribution shifting, human rationality assumption, etc. To address these limitations, we propose a general framework for offline preference optimization methods, Adaptive Preference Optimization with Utility Anchor (UAPO), which introduces an anchoring function to estimate the uncertainties brought from preference data annotation. Our method enables training even in scenarios where the data is unpaired, significantly enhancing data utilization efficiency. Moreover, the anchor design makes UAPO more robust in the training process. Experimental results demonstrate that UAPO achieves competitive outcomes without the strict dependency on data pairing, paving the way for more flexible and effective preference optimization methods.
- Abstract(参考訳): オフライン優先最適化手法は大規模言語モデル(LLM)のアライメントに有効である。
直接選好最適化(DPO)のような学習は、最も一般的なアプローチの一つであり、報酬モデリングの効率性が際立っている。
しかしながら、これらの手法は通常、ペアワイズトレーニングデータ、モデル分散シフト、人間の合理性仮定など、いくつかの重要な仮定に直面するBradley-Terry(BT)報酬モデリングを使用する慣例に従う。
これらの制約に対処するため、我々はオフライン優先最適化手法であるAdaptive Preference Optimization with Utility Anchor (UAPO)を提案する。
本手法は,データ不備のシナリオにおいてもトレーニングが可能であり,データ利用効率を大幅に向上させる。
さらに、アンカーの設計により、UAPOはトレーニングプロセスにおいてより堅牢になる。
実験の結果,UAPOはデータペアリングに厳密な依存を伴わず,より柔軟で効果的な選好最適化手法の道を開いた。
関連論文リスト
- SGPO: Self-Generated Preference Optimization based on Self-Improver [6.528083376369728]
大規模言語モデル(LLM)は、実用的で信頼性の高いデプロイメントのために人間の好みに合わせている必要がある。
SGPO(Self-Generated Preference Optimization)を提案する。
改善者は、ポリシーモデルの直接選好最適化(DPO)のための自己生成選好データに対するポリシーモデルからの応答を洗練する。
AlpacaEval 2.0 と Arena-Hard の実験結果から,提案した SGPO は DPO とベースライン自己改善法を大幅に向上することが示された。
論文 参考訳(メタデータ) (2025-07-27T08:55:40Z) - Optimizing LLMs with Direct Preferences: A Data Efficiency Perspective [4.548047308860141]
本研究では,異なる種類の嗜好データがモデル性能に与える影響について検討する。
収集に費用がかかる大量の好みデータへの依存を減らすことを目的としている。
論文 参考訳(メタデータ) (2024-10-22T00:11:41Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Self-Augmented Preference Optimization: Off-Policy Paradigms for Language Model Alignment [104.18002641195442]
既存のペアデータを必要としない、効果的でスケーラブルなトレーニングパラダイムである自己拡張型優先度最適化(SAPO)を導入する。
負の反応を自律的に生成するセルフプレイの概念に基づいて、我々はさらに、データ探索とエクスプロイトを強化するために、非政治的な学習パイプラインを組み込む。
論文 参考訳(メタデータ) (2024-05-31T14:21:04Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。