論文の概要: Ambiguity Awareness Optimization: Towards Semantic Disambiguation for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2511.23391v1
- Date: Fri, 28 Nov 2025 17:32:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:56.003502
- Title: Ambiguity Awareness Optimization: Towards Semantic Disambiguation for Direct Preference Optimization
- Title(参考訳): あいまいさ認識の最適化:直接選好最適化のための意味的曖昧化を目指して
- Authors: Jian Li, Shenglin Yin, Yujia Zhang, Alan Zhao, Xi Chen, Xiaohui Zhou, Pengfei Xu,
- Abstract要約: 本稿では、Ambiguity Awareness Optimization (AAO)を導入し、好みのペアから意味的類似性を計算することによってあいまいさを低減する。
AAOは、応答長を著しく増加させることなく、パフォーマンスにおける最先端のアプローチを一貫して大幅に上回っている。
- 参考スコア(独自算出の注目度): 14.457642434729983
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) is a widely used reinforcement learning from human feedback (RLHF) method across various domains. Recent research has increasingly focused on the role of token importance in improving DPO effectiveness. It is observed that identical or semantically similar content (defined as ambiguous content) frequently appears within the preference pairs. We hypothesize that the presence of ambiguous content during DPO training may introduce ambiguity, thereby limiting further improvements in alignment. Through mathematical analysis and proof-of-concept experiments, we reveal that ambiguous content may potentially introduce ambiguities, thereby degrading performance. To address this issue, we introduce Ambiguity Awareness Optimization (AAO), a simple yet effective approach that automatically re-weights ambiguous content to reduce ambiguities by calculating semantic similarity from preference pairs. Through extensive experiments, we demonstrate that AAO consistently and significantly surpasses state-of-the-art approaches in performance, without markedly increasing response length, across multiple model scales and widely adopted benchmark datasets, including AlpacaEval 2, MT-Bench, and Arena-Hard. Specifically, AAO outperforms DPO by up to 8.9 points on AlpacaEval 2 and achieves an improvement of by up to 15.0 points on Arena-Hard.
- Abstract(参考訳): 直接選好最適化 (DPO) は、様々な領域にわたる人間フィードバック(RLHF)法から広く使われている強化学習である。
近年,DPOの有効性向上におけるトークンの重要性に注目が集まっている。
同一またはセマンティックに類似した内容(曖昧な内容と定義される)が嗜好ペア内に頻繁に現れることが観察された。
DPOトレーニングにおける曖昧な内容の存在はあいまいさを生じさせ、アライメントのさらなる改善を抑えることができると仮定する。
数学的解析と概念実証実験により、あいまいな内容があいまいさをもたらす可能性があり、それによって性能が劣化することを明らかにする。
この問題に対処するために、Ambiguity Awareness Optimization (AAO) を導入する。Ambiguity Awareness Optimization (AAO) は、好みのペアから意味的類似性を計算することで、あいまいなコンテンツを自動的に再重み付けし、あいまいさを減らす、シンプルで効果的なアプローチである。
大規模な実験を通じて、AAOは、複数のモデルスケールと広く採用されているAlpacaEval 2, MT-Bench, Arena-Hardなどのベンチマークデータセットにおいて、応答長を著しく増加させることなく、パフォーマンスにおける最先端のアプローチを一貫して大幅に上回っていることを実証した。
具体的には、AAOはAlpacaEval 2でDPOを最大8.9ポイント上回り、Arena-Hardで最大15.0ポイント改善する。
関連論文リスト
- Understanding the Performance Gap in Preference Learning: A Dichotomy of RLHF and DPO [53.914481648817066]
本研究では,人間からのフィードバックからの強化学習と,表現ギャップ下での直接選好最適化との間の性能ギャップを分解する。
RLHF, DPO, オンラインDPOは, モデルミスのタイプによって, 互いに優れることを示す。
論文 参考訳(メタデータ) (2025-05-26T09:54:02Z) - ASPO: Adaptive Sentence-Level Preference Optimization for Fine-Grained Multimodal Reasoning [14.034412856423529]
直接選好最適化(DPO)は,大規模言語モデル(LLM)の整合性において,その単純さと計算効率に注目されている。
最近の進歩はDPOをマルチモーダルシナリオに拡張し、高いパフォーマンスを実現している。
従来のDPOは、細かなセグメントの正しさを考慮せずに、二分選好の最適化、報酬、全応答のペナルティ化に依存している。
本稿では、より正確な選好最適化のために個々の文を評価する適応文レベルの選好最適化(ASPO)を提案する。
論文 参考訳(メタデータ) (2025-05-25T11:33:08Z) - Towards Self-Improvement of Diffusion Models via Group Preference Optimization [10.6096255671291]
グループ優先最適化(GPO)は、外部データを必要とせずに性能を向上させる効果的な自己改善手法である。
GPOは、安定拡散3.5媒体の正確なカウントとテキストレンダリング能力を20パーセント改善する。
プラグアンドプレイ方式では、推論中に余分なオーバーヘッドは発生しない。
論文 参考訳(メタデータ) (2025-05-16T10:04:57Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - TIS-DPO: Token-level Importance Sampling for Direct Preference Optimization With Estimated Weights [73.9088920210495]
本稿では,TIS-DPO と呼ばれるトークン単位の重要度サンプリング DPO の目的について,その報酬に基づいて各トークンに重要度を割り当てる手法を提案する。
TIS-DPOは、無害性、有用性アライメントおよび要約タスクにおいて、様々なベースライン手法を著しく上回っている。
論文 参考訳(メタデータ) (2024-10-06T04:03:00Z) - Length Desensitization in Direct Preference Optimization [26.664176443756773]
DPOは冗長性に対して過度に最適化される傾向があり、パフォーマンスとユーザエクスペリエンスの両方に有害に影響を及ぼす可能性がある。
LD-DPO(LD-DPO)と呼ばれるDPOの時間依存性改善手法を提案する。
提案手法は,他の暗黙の選好から比較的重要でない明示的な長さ選好を分離することにより,DPOをデータ長に脱感化することを目的としている。
論文 参考訳(メタデータ) (2024-09-10T10:49:38Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。