論文の概要: ADPO: Anchored Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.18913v2
- Date: Mon, 27 Oct 2025 12:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.595504
- Title: ADPO: Anchored Direct Preference Optimization
- Title(参考訳): ADPO: Anchored Direct Preference Optimization
- Authors: Wang Zixian,
- Abstract要約: 直接選好最適化(DPO)は、人間のフィードバックからの強化学習の効果的な代替手段である。
ソフトな嗜好確率を組み込んだAnchored Direct Preference Optimization (ADPO)を提案する。
ADPOは標準DPOベースラインよりも12%から79%の改善が見られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) is an efficient alternative to reinforcement learning from human feedback (RLHF), yet it typically assumes hard binary labels and pairwise comparisons. Such assumptions can be brittle under noisy or distribution-shifted supervision. We present Anchored Direct Preference Optimization (ADPO), which (i) incorporates soft preference probabilities, (ii) aligns policy updates through reference anchoring that induces an implicit trust region, and (iii) extends to listwise learning via Plackett-Luce modeling. In controlled synthetic setups covering 12 scenarios (4 noise types x 3 severities) and 3 model scales, ADPO exhibits relative improvements ranging from 12% to 79% over a standard DPO baseline (10-seed means; 95% CIs in the Appendix). Hard labels tend to fare better under severe noise, whereas soft labels yield better calibration under distribution shift; listwise variants achieve the highest WinMass (expected probability mass on the ground-truth best item) in 9/12 scenarios. Larger models amplify ADPO's benefits (0.718 vs. 0.416 at hidden=256), suggesting that anchoring acts as an effective trust-region regularizer. We release code and configurations to facilitate reproducibility.
- Abstract(参考訳): 直接選好最適化(DPO)は、人間のフィードバック(RLHF)からの強化学習の効果的な代替手段であるが、通常はハードバイナリラベルとペア比較を前提としている。
このような仮定は、ノイズや分布シフトによる監視の下でも不安定である。
本稿では、ADPO(Anchored Direct Preference Optimization)を提案する。
(i)ソフトな嗜好確率を取り入れる。
(ii)暗黙の信頼領域を誘導する参照アンカーを通じてポリシー更新を調整し、
(iii)Plackett-Luceモデリングによるリストワイズ学習に拡張する。
12のシナリオ(4つのノイズタイプ x 3 severities)と3つのモデルスケールをカバーする制御された合成セットアップにおいて、ADPOは標準のDPOベースライン(Appendixの95%CI)よりも12%から79%の相対的な改善を示している。
ハードレーベルは厳しい騒音下では良くなる傾向にあるが、ソフトレーベルは分布シフト時にキャリブレーションが良くなり、リストワイドの変種は9/12シナリオでWinMass(地上最良アイテムで予測される確率質量)の最高値を達成している。
より大きなモデルはADPOの利点を増幅し(0.718 vs. 0.416 at hidden=256)、アンカーが効果的な信頼領域正規化器として機能することを示唆している。
再現性を促進するために、コードと構成をリリースします。
関連論文リスト
- Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering [5.568436850698628]
Sem-DPOは意味的一貫性を維持しながら、その単純さと効率を維持するDPOの亜種である。
本研究は,Sem-DPOが原文の有界近傍で学習のプロンプトを継続していることを示す。
3つの標準テキスト-画像のプロンプト-最適化ベンチマークと2つの言語モデルにおいて、Sem-DPOはDPOよりもCLIPの類似度が8-12%高く、5-9%高いHPSv2.1、PickScore)。
論文 参考訳(メタデータ) (2025-07-27T05:20:13Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。
視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文 参考訳(メタデータ) (2025-01-11T21:41:27Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。