論文の概要: ADPO: Anchored Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.18913v5
- Date: Thu, 06 Nov 2025 06:55:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 13:46:06.459978
- Title: ADPO: Anchored Direct Preference Optimization
- Title(参考訳): ADPO: Anchored Direct Preference Optimization
- Authors: Wang Zixian,
- Abstract要約: 本稿では、選好学習をソフトリスト管理に拡張するフレームワークであるAnchored Direct Preference Optimization (ADPO)を紹介する。
動的アンカーはノイズ下でのオンライン探索を改善する一方、固定アンカーはオフライン蒸留時に優れる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) is effective but brittle under annotator noise and distribution shift because it operates on hard, pairwise labels and only regularizes log-probability differences. We introduce Anchored Direct Preference Optimization (ADPO), a framework that extends preference learning to soft listwise supervision via reference anchoring. ADPO minimizes KL(q || softmax((s - s_ref) / tau_anc)), which (i) recovers supervised fine-tuning, knowledge distillation, maximum-entropy reinforcement learning, and DPO as special cases through suitable choices of target q, anchor policy, and temperature; (ii) induces an implicit trust region governed by the softmax Fisher metric, independent of the anchor; and (iii) supports stable dynamic-anchor updates. Empirically, we observe a task-dependent tradeoff: dynamic anchors improve online exploration under noise, while fixed anchors excel at offline distillation, achieving up to 170 to 5000 times reduction in student-teacher KL on our benchmarks.
- Abstract(参考訳): 直接選好最適化(DPO)は、ハードでペアワイズなラベルで動作し、ログ確率差のみを正則化するため、アノテータノイズや分布シフトの下では効果的だが脆弱である。
本稿では、選好学習から参照アンカーによるソフトリスト管理まで拡張するフレームワークであるAnchored Direct Preference Optimization (ADPO)を紹介する。
ADPOはKL(q || Softmax((s - s_ref) / tau_anc))を最小化する
一 ターゲットq、アンカーポリシー及び温度の適切な選択により、監督された微調整、知識蒸留、最大エントロピー強化学習及びDPOを特別に回収する。
(ii)アンカーから独立して、ソフトマックスフィッシャー計量によって支配される暗黙の信頼領域を誘導し、
(iii) 安定した動的アンカー更新をサポートする。
動的アンカーはノイズ下でのオンライン探索を改善する一方、固定アンカーはオフライン蒸留時に優れ、ベンチマークでは最大170~5000倍の学生教師KLを達成している。
関連論文リスト
- Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering [5.568436850698628]
Sem-DPOは意味的一貫性を維持しながら、その単純さと効率を維持するDPOの亜種である。
本研究は,Sem-DPOが原文の有界近傍で学習のプロンプトを継続していることを示す。
3つの標準テキスト-画像のプロンプト-最適化ベンチマークと2つの言語モデルにおいて、Sem-DPOはDPOよりもCLIPの類似度が8-12%高く、5-9%高いHPSv2.1、PickScore)。
論文 参考訳(メタデータ) (2025-07-27T05:20:13Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。
視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文 参考訳(メタデータ) (2025-01-11T21:41:27Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。