論文の概要: ADPO: Anchored Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2510.18913v2
- Date: Mon, 27 Oct 2025 12:50:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 13:14:10.595504
- Title: ADPO: Anchored Direct Preference Optimization
- Title(参考訳): ADPO: Anchored Direct Preference Optimization
- Authors: Wang Zixian,
- Abstract要約: 直接選好最適化(DPO)は、人間のフィードバックからの強化学習の効果的な代替手段である。
ソフトな嗜好確率を組み込んだAnchored Direct Preference Optimization (ADPO)を提案する。
ADPOは標準DPOベースラインよりも12%から79%の改善が見られた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Direct Preference Optimization (DPO) is an efficient alternative to reinforcement learning from human feedback (RLHF), yet it typically assumes hard binary labels and pairwise comparisons. Such assumptions can be brittle under noisy or distribution-shifted supervision. We present Anchored Direct Preference Optimization (ADPO), which (i) incorporates soft preference probabilities, (ii) aligns policy updates through reference anchoring that induces an implicit trust region, and (iii) extends to listwise learning via Plackett-Luce modeling. In controlled synthetic setups covering 12 scenarios (4 noise types x 3 severities) and 3 model scales, ADPO exhibits relative improvements ranging from 12% to 79% over a standard DPO baseline (10-seed means; 95% CIs in the Appendix). Hard labels tend to fare better under severe noise, whereas soft labels yield better calibration under distribution shift; listwise variants achieve the highest WinMass (expected probability mass on the ground-truth best item) in 9/12 scenarios. Larger models amplify ADPO's benefits (0.718 vs. 0.416 at hidden=256), suggesting that anchoring acts as an effective trust-region regularizer. We release code and configurations to facilitate reproducibility.
- Abstract(参考訳): 直接選好最適化(DPO)は、人間のフィードバック(RLHF)からの強化学習の効果的な代替手段であるが、通常はハードバイナリラベルとペア比較を前提としている。
このような仮定は、ノイズや分布シフトによる監視の下でも不安定である。
本稿では、ADPO(Anchored Direct Preference Optimization)を提案する。
(i)ソフトな嗜好確率を取り入れる。
(ii)暗黙の信頼領域を誘導する参照アンカーを通じてポリシー更新を調整し、
(iii)Plackett-Luceモデリングによるリストワイズ学習に拡張する。
12のシナリオ(4つのノイズタイプ x 3 severities)と3つのモデルスケールをカバーする制御された合成セットアップにおいて、ADPOは標準のDPOベースライン(Appendixの95%CI)よりも12%から79%の相対的な改善を示している。
ハードレーベルは厳しい騒音下では良くなる傾向にあるが、ソフトレーベルは分布シフト時にキャリブレーションが良くなり、リストワイドの変種は9/12シナリオでWinMass(地上最良アイテムで予測される確率質量)の最高値を達成している。
より大きなモデルはADPOの利点を増幅し(0.718 vs. 0.416 at hidden=256)、アンカーが効果的な信頼領域正規化器として機能することを示唆している。
再現性を促進するために、コードと構成をリリースします。
関連論文リスト
- BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - Breaking the Curse of Repulsion: Optimistic Distributionally Robust Policy Optimization for Off-Policy Generative Recommendation [8.112649652437705]
この解決策は、ノイズの多い行動方針に絡み合った潜伏した高品質な分布を厳格に特定することにあると我々は主張する。
このDRO目標に対してハードフィルタが正確な解であることを証明するため,DRPOは発散雑音を厳密に排除しつつ,高品質な動作を最適に回復することができる。
論文 参考訳(メタデータ) (2026-02-11T02:18:27Z) - Rethinking the Trust Region in LLM Reinforcement Learning [72.25890308541334]
PPO(Proximal Policy Optimization)は、大規模言語モデル(LLM)のデファクト標準アルゴリズムとして機能する。
より原則的な制約でクリッピングを代用する多変量確率ポリシー最適化(DPPO)を提案する。
DPPOは既存の方法よりも優れたトレーニングと効率を実現し、RLベースの微調整のためのより堅牢な基盤を提供する。
論文 参考訳(メタデータ) (2026-02-04T18:59:04Z) - Learning Where It Matters: Geometric Anchoring for Robust Preference Alignment [6.428964221372943]
本稿では,固定参照を動的な幾何学的アンカーに置き換えたGeometric Anchor Preference Optimization (GAPO)を提案する。
GAPOは標準のLCMアライメントと推論ベンチマークのパフォーマンスをマッチングまたは改善しながら、ロバストさを一貫して改善する。
論文 参考訳(メタデータ) (2026-02-04T00:40:21Z) - Not All Preferences Are Created Equal: Stability-Aware and Gradient-Efficient Alignment for Reasoning Models [52.48582333951919]
ポリシー更新の信号対雑音比を最大化することにより、アライメントの信頼性を高めるために設計された動的フレームワークを提案する。
SAGE(Stability-Aware Gradient Efficiency)は、モデル能力に基づいて候補プールをリフレッシュする粗いきめ細かいカリキュラムメカニズムを統合する。
複数の数学的推論ベンチマークの実験により、SAGEは収束を著しく加速し、静的ベースラインを上回っていることが示された。
論文 参考訳(メタデータ) (2026-02-01T12:56:10Z) - Positive-Unlabeled Reinforcement Learning Distillation for On-Premise Small Models [130.8912476550625]
そこで本研究では, 現場での小型モデル展開のための正の無ラベル(PU)強化学習蒸留法を提案する。
本手法は,教師の好み最適化能力をブラックボックス世代から地元の訓練可能な学生に蒸留する。
実験により,本手法は低コストで一貫した強靭な性能を実現することを示す。
論文 参考訳(メタデータ) (2026-01-28T15:14:50Z) - MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - APO: Alpha-Divergence Preference Optimization [0.0]
我々は、Csiszar alpha-divergence を用いて、前向きと逆KLの動作を継続的に補間するアンカー付きフレームワークであるAlpha-Divergence Preference Optimization (APO)を紹介する。
我々は、αでパラメータ化された統一勾配力学を導出し、勾配分散特性を解析し、ポリシーの改善と信頼性の両面においてのみ、カバレッジから活用へ移行する実用的な報酬と信頼の保護されたアルファスケジュールを提案する。
論文 参考訳(メタデータ) (2025-12-28T14:51:03Z) - AMaPO: Adaptive Margin-attached Preference Optimization for Language Model Alignment [25.526336903358757]
オフライン優先最適化は、言語モデルを調整するためのRLHFのよりシンプルでより安定した代替手段を提供する。
本稿では,単純なアルゴリズムであるAdaptive Margin-attached Preference Optimization (AMaPO)を提案する。
AMaPOは、Z正規化と指数的スケーリングによって洗練され、不正なサンプルの勾配を増幅し、それらを正しいものに抑えることによって、学習の取り組みを動的に再配置する。
論文 参考訳(メタデータ) (2025-11-12T14:51:59Z) - Sem-DPO: Mitigating Semantic Inconsistency in Preference Optimization for Prompt Engineering [5.568436850698628]
Sem-DPOは意味的一貫性を維持しながら、その単純さと効率を維持するDPOの亜種である。
本研究は,Sem-DPOが原文の有界近傍で学習のプロンプトを継続していることを示す。
3つの標準テキスト-画像のプロンプト-最適化ベンチマークと2つの言語モデルにおいて、Sem-DPOはDPOよりもCLIPの類似度が8-12%高く、5-9%高いHPSv2.1、PickScore)。
論文 参考訳(メタデータ) (2025-07-27T05:20:13Z) - Robust Preference Optimization via Dynamic Target Margins [35.68702558763881]
$gamma$-POは動的ターゲットマージン優先最適化アルゴリズムである。
これは、好みのペア間の報酬マージンに依存するDPOの変種と互換性がある。
$gamma$-POは、他のベースラインよりも平均4.4%改善されている。
論文 参考訳(メタデータ) (2025-06-04T08:19:37Z) - BPO: Revisiting Preference Modeling in Direct Preference Optimization [13.243174453617064]
DPO (Direct Preference Optimization) は、Large Language Models (LLM) を人間の好みに合わせる一般的な手法として登場した。
DPOは、ペアのランク付け損失を通じて、選択された応答と拒否された応答の相対順序を効果的に保持する。
それはしばしば絶対的な報酬の程度を無視し、パフォーマンスを低下させる。
本稿では,選択された応答と拒否された応答の最適化のバランスをとる新しいフレームワークであるBa balanced Preference Optimization (BPO)を提案する。
論文 参考訳(メタデータ) (2025-06-04T04:21:01Z) - In-context Ranking Preference Optimization [65.5489745857577]
In-context Ranking Preference Optimization (IRPO) フレームワークを提案する。
IRPOは標準のDPO手法よりも高い性能を示し、LLMと直接文脈内ランキング設定の整合性を強調した。
論文 参考訳(メタデータ) (2025-04-21T23:06:12Z) - FocalPO: Enhancing Preference Optimizing by Focusing on Correct Preference Rankings [40.605411087380226]
我々は、モデルがすでに正しくランク付けできるようなペアの理解を高めることを優先するDPO変種であるFocalPOを紹介した。
視覚タスクで使用されるFocal LossにインスパイアされたFocalPOは、動的にDPO損失をスケールするために変調係数を追加することでこれを達成している。
論文 参考訳(メタデータ) (2025-01-11T21:41:27Z) - Dynamic Rewarding with Prompt Optimization Enables Tuning-free Self-Alignment of Language Models [54.381650481255235]
我々は,Prompt Optimization (O) を用いた動的リワードによる自己アライメントのための新しいチューニング不要アプローチを提案する。
提案手法は,LLMを反復的に自己改善し,最適アライメント命令を作成可能な検索ベース最適化フレームワークを活用する。
近年の8つのLCMのオープンおよびクローズドソースに関する実証評価により,DRPOはアライメント性能を著しく向上することが示された。
論文 参考訳(メタデータ) (2024-11-13T16:15:38Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - AlphaDPO: Adaptive Reward Margin for Direct Preference Optimization [45.46582930202524]
$alpha$-DPOは、大規模言語モデルの適応的優先最適化アルゴリズムである。
ポリシーモデルと参照モデルのバランスを取り、パーソナライズされた報酬マージンを達成する。
さまざまなモデル設定でDPOとSimPOを一貫して上回ります。
論文 参考訳(メタデータ) (2024-10-14T04:29:57Z) - Triple Preference Optimization: Achieving Better Alignment using a Single Step Optimization [34.29965046863887]
Triple Preference Optimization (TPO) は、推論能力と命令追従能力の両方を強化するために設計された新しい選好学習手法である。
TPOは、異なるデータセットサイズで応答長を大幅に増加させることなく、既存のメソッドよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-05-26T20:18:11Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Direct Preference Optimization with an Offset [58.7977683502207]
直接選好最適化(DPO)は、大きな言語モデルと人間の選好を整合させる成功戦略である。
本稿では,DPOをオフセット(ODPO)で一般化し,微調整時にすべての選好ペアを等しく扱わないDPOを提案する。
論文 参考訳(メタデータ) (2024-02-16T10:55:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。