論文の概要: Autoregressive Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.09533v1
- Date: Tue, 10 Feb 2026 08:45:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.456859
- Title: Autoregressive Direct Preference Optimization
- Title(参考訳): 自己回帰直接選好最適化
- Authors: Masanari Oi, Mahiro Ukai, Masahiro Kaneko, Naoaki Okazaki, Nakamasa Inoue,
- Abstract要約: 我々はBradley-Terryモデルを適用する前に自己回帰的仮定を明示的に導入する新しい定式化を導入する。
我々は、自己回帰モデリングを優先最適化フレームワークに明示的に統合する、自己回帰 DPO (Autoregressive DPO) と呼ばれる新しい変種を導出する。
DPOに基づくアルゴリズムを設計する際に考慮すべき2つの長さ尺度が存在することを示す。
- 参考スコア(独自算出の注目度): 42.22530165271681
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct preference optimization (DPO) has emerged as a promising approach for aligning large language models (LLMs) with human preferences. However, the widespread reliance on the response-level Bradley-Terry (BT) model may limit its full potential, as the reference and learnable models are assumed to be autoregressive only after deriving the objective function. Motivated by this limitation, we revisit the theoretical foundations of DPO and propose a novel formulation that explicitly introduces the autoregressive assumption prior to applying the BT model. By reformulating and extending DPO, we derive a novel variant, termed Autoregressive DPO (ADPO), that explicitly integrates autoregressive modeling into the preference optimization framework. Without violating the theoretical foundations, the derived loss takes an elegant form: it shifts the summation operation in the DPO objective outside the log-sigmoid function. Furthermore, through theoretical analysis of ADPO, we show that there exist two length measures to be considered when designing DPO-based algorithms: the token length $μ$ and the feedback length $μ$'. To the best of our knowledge, we are the first to explicitly distinguish these two measures and analyze their implications for preference optimization in LLMs.
- Abstract(参考訳): 直接選好最適化(DPO)は,大規模言語モデル(LLM)と人間の選好を整合させる,有望なアプローチである。
しかし、応答レベルBradley-Terry (BT) モデルへの広範な依存は、対象関数の導出後にのみ自己回帰的であると仮定されるため、その完全なポテンシャルを制限する可能性がある。
この制限により、我々はDPOの理論的基礎を再考し、BTモデルを適用する前に自己回帰的仮定を明示的に導入する新しい定式化を提案する。
DPOを再構成して拡張することにより、自動回帰 DPO (Autoregressive DPO) と呼ばれる新しい変種を導出し、自動回帰モデリングを優先最適化フレームワークに明示的に統合する。
理論的基礎に違反することなく、導出損失はエレガントな形をとる: DPO の目的の和演算を対数シグモイド関数の外側にシフトする。
さらに,ADPOの理論的解析により,DPOに基づくアルゴリズムの設計には,トークン長$μ$とフィードバック長$μ$'の2つの長測度が存在することが示された。
我々の知る限り、我々はこれらの2つの尺度を明確に区別し、LLMにおける選好最適化におけるそれらの影響を解析した最初の人物である。
関連論文リスト
- Stable Preference Optimization for LLMs: A Bilevel Approach Beyond Direct Preference Optimization [2.384797824772941]
確率進化の観点からDPOのダイナミクスを包括的に分析する。
本稿では,教師付き微調整とDPO目標,すなわち安定な選好最適化とを密に統合する理論的基礎を持つ二段階最適化フレームワークを提案する。
論文 参考訳(メタデータ) (2025-07-10T12:57:39Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Minor DPO reject penalty to increase training robustness [8.971332948872185]
人間の嗜好からの学習は、ダウンストリームタスクにおいて、事前学習されたLLMを人間の嗜好に合わせるために、大規模言語モデル(LLM)の微調整ステップで使用されるパラダイムである。
近年,簡易なRLフリー手法でアライメント問題を解決するために,DPO(Direct Preference Optimization)が提案されている。
本稿では、DPOにおける$beta$の動作メカニズムを分析し、RLアルゴリズムとDPOの構文差を明らかにし、DPOの単純化による潜在的な不足について理解する。
論文 参考訳(メタデータ) (2024-08-19T09:29:31Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - Multi-Reference Preference Optimization for Large Language Models [56.84730239046117]
複数の参照モデルを用いた直接選好最適化のための新しいクローズドフォームの定式化を提案する。
得られたアルゴリズムであるMulti-Reference Preference Optimization (MRPO)は、様々な参照モデルからより広範な事前知識を活用する。
MRPOを微調整したLLMは,データ不足や多量性に関わらず,様々な嗜好データにおいてより一般化されていることを示す。
論文 参考訳(メタデータ) (2024-05-26T00:29:04Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。