論文の概要: Explicit Preference Optimization: No Need for an Implicit Reward Model
- arxiv url: http://arxiv.org/abs/2506.07492v1
- Date: Mon, 09 Jun 2025 07:11:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.842036
- Title: Explicit Preference Optimization: No Need for an Implicit Reward Model
- Title(参考訳): 明示的推論最適化:暗黙的回帰モデルを必要としない
- Authors: Xiangkun Hu, Lemin Kong, Tong He, David Wipf,
- Abstract要約: 直接選好最適化(DPO)とそのオフシュートは、個別の報酬トレーニングステップの必要性を回避する。
DPOをベースとした目的は,しかしながら,準最適正規化や反直観的アーティファクトの対象であることを示す。
- 参考スコア(独自算出の注目度): 18.225409932618657
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The generated responses of large language models (LLMs) are often fine-tuned to human preferences through a process called reinforcement learning from human feedback (RLHF). As RLHF relies on a challenging training sequence, whereby a separate reward model is independently learned and then later applied to LLM policy updates, ongoing research effort has targeted more straightforward alternatives. In this regard, direct preference optimization (DPO) and its many offshoots circumvent the need for a separate reward training step. Instead, through the judicious use of a reparameterization trick that induces an \textit{implicit} reward, DPO and related methods consolidate learning to the minimization of a single loss function. And yet despite demonstrable success in some real-world settings, we prove that DPO-based objectives are nonetheless subject to sub-optimal regularization and counter-intuitive interpolation behaviors, underappreciated artifacts of the reparameterizations upon which they are based. To this end, we introduce an \textit{explicit} preference optimization framework termed EXPO that requires no analogous reparameterization to achieve an implicit reward. Quite differently, we merely posit intuitively-appealing regularization factors from scratch that transparently avoid the potential pitfalls of key DPO variants, provably satisfying regularization desiderata that prior methods do not. Empirical results serve to corroborate our analyses and showcase the efficacy of EXPO.
- Abstract(参考訳): 大規模言語モデル(LLM)の生成した応答は、人間のフィードバックからの強化学習(RLHF)と呼ばれるプロセスを通じて、人間の好みに合わせて微調整されることが多い。
RLHFは、独立した報酬モデルが独立して学習され、後にLCMポリシー更新に適用される、困難なトレーニングシーケンスに依存しているため、進行中の研究努力はより簡単な代替案をターゲットにしている。
この点において、直接選好最適化(DPO)とその多くのオフシュートは、個別の報酬訓練ステップの必要性を回避している。
代わりに、XMLit{implicit} の報酬を誘導する再パラメータ化トリックの司法的使用により、DPO と関連するメソッドは、学習を単一損失関数の最小化に集約する。
しかし,実世界のいくつかの環境では実証不可能な成功にもかかわらず,DPOに基づく目的が準最適正則化や反直観的補間行動の対象となることが証明されている。
この目的のために、暗黙の報酬を達成するために類似のパラメータ化を必要としないEXPOと呼ばれる好み最適化フレームワークを導入している。
重要なDPO変異体の潜在的な落とし穴を透過的に回避するスクラッチから直感的に正則化因子を付与するだけで、従来手法では不可能であった正則化デシダータを確実に満足させる。
実験結果から分析結果を裏付け,EXPOの有効性を実証した。
関連論文リスト
- Proximalized Preference Optimization for Diverse Feedback Types: A Decomposed Perspective on DPO [19.5712961932773]
我々は、直接選好最適化(DPO)を再考し、その損失が理論的に分解された改革を認めることを実証する。
PRO (Proximalized PReference Optimization) を導入し,多様な課金型に対応する統一手法を提案する。
論文 参考訳(メタデータ) (2025-05-29T10:23:22Z) - A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Prompt Tuning with Diffusion for Few-Shot Pre-trained Policy Generalization [55.14484317645865]
我々は,オフライン強化学習タスクにおいて,例外的な品質向上を促す条件拡散モデルを構築した。
本稿では,Promptディフューザがプロンプトチューニングプロセスの堅牢かつ効果的なツールであることを示し,メタRLタスクにおいて高い性能を示す。
論文 参考訳(メタデータ) (2024-11-02T07:38:02Z) - Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Self-supervised Preference Optimization: Enhance Your Language Model with Preference Degree Awareness [27.43137305486112]
本稿では,自己監督的選好度損失とアライメント損失を組み合わせた自己監督的選好度損失を構成する,新しい自己監督的選好最適化(SPO)フレームワークを提案する。
その結果,SPOを既存の好み最適化手法とシームレスに統合し,最先端性能を実現することができた。
論文 参考訳(メタデータ) (2024-09-26T12:37:26Z) - New Desiderata for Direct Preference Optimization [19.324743346476417]
我々は,既存のDPO手法が事前学習した基準モデルと,人間の嗜好の実証的尺度とを補間する能力において,未解決の欠点を浮き彫りにする新たな評価基準を導入する。
我々の洞察は、これらの制限を確実に緩和する代替のDPOライクな損失を動機付けます。
論文 参考訳(メタデータ) (2024-07-12T07:52:32Z) - 3D-Properties: Identifying Challenges in DPO and Charting a Path Forward [17.27880657597116]
我々はDPOを再考し、その理論的基礎と経験的性能を分析した。
DPOの学習過程から生じる3つの重要な特性、いわゆる3D特性を同定する。
トレーニングの安定性と性能を向上させるための簡単な正規化手法を提案する。
論文 参考訳(メタデータ) (2024-06-11T14:59:24Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。