論文の概要: SGDPO: Self-Guided Direct Preference Optimization for Language Model Alignment
- arxiv url: http://arxiv.org/abs/2505.12435v1
- Date: Sun, 18 May 2025 14:19:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:11.234564
- Title: SGDPO: Self-Guided Direct Preference Optimization for Language Model Alignment
- Title(参考訳): SGDPO: 言語モデルアライメントのための自己ガイド型直接参照最適化
- Authors: Wenqiao Zhu, Ji Liu, Lulu Wang, Jun Wu, Yulun Zhang,
- Abstract要約: 本稿では,最適化過程における勾配流の制御にパイロット項を組み込んだ自己ガイド型直接選好最適化アルゴリズム,すなわちSGDPOを提案する。
本稿では,提案手法の詳細な理論的解析を行い,その動作機構を解明する。
- 参考スコア(独自算出の注目度): 46.55132297735257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direct Preference Optimization (DPO) is broadly utilized for aligning Large Language Models (LLMs) with human values because of its flexibility. Despite its effectiveness, it has been observed that the capability of DPO to generate human-preferred response is limited and the results of DPO are far from resilient. To address these limitations, in this paper we propose a novel Self-Guided Direct Preference Optimization algorithm, i.e., SGDPO, which incorporates a pilot term to steer the gradient flow during the optimization process, allowing for fine-grained control over the updates of chosen and rejected rewards. We provide a detailed theoretical analysis of our proposed method and elucidate its operational mechanism. Furthermore, we conduct comprehensive experiments on various models and benchmarks. The extensive experimental results demonstrate the consistency between the empirical results and our theoretical analysis and confirm the effectiveness of our proposed approach (up to 9.19% higher score).
- Abstract(参考訳): 直接選好最適化(DPO)は、その柔軟性のため、大きな言語モデル(LLM)と人間の値の整合に広く利用されている。
有効性にもかかわらず、DPOのヒト優先応答生成能力は制限されており、DPOの結果は弾力性には程遠いことが観察されている。
これらの制約に対処するため,本稿では,最適化プロセス中の勾配流を操縦するパイロット項を組み込んだ,自己ガイド型直接選好最適化アルゴリズム(SGDPO)を提案する。
本稿では,提案手法の詳細な理論的解析を行い,その動作機構を解明する。
さらに、様々なモデルやベンチマークについて包括的な実験を行う。
実験結果と理論解析の整合性を実証し,提案手法の有効性を確認した(最大9.19%高得点)。
関連論文リスト
- A Survey of Direct Preference Optimization [103.59317151002693]
LLM(Large Language Models)は、前例のない生成能力を示す。
人的価値との整合性は、有用で無害なデプロイメントを保証する上で、依然として重要です。
直接優先度最適化(DPO)は、最近、合理化された代替案として注目されている。
論文 参考訳(メタデータ) (2025-03-12T08:45:15Z) - Gradient Imbalance in Direct Preference Optimization [26.964127989679596]
計算効率のよい勾配再重み付け機構を導入するDPOの目的に対して, 単純かつ効果的な修正である Balanced-DPO を提案する。
本実験は, バランスドDPOの有効性を実証し, 理論的結果の検証と, DPOの性能向上の鍵となる勾配不均衡への対処について検証した。
論文 参考訳(メタデータ) (2025-02-28T08:47:03Z) - ASFT: Aligned Supervised Fine-Tuning through Absolute Likelihood [14.512464277772194]
Aligned Supervised Fine-Tuning (ASFT)は、大規模言語モデルとペアワイズデータセットの整合性を改善する効果的なアプローチである。
ASFTは、DPO損失関数が人間の不適切なデータを生成する確率を減少させる問題を緩和する。
大規模な実験により、ASFTは効果的なアライメントアプローチであり、既存の手法より一貫して優れていることが示された。
論文 参考訳(メタデータ) (2024-09-14T11:39:13Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。