論文の概要: C2-DPO: Constrained Controlled Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.17507v2
- Date: Sun, 15 Jun 2025 01:02:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 15:15:30.099895
- Title: C2-DPO: Constrained Controlled Direct Preference Optimization
- Title(参考訳): C2-DPO:制約付き直接参照最適化
- Authors: Kavosh Asadi, Julien Han, Idan Pipano, Xingzi Xu, Dominique Perrault-Joncas, Shoham Sabach, Karim Bouyarmane, Mohammad Ghavamzadeh,
- Abstract要約: AIにおけるアライメント問題を解決するための有望なアプローチとして、直接選好最適化(textttDPO)が登場している。
サンプル内応答におけるKLガードレールのみを定義する最適化問題から始めることで,textttDPO損失を導出できることを示す。
- 参考スコア(独自算出の注目度): 22.730518243326394
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Direct preference optimization (\texttt{DPO}) has emerged as a promising approach for solving the alignment problem in AI. In this paper, we make two counter-intuitive observations about \texttt{DPO}. First, we show that \texttt{DPO} loss could be derived by starting from an alternative optimization problem that only defines the KL guardrail on in-sample responses, unlike the original RLHF problem where guardrails are defined on the entire distribution. Second, we prove a surprising property of this alternative optimization problem, namely that under its optimal policy, both preferred and rejected responses tend to decrease in probability, a phenomenon typically displayed by DPO in practice. To control this behavior, we propose a set of constraints designed to limit the displacement of probability mass between the preferred and rejected responses in the reference and target policies. The resulting algorithm, which we call Constrained Controlled DPO (\texttt{C2-DPO}), has a meaningful RLHF interpretation. By hedging against the displacement, \texttt{C2-DPO} provides practical improvements over vanilla \texttt{DPO} when aligning several language models using standard preference datasets.
- Abstract(参考訳): AIのアライメント問題を解決するための有望なアプローチとして、直接選好最適化(\texttt{DPO})が登場した。
本稿では,<texttt{DPO} に関する2つの反直観的観察を行う。
まず,KLガードレールを標本内応答でのみ定義する代替最適化問題から,分布全体においてガードレールが定義される元のRLHF問題と異なり,次の結果から導出できることが示される。
第二に、この代替最適化問題の驚くべき性質、すなわち、最適方針の下では、推奨応答と拒否応答の両方が確率を減少させる傾向にあり、これは実際はDPOによって示される現象である。
この動作を制御するために、参照ポリシーとターゲットポリシーにおいて、優先応答と拒否応答の間の確率質量の変位を制限するために設計された一連の制約を提案する。
結果として得られたアルゴリズムはConstrained Controlled DPO (\texttt{C2-DPO})と呼ばれ、意味のあるRLHF解釈を持つ。
変位に逆らうことで、標準的な嗜好データセットを使用して複数の言語モデルを整列させる際に、バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ(英語版)よりも実践的な改善を提供する。
関連論文リスト
- PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Floorplanning of VLSI by Mixed-Variable Optimization [42.82770651937298]
本稿では,混合変数のフロアプランニング問題を解くためのメメティックアルゴリズムを提案する。
提案アルゴリズムは、著名なB*木に基づくフロアプランニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-01-27T06:34:16Z) - PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。
本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。
その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-08-03T18:03:44Z) - AUC-based Selective Classification [5.406386303264086]
選択関数を与えられたバイナリ分類器に関連付けるためのモデルに依存しない手法を提案する。
このような目的を達成するために、理論的正当化と$AUCross$と呼ばれる新しいアルゴリズムの両方を提供する。
実験によると、$AUCross$はAUCのトレードオフカバレッジに成功し、精度を最適化することを目的とした既存の選択的な分類方法を改善している。
論文 参考訳(メタデータ) (2022-10-19T16:29:50Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Unbiased Subdata Selection for Fair Classification: A Unified Framework
and Scalable Algorithms [0.8376091455761261]
このフレームワーク内の多くの分類モデルが混合整数凸プログラムとして再キャストできることを示した。
そして,提案問題において,分類結果の「解決不能な部分データ選択」が強く解決可能であることを示す。
これにより、分類インスタンスを解決するための反復精錬戦略(IRS)の開発を動機付けます。
論文 参考訳(メタデータ) (2020-12-22T21:09:38Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。