Fugu-MT 論文翻訳(概要): C2-DPO: Constrained Controlled Direct Preference Optimization

論文の概要: C2-DPO: Constrained Controlled Direct Preference Optimization

arxiv url: http://arxiv.org/abs/2502.17507v2
Date: Sun, 15 Jun 2025 01:02:08 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 15:15:30.099895
Title: C2-DPO: Constrained Controlled Direct Preference Optimization
Title（参考訳）: C2-DPO:制約付き直接参照最適化
Authors: Kavosh Asadi, Julien Han, Idan Pipano, Xingzi Xu, Dominique Perrault-Joncas, Shoham Sabach, Karim Bouyarmane, Mohammad Ghavamzadeh,
Abstract要約: AIにおけるアライメント問題を解決するための有望なアプローチとして、直接選好最適化(textttDPO)が登場している。サンプル内応答におけるKLガードレールのみを定義する最適化問題から始めることで,textttDPO損失を導出できることを示す。
参考スコア（独自算出の注目度）: 22.730518243326394
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Direct preference optimization (\texttt{DPO}) has emerged as a promising approach for solving the alignment problem in AI. In this paper, we make two counter-intuitive observations about \texttt{DPO}. First, we show that \texttt{DPO} loss could be derived by starting from an alternative optimization problem that only defines the KL guardrail on in-sample responses, unlike the original RLHF problem where guardrails are defined on the entire distribution. Second, we prove a surprising property of this alternative optimization problem, namely that under its optimal policy, both preferred and rejected responses tend to decrease in probability, a phenomenon typically displayed by DPO in practice. To control this behavior, we propose a set of constraints designed to limit the displacement of probability mass between the preferred and rejected responses in the reference and target policies. The resulting algorithm, which we call Constrained Controlled DPO (\texttt{C2-DPO}), has a meaningful RLHF interpretation. By hedging against the displacement, \texttt{C2-DPO} provides practical improvements over vanilla \texttt{DPO} when aligning several language models using standard preference datasets.
Abstract（参考訳）: AIのアライメント問題を解決するための有望なアプローチとして、直接選好最適化(\texttt{DPO})が登場した。本稿では,<texttt{DPO} に関する2つの反直観的観察を行う。まず,KLガードレールを標本内応答でのみ定義する代替最適化問題から,分布全体においてガードレールが定義される元のRLHF問題と異なり,次の結果から導出できることが示される。第二に、この代替最適化問題の驚くべき性質、すなわち、最適方針の下では、推奨応答と拒否応答の両方が確率を減少させる傾向にあり、これは実際はDPOによって示される現象である。この動作を制御するために、参照ポリシーとターゲットポリシーにおいて、優先応答と拒否応答の間の確率質量の変位を制限するために設計された一連の制約を提案する。結果として得られたアルゴリズムはConstrained Controlled DPO (\texttt{C2-DPO})と呼ばれ、意味のあるRLHF解釈を持つ。変位に逆らうことで、標準的な嗜好データセットを使用して複数の言語モデルを整列させる際に、バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ・バニラ(英語版)よりも実践的な改善を提供する。

関連論文リスト

Reverse Preference Optimization for Complex Instruction Following [61.39734201711077]
本稿では,Reverse Preference Optimization (RPO) という,シンプルで効果的な手法を提案する。選択された応答が完璧であることを保証するために、命令内の制約を動的に反転させることで、優先ペアのノイズを緩和する。 RPOはモデルサイズで効果的にスケールし、70B RPOモデルはGPT-4oを超える。
論文参考訳（メタデータ） (2025-05-28T09:44:27Z)
Inducing Robustness in a 2 Dimensional Direct Preference Optimization Paradigm [16.66633426354087]
DPO(Direct PreferenceOptimization)は、大規模言語モデルと人間の嗜好を整合させる強力な手法として登場した。オープンソースの選好データセットを用いたDPOの性能について検討する。 2D-DPOアルゴリズムにセグメントレベルスコアノイズロバスト性を組み込む手法を提案する。
論文参考訳（メタデータ） (2025-05-03T05:59:13Z)
PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。 PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文参考訳（メタデータ） (2025-02-09T04:31:30Z)
Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文参考訳（メタデータ） (2024-10-26T14:24:37Z)
Accelerated Preference Optimization for Large Language Model Alignment [60.22606527763201]
Reinforcement Learning from Human Feedback (RLHF) は、大きな言語モデル(LLM)を人間の好みに合わせるための重要なツールとして登場した。直接選好最適化(DPO)は、報酬関数を明示的に見積もることなく、ポリシー最適化問題としてRLHFを定式化する。本稿では,既存の最適化アルゴリズムを統一したAPO(Accelerated Preference Optimization)フレームワークを提案する。
論文参考訳（メタデータ） (2024-10-08T18:51:01Z)
Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文参考訳（メタデータ） (2024-09-10T17:54:28Z)
Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。 $chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。 $chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文参考訳（メタデータ） (2024-07-18T11:08:40Z)
e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文参考訳（メタデータ） (2024-06-13T20:12:09Z)
Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文参考訳（メタデータ） (2024-05-26T05:38:50Z)
RS-DPO: A Hybrid Rejection Sampling and Direct Preference Optimization Method for Alignment of Large Language Models [7.676477609461592]
人間のフィードバックからの強化学習(RLHF)は、大きな言語モデルとユーザの意図を結びつけるために広く採用されている。 DPOは、ポリシーモデルではなく、人間のアノテーションと代替LDMから生成される対照的な反応に依存している。本稿では,サンプリングリジェクション(RS)とDPOを体系的に組み合わせることで,両課題に対処する。提案手法は,資源環境が制限されたLLMを効果的に微調整し,ユーザ意図との整合性を向上する。
論文参考訳（メタデータ） (2024-02-15T16:00:58Z)
Floorplanning of VLSI by Mixed-Variable Optimization [42.82770651937298]
本稿では,混合変数のフロアプランニング問題を解くためのメメティックアルゴリズムを提案する。提案アルゴリズムは、著名なB*木に基づくフロアプランニングアルゴリズムよりも優れている。
論文参考訳（メタデータ） (2024-01-27T06:34:16Z)
Preference as Reward, Maximum Preference Optimization with Importance Sampling [3.7040071165219595]
我々は、重要サンプリングの観点から、単純で直感的な非政治的選好最適化アルゴリズムを提案し、これを最大選好最適化(MPO)と呼ぶ。 MPOは、RLHFとIPOの目的を、独占的アルゴリズムであると同時に組み合わせることで、両方の世界のベストを達成している。
論文参考訳（メタデータ） (2023-12-27T06:34:54Z)
Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文参考訳（メタデータ） (2023-09-13T01:07:25Z)
PARL: A Unified Framework for Policy Alignment in Reinforcement Learning from Human Feedback [106.63518036538163]
我々は、強化学習におけるポリシーアライメントの最近強調された重要な問題に対処するために、新しい統合された二段階最適化ベースのフレームワーク、textsfPARLを提案する。本フレームワークは, 上向きの目標(逆設計)の分布を, 下向きの最適変数で明示的にパラメータ化することにより, これらの問題に対処する。その結果,提案したtextsfPARL が RL のアライメントの懸念に対処できる可能性が示唆された。
論文参考訳（メタデータ） (2023-08-03T18:03:44Z)
AUC-based Selective Classification [5.406386303264086]
選択関数を与えられたバイナリ分類器に関連付けるためのモデルに依存しない手法を提案する。このような目的を達成するために、理論的正当化と$AUCross$と呼ばれる新しいアルゴリズムの両方を提供する。実験によると、$AUCross$はAUCのトレードオフカバレッジに成功し、精度を最適化することを目的とした既存の選択的な分類方法を改善している。
論文参考訳（メタデータ） (2022-10-19T16:29:50Z)
On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文参考訳（メタデータ） (2021-04-06T05:23:20Z)
Unbiased Subdata Selection for Fair Classification: A Unified Framework and Scalable Algorithms [0.8376091455761261]
このフレームワーク内の多くの分類モデルが混合整数凸プログラムとして再キャストできることを示した。そして,提案問題において,分類結果の「解決不能な部分データ選択」が強く解決可能であることを示す。これにより、分類インスタンスを解決するための反復精錬戦略(IRS)の開発を動機付けます。
論文参考訳（メタデータ） (2020-12-22T21:09:38Z)
Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文参考訳（メタデータ） (2020-10-15T16:14:27Z)
AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文参考訳（メタデータ） (2020-08-17T13:22:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。