論文の概要: C-3DPO: Constrained Controlled Classification for Direct Preference Optimization
- arxiv url: http://arxiv.org/abs/2502.17507v1
- Date: Sat, 22 Feb 2025 00:38:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:22:53.718385
- Title: C-3DPO: Constrained Controlled Classification for Direct Preference Optimization
- Title(参考訳): C-3DPO:直接選好最適化のための制約付き制御分類
- Authors: Kavosh Asadi, Julien Han, Xingzi Xu, Dominique Perrault-Joncas, Shoham Sabach, Karim Bouyarmane, Mohammad Ghavamzadeh,
- Abstract要約: 直接選好最適化(DPO)スタイルのアルゴリズムは、AIのアライメント問題を解決するための有望なアプローチとして登場した。
我々はこれらのアルゴリズムを暗黙の分類アルゴリズムとして定式化する新しい視点を示す。
次に、この分類フレームワークを利用して、これらのアルゴリズムで解決された根底にある問題が不明確であることを実証する。
- 参考スコア(独自算出の注目度): 23.709526350060816
- License:
- Abstract: Direct preference optimization (DPO)-style algorithms have emerged as a promising approach for solving the alignment problem in AI. We present a novel perspective that formulates these algorithms as implicit classification algorithms. This classification framework enables us to recover many variants of DPO-style algorithms by choosing appropriate classification labels and loss functions. We then leverage this classification framework to demonstrate that the underlying problem solved in these algorithms is under-specified, making them susceptible to probability collapse of the winner-loser responses. We address this by proposing a set of constraints designed to control the movement of probability mass between the winner and loser in the reference and target policies. Our resulting algorithm, which we call Constrained Controlled Classification DPO (\texttt{C-3DPO}), has a meaningful RLHF interpretation. By hedging against probability collapse, \texttt{C-3DPO} provides practical improvements over vanilla \texttt{DPO} when aligning several large language models using standard preference datasets.
- Abstract(参考訳): 直接選好最適化(DPO)スタイルのアルゴリズムは、AIのアライメント問題を解決するための有望なアプローチとして登場した。
我々はこれらのアルゴリズムを暗黙の分類アルゴリズムとして定式化する新しい視点を示す。
この分類フレームワークにより、適切な分類ラベルと損失関数を選択することで、DPOスタイルのアルゴリズムの多くの変種を復元することができる。
次に、この分類フレームワークを利用して、これらのアルゴリズムで解決された根底にある問題が不明確であることを示し、勝者-敗者応答の確率崩壊の影響を受けやすくする。
本研究は,勝者と敗者の間の確率質量の移動を基準および目標ポリシーで制御する一連の制約を提案することによって,この問題に対処する。
我々のアルゴリズムは、制約付き制御された分類 DPO (\texttt{C-3DPO}) と呼ばれ、意味のあるRLHF解釈を持つ。
確率崩壊に対抗して、標準的な選好データセットを使用していくつかの大きな言語モデルを整列させる際に、バニラ・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タマト・タ
関連論文リスト
- PIPA: Preference Alignment as Prior-Informed Statistical Estimation [57.24096291517857]
本稿では、RLフリーな統一確率的フレームワークであるPIPA(Pior-Informed Preference Alignment)を紹介する。
PIPAはペアデータとアンペアデータの両方に対応し、回答とステップレベルのアノテーションを提供する。
異なる種類の事前情報を統合することにより,PIPA-MとPIPA-Nの2種類のPIPAを開発した。
論文 参考訳(メタデータ) (2025-02-09T04:31:30Z) - Geometric-Averaged Preference Optimization for Soft Preference Labels [78.2746007085333]
LLMを人間の嗜好と整合させる多くのアルゴリズムは、人間の嗜好は二進的かつ決定論的であると仮定する。
本研究では,分散ソフトな選好ラベルを導入し,損失関数におけるLLM出力確率の重み付き幾何平均を用いて直接選好最適化(DPO)を改善する。
論文 参考訳(メタデータ) (2024-09-10T17:54:28Z) - e-COP : Episodic Constrained Optimization of Policies [12.854752753529151]
本稿では,制約付き強化学習(RL)のための第1ポリシー最適化アルゴリズムを提案する。
提案アルゴリズムは, エピソード設定に適応したSoTA (non-episodic) アルゴリズムと類似あるいは良好な性能を示す。
論文 参考訳(メタデータ) (2024-06-13T20:12:09Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Floorplanning of VLSI by Mixed-Variable Optimization [42.82770651937298]
本稿では,混合変数のフロアプランニング問題を解くためのメメティックアルゴリズムを提案する。
提案アルゴリズムは、著名なB*木に基づくフロアプランニングアルゴリズムよりも優れている。
論文 参考訳(メタデータ) (2024-01-27T06:34:16Z) - AUC-based Selective Classification [5.406386303264086]
選択関数を与えられたバイナリ分類器に関連付けるためのモデルに依存しない手法を提案する。
このような目的を達成するために、理論的正当化と$AUCross$と呼ばれる新しいアルゴリズムの両方を提供する。
実験によると、$AUCross$はAUCのトレードオフカバレッジに成功し、精度を最適化することを目的とした既存の選択的な分類方法を改善している。
論文 参考訳(メタデータ) (2022-10-19T16:29:50Z) - On the Optimality of Batch Policy Optimization Algorithms [106.89498352537682]
バッチポリシー最適化は、環境と対話する前に既存のデータをポリシー構築に活用することを検討する。
信頼調整インデックスアルゴリズムは楽観的,悲観的,中立的いずれであってもミニマックス最適であることを示す。
最適値予測の本来の難易度を考慮した新しい重み付き最小値基準を提案する。
論文 参考訳(メタデータ) (2021-04-06T05:23:20Z) - Unbiased Subdata Selection for Fair Classification: A Unified Framework
and Scalable Algorithms [0.8376091455761261]
このフレームワーク内の多くの分類モデルが混合整数凸プログラムとして再キャストできることを示した。
そして,提案問題において,分類結果の「解決不能な部分データ選択」が強く解決可能であることを示す。
これにより、分類インスタンスを解決するための反復精錬戦略(IRS)の開発を動機付けます。
論文 参考訳(メタデータ) (2020-12-22T21:09:38Z) - Selective Classification via One-Sided Prediction [54.05407231648068]
片側予測(OSP)に基づく緩和は、実際に関係する高目標精度体制において、ほぼ最適カバレッジが得られるSCスキームをもたらす。
理論的には,SCとOSPのバウンダリ一般化を導出し,その手法が小さな誤差レベルでのカバレッジにおいて,技術手法の状態を強く上回ることを示す。
論文 参考訳(メタデータ) (2020-10-15T16:14:27Z) - AP-Loss for Accurate One-Stage Object Detection [49.13608882885456]
一段階の物体検出器は、分類損失と局所化損失を同時に最適化することによって訓練される。
前者は、多数のアンカーのため、非常に前景と後方のアンカーの不均衡に悩まされる。
本稿では,一段検知器の分類タスクをランキングタスクに置き換える新しい枠組みを提案する。
論文 参考訳(メタデータ) (2020-08-17T13:22:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。