論文の概要: Provably avoiding over-optimization in Direct Preference Optimization without knowing the data distribution
- arxiv url: http://arxiv.org/abs/2602.06239v1
- Date: Thu, 05 Feb 2026 22:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.13961
- Title: Provably avoiding over-optimization in Direct Preference Optimization without knowing the data distribution
- Title(参考訳): データ分布を知らずに直接選好最適化における過度な最適化を回避する可能性
- Authors: Adam Barla, Emanuele Nevali, Luca Viano, Volkan Cevher,
- Abstract要約: 優先学習において、よく知られた過最適化問題を緩和するために、単段階直接選好最適化のようなアルゴリズムPEPOを導入する。
PEPOは、不整合データサブセットに基づいて訓練された嗜好最適化ポリシーのアンサンブルを通じて悲観的を達成する。
- 参考スコア(独自算出の注目度): 47.604070468150844
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce PEPO (Pessimistic Ensemble based Preference Optimization), a single-step Direct Preference Optimization (DPO)-like algorithm to mitigate the well-known over-optimization issue in preference learning without requiring the knowledge of the data-generating distribution or learning an explicit reward model. PEPO achieves pessimism via an ensemble of preference-optimized policies trained on disjoint data subsets and then aggregates them through a worst case construction that favors the agreement across models. In the tabular setting, PEPO achieves sample complexity guarantees depending only on a single-policy concentrability coefficient, thus avoiding the all-policy concentrability which affects the guarantees of algorithms prone to over-optimization, such as DPO. The theoretical findings are corroborated by a convincing practical performance, while retaining the simplicity and the practicality of DPO-style training.
- Abstract(参考訳): PEPO(Pessimistic Ensemble based Preference Optimization)は,データ生成分布の知識や明示的な報酬モデル学習を必要とせず,優先学習においてよく知られた過最適化問題を緩和する,DPO(Direct Preference Optimization)のような単一ステップのアルゴリズムである。
PEPOは、解離したデータサブセットに基づいて訓練された嗜好最適化ポリシーのアンサンブルを通じて悲観性を達成し、モデル間での合意を支持する最悪のケース構築を通じてそれらを集約する。
表の設定では、PEPOは単一政治の集中係数のみに依存するサンプルの複雑性を保証するため、DPOのようなアルゴリズムの過度な最適化に影響を及ぼす全政治の集中性を避けることができる。
理論的な知見はDPOスタイルの訓練の単純さと実践性を保ちながら、実用的な実践的な成果によって裏付けられている。
関連論文リスト
- Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Towards Efficient Exact Optimization of Language Model Alignment [93.39181634597877]
嗜好データから直接ポリシーを最適化するために、直接選好最適化(DPO)が提案された。
問題の最適解に基づいて導出されたDPOが,現実の最適解の妥協平均探索近似に繋がることを示す。
本稿では、アライメント目的の効率的な精度最適化(EXO)を提案する。
論文 参考訳(メタデータ) (2024-02-01T18:51:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。