論文の概要: S-SPPO: Semantic-Calibrated Self-Play Preference Optimization
- arxiv url: http://arxiv.org/abs/2606.01561v1
- Date: Mon, 01 Jun 2026 02:06:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:29.86644
- Title: S-SPPO: Semantic-Calibrated Self-Play Preference Optimization
- Title(参考訳): S-SPPO:Semantic-Calibrated Self-Play Preference Optimization
- Authors: Xiwen Chen, Wenhui Zhu, Jingjing Wang, Peijie Qiu, Zhipeng Wang, Huayu Li, ZhengXiao He, Xuanzhao Dong, Prayag Tiwari, Mingkun Xu, Yujian Xiong, Feng Luo, Abolfazl Razi, Brendan Hogan Rappazzo, Anderson Schneider, Yuriy Nevmyvaka,
- Abstract要約: 本稿では,自己生成型ウインロースペアの学習によってポリシーを反復的に洗練する自己再生選好最適化(SPPO)を提案する。
本研究はSPPOにおける重要な不安定性を明らかにし,選択が過度に自信を持った勝利を意味的に区別不能な応答に割り当てる場合,最適化は政策の退化を招く。
Llama-3-8Bを用いたAlpacaEval 2.0ではS-SPPOは52.19%の勝利率と47.46%の勝利率を達成した。
- 参考スコア(独自算出の注目度): 36.01916066772865
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Aligning Large Language Models (LLMs) with human preferences is often formulated via Direct Preference Optimization (DPO). However, the standard Bradley-Terry instantiation of DPO is limited in modeling common departures from transitivity in human preferences. To address this, recent work has introduced Self-Play Preference Optimization (SPPO), which iteratively refines the policy by training on self-generated win-lose pairs. Our investigation, however, reveals a critical instability in SPPO: the optimization is prone to policy degeneration when the preference oracle assigns overly confident wins to semantically indistinguishable responses. To mitigate this, we propose S-SPPO, a dual-space semantic calibration framework comprising: i) Supervision Calibration via semantic gating, which anneals win rate targets toward the maximum-entropy baseline as semantic overlap increases; and ii) Representation Calibration via latent repulsion to enforce geometric diversity to prevent manifold collapse and maintain latent diversity between chosen and rejected samples. Theoretically, we show that the calibration preserves the constant-sum game structure, facilitating convergence to a Nash Equilibrium. Empirically, S-SPPO avoids the performance degradation seen in prior methods, achieving 52.19% win rate and 47.46% length-controlled win rate on AlpacaEval 2.0 with Llama-3-8B, without using additional human-annotated preferences during training. The code will be available at https://github.com/xiwenc1/s-sppo.
- Abstract(参考訳): 人間の好みに合わせた大規模言語モデル (LLM) は、直接優先度最適化 (DPO) によって定式化されることが多い。
しかし、DPOの標準Bradley-Terryインスタンス化は、ヒトの嗜好における推移性からの一般的な離脱をモデル化するのに限られている。
この問題に対処するため,近年のSPPO (Self-Play Preference Optimization) では,自己生成型ウィンローペアのトレーニングによってポリシーを反復的に洗練している。
しかし,本研究はSPPOにおける重要な不安定性を明らかにしており,選好オラクルが過度に自信を持った勝利をセマンティックに区別できない応答に割り当てると,その最適化は政策の退化を招きやすい。
これを軽減するために、S-SPPO(二空間セマンティックキャリブレーションフレームワーク)を提案する。
一 セマンティックゲーティングによるスーパービジョン校正であって、セマンティックオーバーラップが増加するにつれて、最大エントロピー基準線に対する利得目標を損なうこと。
二 幾何学的多様性を強制し、多様体の崩壊を防止し、選択されたサンプル及び拒絶されたサンプル間の潜伏多様性を維持するための潜伏撃退による校正
理論的には、キャリブレーションは定数サムゲーム構造を保ち、ナッシュ平衡への収束を促進する。
経験的に、S-SPPOは従来の手法で見られた性能低下を回避し、トレーニング中に追加の人間アノテーションを使わずに、AlpacaEval 2.0で52.19%の勝利率と47.46%の勝利率を達成した。
コードはhttps://github.com/xiwenc1/s-sppo.comから入手できる。
関連論文リスト
- Uncertainty-Penalized Direct Preference Optimization [52.387088396044206]
我々は、優先不確実性ペナル化スキームを導入し、DPOの悲観的な枠組みを開発する。
ペナル化は、不確実なサンプルの損失勾配を減衰させる損失の補正として機能する。
我々は,バニラDPOと比較して全体的な性能が向上し,高い不確実性選択/拒絶反応によるプロンプトの完成度も向上した。
論文 参考訳(メタデータ) (2024-10-26T14:24:37Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Statistical Rejection Sampling Improves Preference Optimization [42.57245965632205]
提案手法は,リジェクションサンプリングを用いた最適ポリシーからのソース選好データに対する新しいアプローチを提案する。
また、嗜好モデルの観点から、SLiC(Sequence Likelihood)とDPO(Direct Preference Optimization)の両方で使用される損失関数を強化する統一フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-13T01:07:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。