論文の概要: RSPO: Regularized Self-Play Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.00030v2
- Date: Mon, 07 Jul 2025 20:24:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:36.954838
- Title: RSPO: Regularized Self-Play Alignment of Large Language Models
- Title(参考訳): RSPO: 大規模言語モデルの正規化されたセルフプレイアライメント
- Authors: Xiaohang Tang, Sangwoong Yoon, Seongho Son, Huizhuo Yuan, Quanquan Gu, Ilija Bogunovic,
- Abstract要約: Regularized Self-Play Policy Optimization (RSPO) は、事前のメソッドを統一し、様々な正規化ツールのプラグイン・アンド・プレイ統合を可能にする汎用的でモジュール化されたフレームワークである。
20ドル以上の微調整Mistral-7B-Instructモデルに関する実証研究により、前方KL偏差正規化は応答長を減少させる一方、逆KL偏差は生の利得率を著しく向上させることが明らかとなった。
- 参考スコア(独自算出の注目度): 54.593523736962
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-play alignment has emerged as an effective approach for fine-tuning large language models (LLMs), formulating preference optimization as a two-player game. However, the regularization with respect to the reference policy, which is crucial for mitigating over-optimization, has been insufficiently investigated in self-play alignment. To study the impact of different regularization strategies, we propose \textbf{Regularized Self-Play Policy Optimization (RSPO)}, a general and modular framework that unifies prior methods and enables simple plug-and-play integration of various regularizers, meanwhile preserving convergence to Nash equilibrium of the corresponding regularized game.Our empirical study involving over $120$ fine-tuned Mistral-7B-Instruct models reveals that forward KL divergence regularization reduces response length, whereas reverse KL divergence markedly improves raw win rates. Crucially, RSPO regularized with a linear combination of forward and reverse KL divergence significantly boosts the length-controlled win rate on AlpacaEval-2 from $28.5\%$ (unregularized self-play, SPPO) to $35.4\%$, and consistently demonstrates superior performance on Arena-Hard, MT-Bench, ArmoRM scores, and response diversity. Combining simplicity, convergence guarantees, and significant empirical gains, RSPO offers a strong foundation for exploring regularized self-play in language model alignment.
- Abstract(参考訳): 大規模言語モデル(LLM)を微調整するための効果的なアプローチとして自己プレイアライメントが登場し,2人プレイのゲームとして好みの最適化が定式化されている。
しかし、過度な最適化を緩和する上で重要な基準政策に関する規則化は、自己プレイアライメントにおいて不十分な研究がなされている。
異なる正規化戦略の影響を調べるために,従来の手法を統一し,様々な正規化ゲームのナッシュ平衡に収束する一方で,様々な正規化ゲームのプラグアンドプレイ統合を可能にする汎用かつモジュール化されたフレームワークである \textbf{Regularized Self-Play Policy Optimization (RSPO) を提案する。
重要なことに、前向きと逆向きのKL分岐の線形結合で正規化されたRSPOは、AlpacaEval-2の勝利率を28.5 %$(非正規化された自己プレー、SPPO)から35.4 %$に大幅に向上させ、アレナ・ハード、MT-ベンチ、アルモRMのスコア、レスポンスの多様性を一貫して向上させる。
単純さ、収束保証、そして重要な経験的利益を組み合わせることで、RSPOは言語モデルアライメントにおける正規化された自己プレーを探求するための強力な基盤を提供する。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
我々の手法はSPPO(Self-Play Preference Optimization)と呼ばれ、繰り返しポリシー更新を利用してナッシュ均衡を確実に近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - Investigating Regularization of Self-Play Language Models [5.162978497363913]
本稿では,言語モデルアライメントの文脈における様々な形態の正規化の効果を,セルフプレイによる検討する。
KL法に基づく正則化器は,SPIN損失関数内の基本方針と幾何的混合により,以前の方針を置き換えることが示される。
論文 参考訳(メタデータ) (2024-04-04T05:38:44Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Local and adaptive mirror descents in extensive-form games [37.04094644847904]
我々は,ゼロサム不完全な情報ゲーム (IIG) において,軌道フィードバックを用いて$epsilon$-Optimal戦略を学習する方法を研究する。
我々は、プレイヤーが時間とともにポリシーを更新する固定サンプリングアプローチを検討するが、与えられた固定サンプリングポリシーによって観察される。
このアプローチは高い確率で$tildemathcalO(T-1/2)$の収束率を保証し、ゲームパラメータにほぼ最適に依存することを示す。
論文 参考訳(メタデータ) (2023-09-01T09:20:49Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。