論文の概要: Game-Theoretic Regularized Self-Play Alignment of Large Language Models
- arxiv url: http://arxiv.org/abs/2503.00030v1
- Date: Mon, 24 Feb 2025 22:43:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-09 03:20:25.962357
- Title: Game-Theoretic Regularized Self-Play Alignment of Large Language Models
- Title(参考訳): ゲーム理論による大言語モデルの正規化自己再生アライメント
- Authors: Xiaohang Tang, Sangwoong Yoon, Seongho Son, Huizhuo Yuan, Quanquan Gu, Ilija Bogunovic,
- Abstract要約: 正規化手法は、正規化されていない自己演奏を大幅に改善できることを示す。
正規化手法は、正規化されていない自己演奏を大幅に改善できることを示す。
- 参考スコア(独自算出の注目度): 54.593523736962
- License:
- Abstract: Self-play alignment algorithms have been developed as effective methods for fine-tuning large language models (LLMs), formulating preference optimization as a two-player game. However, the regularization with respect to the reference policy, which is crucial for mitigating over-optimization, has been insufficiently investigated in self-play alignment. In this paper, we show that our regularization method can improve the unregularized self-play significantly. To study the impact of different regularizations in self-play alignment, we propose Regularized Self-Play Policy Optimization (RSPO). This generalized framework regularizes the self-play by simply adding a chosen regularization term into the loss while maintaining provable last-iterate convergence to the Nash Equilibrium of the corresponding regularized game. Surprisingly, empirical evaluations using the Mistral-7B-Instruct base model reveal that forward KL divergence regularization reduces response length in RSPO, whereas reverse KL divergence markedly improves raw win rates. RSPO with a linear combination of forward and reverse KL divergence regularization substantially increases the length-controlled win rate in AlpacaEval-2, elevating the unregularized self-play alignment method (SPPO) from $28.53\%$ to $35.44\%$. Finally, we show that RSPO also improves the response diversity.
- Abstract(参考訳): 大規模言語モデル (LLM) を微調整するための効果的な手法として, 自動演奏アライメントアルゴリズムが開発されている。
しかし、過度な最適化を緩和する上で重要な基準政策に関する規則化は、自己プレイアライメントにおいて不十分な研究がなされている。
本稿では,正規化手法が非正規化自己再生を大幅に改善できることを示す。
自己プレイアライメントにおける異なる正規化の影響を検討するために,正規化自己プレイポリシー最適化(RSPO)を提案する。
この一般化されたフレームワークは、選択された正規化項を損失に追加するだけで、対応する正規化ゲームのナッシュ平衡に証明可能な最終項目収束を維持しながら、自己プレーを正規化する。
驚くべきことに、Mistral-7B-Instructベースモデルを用いた実験的評価では、前方KL偏差正規化はRSPOの応答長を減少させる一方、逆KL偏差は生の利得率を著しく向上させる。
前向きと逆向きのKL分散正規化を線形に組み合わせたRSPOは、AlpacaEval-2における長さ制御された勝利率を大幅に増加させ、非正規化自己再生アライメント法(SPPO)を28.53\%から35.44\%に引き上げた。
最後に、RSPOは応答の多様性も改善することを示す。
関連論文リスト
- Correcting the Mythos of KL-Regularization: Direct Alignment without Overoptimization via Chi-Squared Preference Optimization [78.82586283794886]
$chi2$-Preference Optimization(chi$PO)は、オーバー最適化に対して確実に堅牢なオフラインアライメントアルゴリズムである。
$chi$POは、正規化による不確実性に直面して悲観主義の原理を実装している。
$chi$POの単純さと強力な保証により、オーバー最適化に対して確実に堅牢な、実用的で汎用的なオフラインアライメントアルゴリズムとなった。
論文 参考訳(メタデータ) (2024-07-18T11:08:40Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - Investigating Regularization of Self-Play Language Models [5.162978497363913]
本稿では,言語モデルアライメントの文脈における様々な形態の正規化の効果を,セルフプレイによる検討する。
KL法に基づく正則化器は,SPIN損失関数内の基本方針と幾何的混合により,以前の方針を置き換えることが示される。
論文 参考訳(メタデータ) (2024-04-04T05:38:44Z) - Beyond Reverse KL: Generalizing Direct Preference Optimization with
Diverse Divergence Constraints [26.274786600234876]
大規模言語モデル(LLM)の能力の増大は、人工知能の機会を増大させるが、安全性の懸念を増幅する。
RLHFは、AIアライメントへの有望な経路として登場したが、複雑さと独立した報酬モデルへの依存により、課題を提起している。
DPOは代替として提案されており、逆KL正規化制約の下ではRLHFと等価である。
Jensen-Shannonの発散、forward KLの発散、$alpha$-divergencesなど、ある$f$-divergencesの下では、報酬と最適ポリシーの複雑な関係も単純化できることを示す。
論文 参考訳(メタデータ) (2023-09-28T08:29:44Z) - Local and adaptive mirror descents in extensive-form games [37.04094644847904]
我々は,ゼロサム不完全な情報ゲーム (IIG) において,軌道フィードバックを用いて$epsilon$-Optimal戦略を学習する方法を研究する。
我々は、プレイヤーが時間とともにポリシーを更新する固定サンプリングアプローチを検討するが、与えられた固定サンプリングポリシーによって観察される。
このアプローチは高い確率で$tildemathcalO(T-1/2)$の収束率を保証し、ゲームパラメータにほぼ最適に依存することを示す。
論文 参考訳(メタデータ) (2023-09-01T09:20:49Z) - Regularization Guarantees Generalization in Bayesian Reinforcement
Learning through Algorithmic Stability [48.62272919754204]
ベイズ RL の一般化を、おそらくほぼ正しい (PAC) フレームワークで研究する。
我々の主な貢献は、正規化を加えることで、最適な政策が適切な意味で安定することを示しています。
論文 参考訳(メタデータ) (2021-09-24T07:48:34Z) - Policy Mirror Descent for Regularized Reinforcement Learning: A
Generalized Framework with Linear Convergence [60.20076757208645]
本稿では,正規化RLを解くためのGPMDアルゴリズムを提案する。
我々は,このアルゴリズムが次元自由な方法で,全範囲の学習率に線形に収束することを実証した。
論文 参考訳(メタデータ) (2021-05-24T02:21:34Z) - Benign Overfitting of Constant-Stepsize SGD for Linear Regression [122.70478935214128]
帰納バイアスは 経験的に過剰フィットを防げる中心的存在です
この研究は、この問題を最も基本的な設定として考慮している: 線形回帰に対する定数ステップサイズ SGD。
我々は、(正規化されていない)SGDで得られるアルゴリズム正則化と、通常の最小二乗よりも多くの顕著な違いを反映する。
論文 参考訳(メタデータ) (2021-03-23T17:15:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。