論文の概要: Investigating Regularization of Self-Play Language Models
- arxiv url: http://arxiv.org/abs/2404.04291v1
- Date: Thu, 4 Apr 2024 05:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 23:46:55.309181
- Title: Investigating Regularization of Self-Play Language Models
- Title(参考訳): セルフプレイ言語モデルの正規化の検討
- Authors: Reda Alami, Abdalgader Abubaker, Mastane Achab, Mohamed El Amine Seddik, Salem Lahlou,
- Abstract要約: 本稿では,言語モデルアライメントの文脈における様々な形態の正規化の効果を,セルフプレイによる検討する。
KL法に基づく正則化器は,SPIN損失関数内の基本方針と幾何的混合により,以前の方針を置き換えることが示される。
- 参考スコア(独自算出の注目度): 5.162978497363913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the effects of various forms of regularization in the context of language model alignment via self-play. While both reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO) require to collect costly human-annotated pairwise preferences, the self-play fine-tuning (SPIN) approach replaces the rejected answers by data generated from the previous iterate. However, the SPIN method presents a performance instability issue in the learning phase, which can be mitigated by playing against a mixture of the two previous iterates. In the same vein, we propose in this work to address this issue from two perspectives: first, by incorporating an additional Kullback-Leibler (KL) regularization to stay at the proximity of the reference policy; second, by using the idea of fictitious play which smoothens the opponent policy across all previous iterations. In particular, we show that the KL-based regularizer boils down to replacing the previous policy by its geometric mixture with the base policy inside of the SPIN loss function. We finally discuss empirical results on MT-Bench as well as on the Hugging Face Open LLM Leaderboard.
- Abstract(参考訳): 本稿では,言語モデルアライメントの文脈における様々な形態の正規化の効果を,セルフプレイによる検討する。
人からのフィードバックからの強化学習(RLHF)と直接選好最適化(DPO)の両方では、コストのかかる人手によるペアの選好を収集する必要があるが、セルフプレイ微調整(SPIN)アプローチは、前のイテレーションから生成されたデータによって拒否された回答を置き換える。
しかし,SPIN法では,従来の2つのイテレートを混合して演奏することで,学習段階における性能不安定性の問題が軽減される。
また,本研究では,この課題を2つの視点から解決することを提案する。第1に,参照ポリシの近傍に留まるためにKL(Kullback-Leibler)正則化を付加すること,第2に,前回の繰り返しにまたがって対立する政策を円滑化させる架空のプレイの概念を用いることである。
特に, KL ベースの正則化器は,SPIN の損失関数内の基本方針と幾何的混合により, 以前の方針を置き換えることが示される。
MT-BenchとHugging Face Open LLM Leaderboardの実証結果について論じる。
関連論文リスト
- Self-Play Preference Optimization for Language Model Alignment [75.83359213697854]
近年の進歩は、嗜好の確率で直接作業することで、人間の嗜好をより正確に反映できることを示している。
本稿では,言語モデルアライメントのためのセルフプレイ方式を提案する。
textitSelf-Play Preference Optimization (SPPO)と呼ばれる我々のアプローチは、反復的なポリシー更新を通じてナッシュ均衡を近似する。
論文 参考訳(メタデータ) (2024-05-01T17:59:20Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
Reinforcement Learning From Human Feedback (RLHF)は、次世代のジェネレーティブAIモデルの成功に不可欠である。
直接選好最適化(DPO)は代替手法として登場している。
DPOは標準のRLHF設定と同じ目的を達成しているが、2つのアプローチの間にはミスマッチがある。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Nash Learning from Human Feedback [80.86423717860141]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Hypothesis Transfer in Bandits by Weighted Models [8.759884299087835]
我々は,仮説伝達学習の設定において,文脈的マルチアームバンディットの問題を考える。
転送が望まれる場合に,古典的リニア UCB に対する後悔の軽減を示す再重み付け方式を示す。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
論文 参考訳(メタデータ) (2022-11-14T14:13:02Z) - Improving Variational Autoencoders with Density Gap-based Regularization [16.770753948524167]
変分オートエンコーダ(VAE)は、潜時表現学習と潜時指向生成のためのNLPにおける強力な非教師なし学習フレームワークの1つである。
実際には、ELBoの最適化は、全ての試料の後方分布を同じ分解された局所最適値、すなわち後崩壊またはKL消滅に収束させる。
本稿では, 階層化後分布と先行分布との確率的密度ギャップに基づく新しい正規化により, 両問題に対処する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2022-11-01T08:17:10Z) - Semi-Supervised Learning with Variational Bayesian Inference and Maximum
Uncertainty Regularization [62.21716612888669]
半教師付き学習(SSL)を改善するための2つの一般的な方法を提案する。
第一に、重量摂動(WP)を既存のCR(Consistency regularization)ベースの手法に統合する。
第2の手法は「最大不確実性正規化(MUR)」と呼ばれる新しい整合性損失を提案する。
論文 参考訳(メタデータ) (2020-12-03T09:49:35Z) - A Batch Normalized Inference Network Keeps the KL Vanishing Away [35.40781000297285]
変分オートエンコーダ(VAE)はモデルの後続変数を近似するために広く用いられている。
VAEはしばしば「後崩壊」と呼ばれる退化した局所最適値に収束する
論文 参考訳(メタデータ) (2020-04-27T05:20:01Z) - Optimistic Policy Optimization with Bandit Feedback [70.75568142146493]
我々は,事前の報奨を後悔する$tilde O(sqrtS2 A H4 K)を定め,楽観的な信頼領域ポリシー最適化(TRPO)アルゴリズムを提案する。
我々の知る限り、この2つの結果は、未知の遷移と帯域幅フィードバックを持つポリシー最適化アルゴリズムにおいて得られた最初のサブ線形後悔境界である。
論文 参考訳(メタデータ) (2020-02-19T15:41:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。