論文の概要: Investigating Regularization of Self-Play Language Models
- arxiv url: http://arxiv.org/abs/2404.04291v1
- Date: Thu, 4 Apr 2024 05:38:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-09 23:46:55.309181
- Title: Investigating Regularization of Self-Play Language Models
- Title(参考訳): セルフプレイ言語モデルの正規化の検討
- Authors: Reda Alami, Abdalgader Abubaker, Mastane Achab, Mohamed El Amine Seddik, Salem Lahlou,
- Abstract要約: 本稿では,言語モデルアライメントの文脈における様々な形態の正規化の効果を,セルフプレイによる検討する。
KL法に基づく正則化器は,SPIN損失関数内の基本方針と幾何的混合により,以前の方針を置き換えることが示される。
- 参考スコア(独自算出の注目度): 5.162978497363913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores the effects of various forms of regularization in the context of language model alignment via self-play. While both reinforcement learning from human feedback (RLHF) and direct preference optimization (DPO) require to collect costly human-annotated pairwise preferences, the self-play fine-tuning (SPIN) approach replaces the rejected answers by data generated from the previous iterate. However, the SPIN method presents a performance instability issue in the learning phase, which can be mitigated by playing against a mixture of the two previous iterates. In the same vein, we propose in this work to address this issue from two perspectives: first, by incorporating an additional Kullback-Leibler (KL) regularization to stay at the proximity of the reference policy; second, by using the idea of fictitious play which smoothens the opponent policy across all previous iterations. In particular, we show that the KL-based regularizer boils down to replacing the previous policy by its geometric mixture with the base policy inside of the SPIN loss function. We finally discuss empirical results on MT-Bench as well as on the Hugging Face Open LLM Leaderboard.
- Abstract(参考訳): 本稿では,言語モデルアライメントの文脈における様々な形態の正規化の効果を,セルフプレイによる検討する。
人からのフィードバックからの強化学習(RLHF)と直接選好最適化(DPO)の両方では、コストのかかる人手によるペアの選好を収集する必要があるが、セルフプレイ微調整(SPIN)アプローチは、前のイテレーションから生成されたデータによって拒否された回答を置き換える。
しかし,SPIN法では,従来の2つのイテレートを混合して演奏することで,学習段階における性能不安定性の問題が軽減される。
また,本研究では,この課題を2つの視点から解決することを提案する。第1に,参照ポリシの近傍に留まるためにKL(Kullback-Leibler)正則化を付加すること,第2に,前回の繰り返しにまたがって対立する政策を円滑化させる架空のプレイの概念を用いることである。
特に, KL ベースの正則化器は,SPIN の損失関数内の基本方針と幾何的混合により, 以前の方針を置き換えることが示される。
MT-BenchとHugging Face Open LLM Leaderboardの実証結果について論じる。
関連論文リスト
- SePPO: Semi-Policy Preference Optimization for Diffusion Alignment [67.8738082040299]
本稿では、報酬モデルやペアの人間注釈データに頼ることなく、DMと好みを一致させる選好最適化手法を提案する。
テキスト・ツー・イメージとテキスト・ツー・ビデオのベンチマークでSePPOを検証する。
論文 参考訳(メタデータ) (2024-10-07T17:56:53Z) - Bridging and Modeling Correlations in Pairwise Data for Direct Preference Optimization [75.1240295759264]
本稿では,BMC という名前のペアデータにおけるブリッジ・アンド・モデリングの効果的なフレームワークを提案する。
目的の修正によって、ペアの選好信号の一貫性と情報性が向上する。
DPOだけではこれらの相関をモデル化し、ニュアンス付き変動を捉えるには不十分である。
論文 参考訳(メタデータ) (2024-08-14T11:29:47Z) - WARP: On the Benefits of Weight Averaged Rewarded Policies [66.95013068137115]
ウェイトアベレード・リワード・ポリシー(WARP)という新しいアライメント戦略を導入する。
WARPは重量空間のポリシーを3つの異なる段階でマージする。
GEMMAポリシによる実験では、WARPが品質とアライメントを改善し、他のオープンソースLLMよりも優れています。
論文 参考訳(メタデータ) (2024-06-24T16:24:34Z) - From $r$ to $Q^*$: Your Language Model is Secretly a Q-Function [50.812404038684505]
我々は,ベルマン方程式を満たす一般逆Q-ラーニングアルゴリズムとして,トークンレベルMDPのDPOを導出できることを示す。
本稿では,マルチターン対話における情報活用,推論,エージェント応用,マルチモデルシステムのエンドツーエンドトレーニングなど,我々の研究の応用について論じる。
論文 参考訳(メタデータ) (2024-04-18T17:37:02Z) - Nash Learning from Human Feedback [86.09617990412941]
ペアワイズフィードバックを用いた大規模言語モデルの微調整のための代替パイプラインを提案する。
我々はこのアプローチを人間のフィードバックからナッシュラーニング(NLHF)と呼ぶ。
ミラー降下原理に基づく新しいアルゴリズム解であるNash-MDを提案する。
論文 参考訳(メタデータ) (2023-12-01T19:26:23Z) - Provable Offline Preference-Based Reinforcement Learning [95.00042541409901]
本研究では,PbRL(Preference-based Reinforcement Learning)の問題について,人間のフィードバックを用いて検討する。
我々は、報酬が軌道全体にわたって定義できる一般的な報酬設定について考察する。
我々は, 軌道毎の集中性によって上界に拘束できる新しい単極集中係数を導入する。
論文 参考訳(メタデータ) (2023-05-24T07:11:26Z) - Hypothesis Transfer in Bandits by Weighted Models [8.759884299087835]
我々は,仮説伝達学習の設定において,文脈的マルチアームバンディットの問題を考える。
転送が望まれる場合に,古典的リニア UCB に対する後悔の軽減を示す再重み付け方式を示す。
さらに,この手法を任意の量のソースモデルに拡張し,各ステップでどのモデルが好まれるかをアルゴリズムが決定する。
論文 参考訳(メタデータ) (2022-11-14T14:13:02Z) - Improving Variational Autoencoders with Density Gap-based Regularization [16.770753948524167]
変分オートエンコーダ(VAE)は、潜時表現学習と潜時指向生成のためのNLPにおける強力な非教師なし学習フレームワークの1つである。
実際には、ELBoの最適化は、全ての試料の後方分布を同じ分解された局所最適値、すなわち後崩壊またはKL消滅に収束させる。
本稿では, 階層化後分布と先行分布との確率的密度ギャップに基づく新しい正規化により, 両問題に対処する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2022-11-01T08:17:10Z) - A Batch Normalized Inference Network Keeps the KL Vanishing Away [35.40781000297285]
変分オートエンコーダ(VAE)はモデルの後続変数を近似するために広く用いられている。
VAEはしばしば「後崩壊」と呼ばれる退化した局所最適値に収束する
論文 参考訳(メタデータ) (2020-04-27T05:20:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。