論文の概要: On Reinforcement Learning and Distribution Matching for Fine-Tuning
Language Models with no Catastrophic Forgetting
- arxiv url: http://arxiv.org/abs/2206.00761v1
- Date: Wed, 1 Jun 2022 20:54:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-03 12:58:40.484406
- Title: On Reinforcement Learning and Distribution Matching for Fine-Tuning
Language Models with no Catastrophic Forgetting
- Title(参考訳): 破滅的予測のない微調整言語モデルの強化学習と分布マッチングについて
- Authors: Tomasz Korbak and Hady Elsahar and Germ\'an Kruszewski and Marc
Dymetman
- Abstract要約: Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。
RM用に開発されたKL制御などの手法も,DMに属するものと解釈できることを示す。
2つのパラダイム間の接続を利用して、ベースラインの概念をDMメソッドにインポートします。
- 参考スコア(独自算出の注目度): 5.5302127686575435
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The availability of large pre-trained models is changing the landscape of
Machine Learning research and practice, moving from a training-from-scratch to
a fine-tuning paradigm. While in some applications the goal is to "nudge" the
pre-trained distribution towards preferred outputs, in others it is to steer it
towards a different distribution over the sample space. Two main paradigms have
emerged to tackle this challenge: Reward Maximization (RM) and, more recently,
Distribution Matching (DM). RM applies standard Reinforcement Learning (RL)
techniques, such as Policy Gradients, to gradually increase the reward signal.
DM prescribes to first make explicit the target distribution that the model is
fine-tuned to approximate. Here we explore the theoretical connections between
the two paradigms, and show that methods such as KL-control developed for RM
can also be construed as belonging to DM. We further observe that while DM
differs from RM, it can suffer from similar training difficulties, such as high
gradient variance. We leverage connections between the two paradigms to import
the concept of baseline into DM methods. We empirically validate the benefits
of adding a baseline on an array of controllable language generation tasks such
as constraining topic, sentiment, and gender distributions in texts sampled
from a language model. We observe superior performance in terms of constraint
satisfaction, stability and sample efficiency.
- Abstract(参考訳): 大規模な事前学習モデルの可用性は、トレーニングからスクラッチから微調整パラダイムへと移行した、マシンラーニングの研究と実践の状況を変えつつある。
あるアプリケーションでは、事前訓練された分布を望ましい出力に"nudge"することを目的としているが、別のアプリケーションではサンプル空間上の別の分布に"nudge"することを目標としている。
Reward Maximization (RM) と、最近では Distribution Matching (DM) の2つのパラダイムがこの課題に取り組むために登場した。
RMは、ポリシーグラディエントのような標準強化学習(RL)技術を適用し、報酬信号を徐々に増加させる。
DMはまず、モデルが近似するように微調整されたターゲット分布を明示する。
ここでは、2つのパラダイム間の理論的関係を考察し、RMのために開発されたKL制御のような手法もDMに属するものと解釈できることを示す。
さらに, DMはRMと異なるが, 高勾配分散などの類似の訓練困難に悩まされることが観察された。
2つのパラダイム間の接続を利用してベースラインの概念をDMメソッドにインポートする。
言語モデルからサンプリングされたテキストにトピックや感情、性別分布を制約するなど、一連の制御可能な言語生成タスクにベースラインを追加することのメリットを実証的に検証する。
我々は,制約満足度,安定性,サンプル効率の観点から優れた性能を観察する。
関連論文リスト
- Diffusing States and Matching Scores: A New Framework for Imitation Learning [16.941612670582522]
敵対的模倣学習は伝統的に、学習者と敵対的に選択されたコスト関数の間の2つのプレイヤーゼロサムゲームとしてフレーム化されている。
近年、拡散モデルはGANの非敵対的な代替品として出現している。
提案手法は, 様々な連続制御問題に対して, GANスタイルの模倣学習ベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2024-10-17T17:59:25Z) - Efficient Distribution Matching of Representations via Noise-Injected Deep InfoMax [73.03684002513218]
我々はDeep InfoMax(DIM)を拡張し、学習した表現を選択された事前分布に自動マッチングできるようにする。
このような修正により、一様かつ通常に分散した表現を学習できることを示す。
その結果,下流作業における性能とDMの品質の中間的なトレードオフが示唆された。
論文 参考訳(メタデータ) (2024-10-09T15:40:04Z) - Enhancing Knowledge Distillation of Large Language Models through Efficient Multi-Modal Distribution Alignment [10.104085497265004]
本稿では,教師モデルと学生モデルとのピーク予測の整合性を促進するために,ランキング損失に基づく知識蒸留(RLKD)を提案する。
提案手法は,教師モデルのマルチモーダル分布をよりよく学習し,様々な下流タスクにおいて顕著な性能向上をもたらす。
論文 参考訳(メタデータ) (2024-09-19T08:06:42Z) - MetaRM: Shifted Distributions Alignment via Meta-Learning [52.94381279744458]
言語モデルアライメントにおけるヒューマンフィードバック(RLHF)からの強化学習は、報酬モデル(RM)の能力に依存している
メタラーニングを利用したメタRMを導入し,その環境分布とRMを整合させる手法を提案する。
大規模な実験により、MetaRMは反復RLHF最適化におけるRMの識別能力を大幅に改善することが示された。
論文 参考訳(メタデータ) (2024-05-01T10:43:55Z) - A Distributional Analogue to the Successor Representation [54.99439648059807]
本稿では,分散強化学習のための新しい手法を提案する。
学習プロセスにおける遷移構造と報酬のクリーンな分離を解明する。
実例として,ゼロショットリスクに敏感な政策評価が可能であることを示す。
論文 参考訳(メタデータ) (2024-02-13T15:35:24Z) - Diff-Instruct: A Universal Approach for Transferring Knowledge From
Pre-trained Diffusion Models [77.83923746319498]
本稿では,任意の生成モデルの学習を指導するDiff-Instructというフレームワークを提案する。
Diff-Instructは、最先端の単一ステップ拡散モデルであることを示す。
GANモデルの精製実験により、Diff-InstructはGANモデルの事前訓練されたジェネレータを一貫して改善できることが示されている。
論文 参考訳(メタデータ) (2023-05-29T04:22:57Z) - Distributionally Robust Models with Parametric Likelihood Ratios [123.05074253513935]
3つの単純なアイデアにより、より広いパラメトリックな確率比のクラスを用いてDROでモデルを訓練することができる。
パラメトリック逆数を用いてトレーニングしたモデルは、他のDROアプローチと比較して、サブポピュレーションシフトに対して一貫して頑健であることがわかった。
論文 参考訳(メタデータ) (2022-04-13T12:43:12Z) - A Distributional Approach to Controlled Text Generation [3.279201607581627]
予め訓練された言語モデル(LM)から制御されたテキスト生成に対処するための分布的アプローチを提案する。
このビューでは、単一の形式的なフレームワークで、ターゲット lm 上で "pointwise" と "distributional" の制約を定義することができる。
次に,我々のアプローチのユニークな特徴である分布制約に関する実験を行い,言語モデルにおけるバイアス問題に対する対策としての可能性を示す。
論文 参考訳(メタデータ) (2020-12-21T19:02:41Z) - Unsupervised Paraphrasing with Pretrained Language Models [85.03373221588707]
教師なし環境で,事前学習した言語モデルを用いて高品質なパラフレーズを生成する訓練パイプラインを提案する。
提案手法は,タスク適応,自己スーパービジョン,動的ブロッキング(Dynamic Blocking)という新しい復号アルゴリズムから構成される。
提案手法は,Quora Question PairとParaNMTの両方のデータセット上で,最先端の性能を達成できることを示す。
論文 参考訳(メタデータ) (2020-10-24T11:55:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。