論文の概要: Vanishing Gradients in Reinforcement Finetuning of Language Models
- arxiv url: http://arxiv.org/abs/2310.20703v1
- Date: Tue, 31 Oct 2023 17:59:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-01 13:39:07.015408
- Title: Vanishing Gradients in Reinforcement Finetuning of Language Models
- Title(参考訳): 言語モデルの強化微調整における消失勾配
- Authors: Noam Razin, Hattie Zhou, Omid Saremi, Vimal Thilak, Arwen Bradley,
Preetum Nakkiran, Joshua Susskind, Etai Littwin
- Abstract要約: 強化微調整(RFT)は、ポリシーアルゴリズムを用いて報酬関数を最大化する。
モデル下での報酬標準偏差が小さい場合,入力に対する期待勾配が消えることを示す。
- 参考スコア(独自算出の注目度): 15.386085876488456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pretrained language models are commonly aligned with human preferences and
downstream tasks via reinforcement finetuning (RFT), which entails maximizing a
(possibly learned) reward function using policy gradient algorithms. This work
highlights a fundamental optimization obstacle in RFT: we prove that the
expected gradient for an input vanishes when its reward standard deviation
under the model is small, even if the expected reward is far from optimal.
Through experiments on an RFT benchmark and controlled environments, as well as
a theoretical analysis, we then demonstrate that vanishing gradients due to
small reward standard deviation are prevalent and detrimental, leading to
extremely slow reward maximization. Lastly, we explore ways to overcome
vanishing gradients in RFT. We find the common practice of an initial
supervised finetuning (SFT) phase to be the most promising candidate, which
sheds light on its importance in an RFT pipeline. Moreover, we show that a
relatively small number of SFT optimization steps on as few as 1% of the input
samples can suffice, indicating that the initial SFT phase need not be
expensive in terms of compute and data labeling efforts. Overall, our results
emphasize that being mindful for inputs whose expected gradient vanishes, as
measured by the reward standard deviation, is crucial for successful execution
of RFT.
- Abstract(参考訳): 事前訓練された言語モデルは、ポリシー勾配アルゴリズムを用いて(おそらく学習された)報酬関数を最大化する強化微調整(RFT)によって、人間の好みや下流タスクに合わせるのが一般的である。
この研究は、RFTにおける基本的な最適化の障害を浮き彫りにしている: モデルの下での報酬標準偏差が小さくても、入力の期待勾配が消えることを証明する。
RFTベンチマークと制御された環境の実験、および理論的解析を通じて、小さな報酬標準偏差による失効勾配が一般的かつ有害であることを示し、非常に低い報酬最大化をもたらす。
最後に、RFTにおける消滅する勾配を克服する方法を検討する。
我々は,初期教師付き微調整(SFT)フェーズが最も有望な候補であることに気付き,RFTパイプラインにおけるその重要性に光を当てる。
さらに,入力サンプルの1%に留まらず,比較的少数のSFT最適化ステップが十分であることを示すとともに,初期SFTフェーズは計算やデータラベリングにおいて高価でなくてもよいことを示す。
以上の結果から,評価基準偏差によって期待される勾配が消える入力に対して注意が必要であることが,RTTの実行を成功させる上で重要であることが示唆された。
関連論文リスト
- Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Efficient Gradient Estimation via Adaptive Sampling and Importance
Sampling [34.50693643119071]
適応的あるいは重要なサンプリングは、勾配推定におけるノイズを低減する。
本稿では,既存の重要関数をフレームワークに組み込むアルゴリズムを提案する。
計算オーバーヘッドを最小限に抑えた分類・回帰タスクにおける収束性の改善を観察する。
論文 参考訳(メタデータ) (2023-11-24T13:21:35Z) - Model-Based Reparameterization Policy Gradient Methods: Theory and
Practical Algorithms [88.74308282658133]
Reization (RP) Policy Gradient Methods (PGM) は、ロボット工学やコンピュータグラフィックスにおける連続的な制御タスクに広く採用されている。
近年の研究では、長期強化学習問題に適用した場合、モデルベースRP PGMはカオス的かつ非滑らかな最適化環境を経験する可能性があることが示されている。
本稿では,長期モデルアンロールによる爆発的分散問題を緩和するスペクトル正規化法を提案する。
論文 参考訳(メタデータ) (2023-10-30T18:43:21Z) - Neural Gradient Learning and Optimization for Oriented Point Normal
Estimation [53.611206368815125]
本研究では,3次元点雲から勾配ベクトルを一貫した向きで学習し,正規推定を行うためのディープラーニング手法を提案する。
局所平面幾何に基づいて角距離場を学習し、粗勾配ベクトルを洗練する。
本手法は,局所特徴記述の精度と能力の一般化を図りながら,グローバル勾配近似を効率的に行う。
論文 参考訳(メタデータ) (2023-09-17T08:35:11Z) - Unbiased Gradient Estimation for Distributionally Robust Learning [2.1777837784979277]
分散的に堅牢な学習(DRL)に基づく新しいアプローチを検討し、内部問題に勾配降下を適用します。
本アルゴリズムはマルチレベルモンテカルロランダム化により勾配勾配を効率的に推定する。
論文 参考訳(メタデータ) (2020-12-22T21:35:03Z) - Zeroth-Order Hybrid Gradient Descent: Towards A Principled Black-Box
Optimization Framework [100.36569795440889]
この作業は、一階情報を必要としない零次最適化(ZO)の反復である。
座標重要度サンプリングにおける優雅な設計により,ZO最適化法は複雑度と関数クエリコストの両面において効率的であることを示す。
論文 参考訳(メタデータ) (2020-12-21T17:29:58Z) - Adaptive Gradient Methods Can Be Provably Faster than SGD after Finite
Epochs [25.158203665218164]
適応勾配法は有限時間後にランダムシャッフルSGDよりも高速であることを示す。
我々の知る限り、適応的勾配法は有限時間後にSGDよりも高速であることを示すのはこれが初めてである。
論文 参考訳(メタデータ) (2020-06-12T09:39:47Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z) - On the Convergence Rate of Projected Gradient Descent for a
Back-Projection based Objective [58.33065918353532]
我々は、最小二乗(LS)の代替として、バックプロジェクションに基づく忠実度項を考える。
LS項ではなくBP項を用いることで最適化アルゴリズムの繰り返しを少なくすることを示す。
論文 参考訳(メタデータ) (2020-05-03T00:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。