論文の概要: Exploring the impact of low-rank adaptation on the performance,
efficiency, and regularization of RLHF
- arxiv url: http://arxiv.org/abs/2309.09055v1
- Date: Sat, 16 Sep 2023 17:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 17:43:57.509459
- Title: Exploring the impact of low-rank adaptation on the performance,
efficiency, and regularization of RLHF
- Title(参考訳): 低ランク適応がRLHFの性能, 効率, 正規化に及ぼす影響について
- Authors: Simeng Sun, Dhawal Gupta, Mohit Iyyer
- Abstract要約: 低ランク適応(LoRA)を用いたRLHFの効率的な実装について検討する。
本実装は,フルモデル微調整によるAlpacaFarmチェックポイントよりも優れた性能を実現する。
我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
- 参考スコア(独自算出の注目度): 47.960563851948514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the last stage of RLHF, a large language model is aligned to human
intents via PPO training, a process that generally requires large-scale
computational resources. In this technical report, we empirically investigate
an efficient implementation of RLHF using low-rank adaptation (LoRA), which
allows us to align the LLaMA 7B checkpoint on the Alpaca dataset using only two
A100 GPUs instead of the eight required for full model fine-tuning. Despite
tuning only 0.2% of LLaMA 7B's parameters, our implementation achieves better
performance than the publicly-released AlpacaFarm checkpoint with full model
fine-tuning. Next, we analyze several configurations of our LoRA-based PPO
implementation, varying the form of the KL regularization term in the training
objective. We find that (1) removing this penalty term does not harm
performance on the AlpacaFarm evaluation set under our LoRA setup; (2) other
regularizers, such as Jensen-Shannon divergence, lead to improved performance;
and (3) while PPO training negatively impacts the factuality of model-generated
responses, training with LoRA largely mitigates this effect. We release our
code and pretrained checkpoints to facilitate future research on more efficient
RLHF.
- Abstract(参考訳): RLHFの最終段階では、大規模な言語モデルは、大規模な計算資源を必要とするプロセスであるPPOトレーニングを通じて人間の意図に一致している。
本稿では,低ランク適応(LoRA)を用いたRLHFの効率的な実装を実証的に検討し,フルモデル微調整に必要な8つのA100 GPUの代わりに2つのA100 GPUのみを用いて,Alpacaデータセット上のLLaMA 7Bチェックポイントの整列を可能にする。
llama 7b のパラメータの 0.2% しかチューニングしていないが、フルモデルの微調整によるalpacafarm チェックポイントよりも優れた性能を実現している。
次に、LoRAベースのPPO実装のいくつかの構成を分析し、トレーニング目的におけるKL正規化項の形式を変化させる。
その結果,(1)このペナルティ項の除去は,lora設定のalpacafarm評価における性能に影響を与えない,(2)jensen-shannon divergenceのような他の正規化剤は性能向上につながり,(3)ppoトレーニングはモデル生成応答の事実性に悪影響を及ぼすが,loraのトレーニングはこの効果をほとんど軽減することがわかった。
我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
関連論文リスト
- PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Uncertainty-Penalized Reinforcement Learning from Human Feedback with
Diverse Reward LoRA Ensembles [26.955375398765085]
人間のフィードバックからの強化学習(RLHF)は、大規模言語モデル(LLM)の整合性のための有望なパラダイムとして出現する。
本稿では,既存のRLHF法でよく用いられるKL正則化の弱点を観察し,過度な最適化に対処する。
本稿では,RLファインタニング中の不確実性正則化を取り入れた不確実性補償RLHF(UP-RLHF)を提案する。
論文 参考訳(メタデータ) (2023-12-30T14:14:14Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [55.00074572087611]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Mitigating the Alignment Tax of RLHF [77.7879015461373]
人間フィードバックによる強化学習(Reinforcement Learning with Human Feedback, RLHF)は、アライメント税(アライメント税)としても知られる。
本稿では,RLHFモデル重みを補間するモデル平均化を提案し,より効率的な報酬税前処理を実現する。
論文 参考訳(メタデータ) (2023-09-12T14:16:54Z) - Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。
まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。
以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文 参考訳(メタデータ) (2023-09-01T22:57:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。