論文の概要: Exploring the impact of low-rank adaptation on the performance,
efficiency, and regularization of RLHF
- arxiv url: http://arxiv.org/abs/2309.09055v1
- Date: Sat, 16 Sep 2023 17:31:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-19 17:43:57.509459
- Title: Exploring the impact of low-rank adaptation on the performance,
efficiency, and regularization of RLHF
- Title(参考訳): 低ランク適応がRLHFの性能, 効率, 正規化に及ぼす影響について
- Authors: Simeng Sun, Dhawal Gupta, Mohit Iyyer
- Abstract要約: 低ランク適応(LoRA)を用いたRLHFの効率的な実装について検討する。
本実装は,フルモデル微調整によるAlpacaFarmチェックポイントよりも優れた性能を実現する。
我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
- 参考スコア(独自算出の注目度): 47.960563851948514
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: During the last stage of RLHF, a large language model is aligned to human
intents via PPO training, a process that generally requires large-scale
computational resources. In this technical report, we empirically investigate
an efficient implementation of RLHF using low-rank adaptation (LoRA), which
allows us to align the LLaMA 7B checkpoint on the Alpaca dataset using only two
A100 GPUs instead of the eight required for full model fine-tuning. Despite
tuning only 0.2% of LLaMA 7B's parameters, our implementation achieves better
performance than the publicly-released AlpacaFarm checkpoint with full model
fine-tuning. Next, we analyze several configurations of our LoRA-based PPO
implementation, varying the form of the KL regularization term in the training
objective. We find that (1) removing this penalty term does not harm
performance on the AlpacaFarm evaluation set under our LoRA setup; (2) other
regularizers, such as Jensen-Shannon divergence, lead to improved performance;
and (3) while PPO training negatively impacts the factuality of model-generated
responses, training with LoRA largely mitigates this effect. We release our
code and pretrained checkpoints to facilitate future research on more efficient
RLHF.
- Abstract(参考訳): RLHFの最終段階では、大規模な言語モデルは、大規模な計算資源を必要とするプロセスであるPPOトレーニングを通じて人間の意図に一致している。
本稿では,低ランク適応(LoRA)を用いたRLHFの効率的な実装を実証的に検討し,フルモデル微調整に必要な8つのA100 GPUの代わりに2つのA100 GPUのみを用いて,Alpacaデータセット上のLLaMA 7Bチェックポイントの整列を可能にする。
llama 7b のパラメータの 0.2% しかチューニングしていないが、フルモデルの微調整によるalpacafarm チェックポイントよりも優れた性能を実現している。
次に、LoRAベースのPPO実装のいくつかの構成を分析し、トレーニング目的におけるKL正規化項の形式を変化させる。
その結果,(1)このペナルティ項の除去は,lora設定のalpacafarm評価における性能に影響を与えない,(2)jensen-shannon divergenceのような他の正規化剤は性能向上につながり,(3)ppoトレーニングはモデル生成応答の事実性に悪影響を及ぼすが,loraのトレーニングはこの効果をほとんど軽減することがわかった。
我々は、より効率的なRLHFの研究を促進するために、コードと事前訓練されたチェックポイントをリリースする。
関連論文リスト
- Less is More: Extreme Gradient Boost Rank-1 Adaption for Efficient Finetuning of LLMs [75.11449420928139]
微調整型大規模言語モデル(LLM)は、訓練済みモデルを下流タスクに適応させる上で重要な技術となっている。
Low-Rank Adaptation (LoRA) は有望な解決法として登場したが、低ランク適応の実用性能と理論的最適性の間にはギャップがある。
本稿では,このギャップを埋める新しいフレームワークであるeXtreme Gradient Boosting LoRAを提案する。
論文 参考訳(メタデータ) (2024-10-25T17:07:13Z) - Rapid Adaptation of Earth Observation Foundation Models for Segmentation [1.3654846342364308]
ローランド適応(LoRA)は、洪水セグメンテーションのための地球観測(EO)基礎モデルに使用できる。
LoRAは凍結エンコーダベースラインに比べてF1スコアを6.66ポイント、IoUを0.11ポイント改善する。
論文 参考訳(メタデータ) (2024-09-16T00:42:45Z) - ALoRA: Allocating Low-Rank Adaptation for Fine-tuning Large Language Models [8.251547772610301]
低ランク適応 (LoRA) の方法論を、低ランク適応 (AloRA) と呼ぶ革新的なアプローチに拡張する。
まず,各ランクの重要度を効果的に推定できる新しい手法であるAB-LoRAを提案する。
第2に、AB-LoRAによって導かれ、我々は徐々にLoRAのランクに多く負の影響を及ぼし、高いランクを必要とする重要なトランスフォーマーモジュールにローラの予算を割り当てる。
論文 参考訳(メタデータ) (2024-03-24T15:09:55Z) - Parameter Efficient Reinforcement Learning from Human Feedback [27.687265760622918]
人間のフィードバックからの強化学習(RLHF)は、事前訓練された大言語と視覚言語モデルと人間の嗜好を効果的に一致させる。
微調整の計算負担を軽減するため、LoRAのような効率的な手法が導入された。
PE-RLHFセットアップを、要約、無害/重厚な応答生成、UI自動化、視覚的質問応答にまたがる6つの多様なデータセットでベンチマークする。
論文 参考訳(メタデータ) (2024-03-15T21:43:46Z) - PRILoRA: Pruned and Rank-Increasing Low-Rank Adaptation [65.268245109828]
我々はPRILoRAを導入し、各層ごとに異なるランクを線形に割り当て、トレーニングプロセスを通してプルーニングを行う。
8つのGLUEベンチマークで広範な実験を行い,PRILoRAの有効性を検証する。
論文 参考訳(メタデータ) (2024-01-20T20:25:17Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Efficient RLHF: Reducing the Memory Usage of PPO [61.45357428856269]
本稿では,PPOのためのメモリセーブ技術におけるメモリ使用量,性能,トレーニング時間を総合的に分析する。
まず、SFTモデルとRewardモデルを統合し、訓練中にLoRAを動的にオフにすることで、Hydra-RLHFを導入する。
以上の結果から,Hydra-PPOはRLHFをより広く活用するためのシンプルで有望なソリューションであることが示された。
論文 参考訳(メタデータ) (2023-09-01T22:57:20Z) - Direct Preference Optimization: Your Language Model is Secretly a Reward Model [119.65409513119963]
本稿では,RLHFにおける報酬モデルの新たなパラメータ化について紹介する。
DPO(Direct Preference Optimization)と呼ばれる結果のアルゴリズムは、安定的で、性能が高く、計算的にも軽量である。
我々の実験は、DPOが人間の好みに合わせて微調整できるだけでなく、既存の方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-29T17:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。