論文の概要: Scaling Laws for Forgetting When Fine-Tuning Large Language Models
- arxiv url: http://arxiv.org/abs/2401.05605v1
- Date: Thu, 11 Jan 2024 00:44:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-13 01:45:22.112221
- Title: Scaling Laws for Forgetting When Fine-Tuning Large Language Models
- Title(参考訳): 大規模言語モデルの微調整時の忘れ方に関するスケーリング則
- Authors: Damjan Kalajdzievski
- Abstract要約: ダウンストリームタスクにおいて,学習済みの大規模言語モデル(LLM)を微調整する場合の忘れる問題について検討し,定量化する。
パラメータ効率のよい細調整(PEFT)戦略であるLoRA(Lo-Rank Adapters)が,依然として破滅的な忘れ込みに悩まされていることがわかった。
- 参考スコア(独自算出の注目度): 0.7252027234425334
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study and quantify the problem of forgetting when fine-tuning pre-trained
large language models (LLMs) on a downstream task. We find that
parameter-efficient fine-tuning (PEFT) strategies, such as Low-Rank Adapters
(LoRA), still suffer from catastrophic forgetting. In particular, we identify a
strong inverse linear relationship between the fine-tuning performance and the
amount of forgetting when fine-tuning LLMs with LoRA. We further obtain precise
scaling laws that show forgetting increases as a shifted power law in the
number of parameters fine-tuned and the number of update steps. We also examine
the impact of forgetting on knowledge, reasoning, and the safety guardrails
trained into Llama 2 7B chat. Our study suggests that forgetting cannot be
avoided through early stopping or by varying the number of parameters
fine-tuned. We believe this opens up an important safety-critical direction for
future research to evaluate and develop fine-tuning schemes which mitigate
forgetting
- Abstract(参考訳): 我々は,下流タスクにおける事前学習型大規模言語モデル(llms)の微調整時の忘れ方について検討し,定量化する。
パラメータ効率のよい細調整(PEFT)戦略であるLoRA(Lo-Rank Adapters)が,依然として破滅的な忘れ込みに悩まされていることがわかった。
特に,LORAを用いた微調整LLMにおいて,微調整性能と忘れ量との強い逆線形関係を同定する。
さらに,パラメータの微調整数と更新ステップ数におけるパワー則のシフトとして,増加を忘れることを示す正確なスケーリング則を得る。
また,llama 2 7bチャットでトレーニングされた知識や推論,セーフティガードレールを忘れることの影響についても検討した。
本研究は,早期停止や微調整パラメータ数の変更により,忘れを回避できないことを示唆する。
これは、忘れを緩和する微調整スキームを評価・開発する将来の研究にとって重要な安全クリティカルな方向を開くと信じている。
関連論文リスト
- SaLoRA: Safety-Alignment Preserved Low-Rank Adaptation [41.91948079316541]
近年の研究では、LoRAの微調整が大きな言語モデルの安全性を損なう可能性があるという懸念が持ち上がっている。
本稿では,安全性に配慮した低ランク適応(SaLoRA)を提案する。
以前のLoRAメソッドやその派生型とは異なり、SaLoRAは本来のアライメントを中断することなく、LLMへのターゲット変更を可能にする。
実験の結果,SaLoRAは様々な微調整タスクにおいて,様々な評価指標のアダプタベースのアプローチよりも優れていることがわかった。
論文 参考訳(メタデータ) (2025-01-03T11:34:28Z) - Randomized Asymmetric Chain of LoRA: The First Meaningful Theoretical Framework for Low-Rank Adaptation [58.288682735160585]
Low-Rank Adaptation (LoRA) は、ファインチューニングモデルの一般的なテクニックである。
LoRAは、フルパラメータの微調整と比較すると、しばしば実行されます。
本稿では,LoRA手法の適応率を厳密に分析するフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-10T18:51:53Z) - LoRA$^2$ : Multi-Scale Low-Rank Approximations for Fine-Tuning Large Language Models [3.7049613588433497]
Low-Rank Adaptation (LoRA)は、微調整のためのトレーニング可能なパラメータの数を著しく削減する。
LoRAを複数のスケールに拡張し、LoRA$2$と名付けます。
論文 参考訳(メタデータ) (2024-08-13T12:31:30Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - LoftQ: LoRA-Fine-Tuning-Aware Quantization for Large Language Models [104.23434818428062]
我々は、事前訓練されたモデルに量子化とLoRA微調整を併用するシナリオに焦点を当てる。
本稿では,新しい量子化フレームワークであるLoftQ(LoRA-Fine-Tuning-Aware Quantization)を提案する。
実験の結果,本手法は有効であり,既存の量子化法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-12T18:34:08Z) - AdaLoRA: Adaptive Budget Allocation for Parameter-Efficient Fine-Tuning [143.23123791557245]
下流タスクで訓練済みの大規模言語モデルを微調整することは、NLPにおいて重要なパラダイムとなっている。
重み行列のパラメータ予算をその重要度に応じて適応的に割り当てるAdaLoRAを提案する。
我々は,AdaLoRAの有効性を検証するために,自然言語処理,質問応答,自然言語生成に関する事前学習モデルを用いた広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-03-18T22:36:25Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。