論文の概要: Revolutionizing Large Language Model Training through Dynamic Parameter Adjustment
- arxiv url: http://arxiv.org/abs/2406.06564v1
- Date: Mon, 3 Jun 2024 05:40:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-17 00:11:14.441535
- Title: Revolutionizing Large Language Model Training through Dynamic Parameter Adjustment
- Title(参考訳): 動的パラメータ調整による大規模言語モデル学習の革新
- Authors: Kaiye Zhou, Shucheng Wang,
- Abstract要約: 本稿では、パラメータのトレーニング可能な部分を頻繁に変更し、効果的な事前学習を容易にする新しいパラメータ効率トレーニング手法を提案する。
本手法は,事前学習期間中に,現在のパラメータ効率アルゴリズムに匹敵するメモリ削減と計算オーバーヘッドを実現する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the era of large language models, the demand for efficient use of computational resources has become critically important. Although parameter-efficient fine-tuning techniques have achieved results comparable to full fine-tuning, their application during the pre-training phase poses significant challenges. Specifically, employing parameter-efficient strategies at the onset of pre-training can severely compromise efficiency, especially in larger models. In this paper, building upon the fine-tuning method LoRA, we introduce a novel parameter-efficient training technique that frequently alters trainable part of parameters, facilitating effective pre-training. Our method not only achieves memory reductions and computational overhead comparable to current state-of-the-art parameter-efficient algorithms during the pre-training phase but also maintains accuracy levels comparable to those of full pre-training. We provide both theoretical analyses and empirical evidence to demonstrate the effectiveness of our approach.
- Abstract(参考訳): 大規模言語モデルの時代になると、計算資源の効率的な利用への需要が重要になってきている。
パラメータ効率のよい微調整技術は完全な微調整に匹敵する結果を得たが、事前学習フェーズでの応用は大きな課題を生んでいる。
具体的には、特に大規模モデルにおいて、事前学習の開始時にパラメータ効率の戦略を採用することは、効率を著しく損なう可能性がある。
本稿では,パラメータのトレーニング可能な部分を頻繁に変更し,効果的な事前学習を容易にする新しいパラメータ効率訓練手法を提案する。
提案手法は, 事前学習段階における現在最先端パラメータ効率アルゴリズムに匹敵するメモリ削減と計算オーバーヘッドを達成するだけでなく, 完全事前学習段階に匹敵する精度も維持する。
提案手法の有効性を実証するために,理論的解析と実証的証拠の両方を提供する。
関連論文リスト
- PC-LoRA: Low-Rank Adaptation for Progressive Model Compression with Knowledge Distillation [9.445321300673909]
ローランク適応(ローランク適応、LoRA)は、微調整のために凍結した事前学習重量に少数の学習可能なパラメータを付加する顕著な手法である。
本稿では,モデル圧縮と微調整を同時に行うProgressive Compression LoRA(PC-LoRA)を紹介する。
論文 参考訳(メタデータ) (2024-06-13T13:44:31Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - MELoRA: Mini-Ensemble Low-Rank Adapters for Parameter-Efficient Fine-Tuning [71.50432879573614]
低ランク適応 (LoRA) は、適応過程が本質的に低次元であるという考えに基づいている。
我々は、より高階を維持しながらトレーニング可能なパラメータを少なくするミニアンサンブルな低ランクアダプタMELoRAを提案する。
実験結果から, 自然言語理解タスクの8倍のトレーニングパラメータ, 続くタスクの36倍のトレーニングパラメータが得られた。
論文 参考訳(メタデータ) (2024-02-27T07:14:12Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - Riemannian Preconditioned LoRA for Fine-Tuning Foundation Models [45.72323731094864]
Low-Rank Adaptation (LoRA) は、パラメータ効率のよい微細チューニング(PEFT)法として人気がある。
本研究では,各勾配ステップに$r倍r$プレコンディショナーを導入することにより,LoRAトレーニングの強化について検討する。
論文 参考訳(メタデータ) (2024-02-04T05:05:43Z) - Run LoRA Run: Faster and Lighter LoRA Implementations [50.347242693025336]
LoRAは、線形層に低ランクアダプタを導入することにより、ニューラルネットワーク内のトレーニング可能なパラメータの数を減らすテクニックである。
本稿では,LoRAの効率的な実装のためのRunLoRAフレームワークを提案する。
実験は、言語モデリングネットワーク上で最大28%のスピードアップを示す。
論文 参考訳(メタデータ) (2023-12-06T10:54:34Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - ReLoRA: High-Rank Training Through Low-Rank Updates [14.606961537327345]
本稿では、低ランク更新を利用して高ランクネットワークをトレーニングするReLoRAという新しい手法を提案する。
ReLoRAはGPU当たり最大5.5GbのRAMを節約し、モデルサイズとハードウェア設定に応じてトレーニング速度を9~40%改善する。
論文 参考訳(メタデータ) (2023-07-11T18:02:09Z) - LoRA: Low-Rank Adaptation of Large Language Models [71.75808607987281]
Low-Rank Adaptation (LoRA)はトレーニング済みモデルの重みを凍結し、トレーニング可能な階数分解をTransformerアーキテクチャの各層に注入する。
GPT-3では、LoRAはトレーニング可能なパラメータの数を1万倍に減らし、計算ハードウェアの要求をフル微調整の3倍に削減できる。
論文 参考訳(メタデータ) (2021-06-17T17:37:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。