論文の概要: Fast Forwarding Low-Rank Training
- arxiv url: http://arxiv.org/abs/2409.04206v1
- Date: Fri, 6 Sep 2024 11:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:55:18.176149
- Title: Fast Forwarding Low-Rank Training
- Title(参考訳): 高速フォワード低ランクトレーニング
- Authors: Adir Rahamim, Naomi Saphra, Sara Kangaslahti, Yonatan Belinkov,
- Abstract要約: 我々は,大規模なトレーニングセグメントを高速化するためのシンプルで効果的なアプローチであるFast Forwardを提案する。
通常の最適化ステップとFast Forwardステージの交互に、Fast Forwardは最大87%のFLOPを削減できる。
我々は、様々なタスクで様々なモデルを微調整することで、Fast Forwardを検証するとともに、モデル性能を損なうことなく、トレーニングのスピードアップを実証する。
- 参考スコア(独自算出の注目度): 35.59960107598672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter efficient finetuning methods like low-rank adaptation (LoRA) aim to reduce the computational costs of finetuning pretrained Language Models (LMs). Enabled by these low-rank settings, we propose an even more efficient optimization strategy: Fast Forward, a simple and effective approach to accelerate large segments of training. In a Fast Forward stage, we repeat the most recent optimizer step until the loss stops improving on a tiny validation set. By alternating between regular optimization steps and Fast Forward stages, Fast Forward provides up to an 87\% reduction in FLOPs and up to an 81\% reduction in train time over standard SGD with Adam. We validate Fast Forward by finetuning various models on different tasks and demonstrate that it speeds up training without compromising model performance. Additionally, we analyze when and how to apply Fast Forward.
- Abstract(参考訳): 低ランク適応(LoRA)のようなパラメータ効率の良い微調整手法は、事前訓練された言語モデル(LM)を微調整する際の計算コストを削減することを目的としている。
これらの低ランク設定によって実現され、より効率的な最適化戦略が提案される: Fast Forward、大規模なトレーニングセグメントを高速化するためのシンプルで効果的なアプローチ。
Fast Forwardの段階では、損失が小さな検証セットで改善されなくなるまで、最新のオプティマイザステップを繰り返す。
通常の最適化段階とファストフォワード段階を交互に行うことで、Fast ForwardはFLOPの87倍の削減と、Adamとの標準SGDよりも81倍の短縮を実現している。
我々は、様々なタスクで様々なモデルを微調整することで、Fast Forwardを検証するとともに、モデル性能を損なうことなく、トレーニングのスピードアップを実証する。
さらに、Fast Forwardをいつ、どのように適用するかを分析します。
関連論文リスト
- APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference [63.52244442498831]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - Sparse Low-rank Adaptation of Pre-trained Language Models [79.74094517030035]
本稿では,適応過程における固有ランクの動的調整を可能にする疎低ランク適応(SoRA)を提案する。
提案手法は,LoRAを高いランクで初期化すると同時に,一時的に増大するパラメータを効率的に利用することにより,LoRAの表現力を向上する。
実験の結果,SoRAは70%の保持パラメータと70%のトレーニング時間でも,他のベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-11-20T11:56:25Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - ScaLA: Accelerating Adaptation of Pre-Trained Transformer-Based Language
Models via Efficient Large-Batch Adversarial Noise [20.779167087445995]
事前訓練されたトランスフォーマーベースの言語モデルは、多くの自然言語理解タスクにおいて劇的に改善されている。
ScaLAは変圧器ネットワークの高速化のための,新規かつ効率的な手法である。
実験の結果、ScaLAはBERTベースのRoBERTa-large上でGLLAのベースライン上で2.7-UE-9.8$times$アダプティブ・スピードアップを達成した。
論文 参考訳(メタデータ) (2022-01-29T01:47:01Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - Training Aware Sigmoidal Optimizer [2.99368851209995]
Aware Sigmoidal関数をトレーニングすると、ローカルミニマよりもはるかにサドルロスの風景が表示されます。
本研究では,2相自動学習率スケジュールからなるTASO(Training Aware Sigmoidal Function)を提案する。
提案手法をAdam、RMS、Adagradなどの一般的な適応学習率スケジュールと比較した。
論文 参考訳(メタデータ) (2021-02-17T12:00:46Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。