論文の概要: Fast Forwarding Low-Rank Training
- arxiv url: http://arxiv.org/abs/2409.04206v1
- Date: Fri, 6 Sep 2024 11:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:55:18.176149
- Title: Fast Forwarding Low-Rank Training
- Title(参考訳): 高速フォワード低ランクトレーニング
- Authors: Adir Rahamim, Naomi Saphra, Sara Kangaslahti, Yonatan Belinkov,
- Abstract要約: 我々は,大規模なトレーニングセグメントを高速化するためのシンプルで効果的なアプローチであるFast Forwardを提案する。
通常の最適化ステップとFast Forwardステージの交互に、Fast Forwardは最大87%のFLOPを削減できる。
我々は、様々なタスクで様々なモデルを微調整することで、Fast Forwardを検証するとともに、モデル性能を損なうことなく、トレーニングのスピードアップを実証する。
- 参考スコア(独自算出の注目度): 35.59960107598672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter efficient finetuning methods like low-rank adaptation (LoRA) aim to reduce the computational costs of finetuning pretrained Language Models (LMs). Enabled by these low-rank settings, we propose an even more efficient optimization strategy: Fast Forward, a simple and effective approach to accelerate large segments of training. In a Fast Forward stage, we repeat the most recent optimizer step until the loss stops improving on a tiny validation set. By alternating between regular optimization steps and Fast Forward stages, Fast Forward provides up to an 87\% reduction in FLOPs and up to an 81\% reduction in train time over standard SGD with Adam. We validate Fast Forward by finetuning various models on different tasks and demonstrate that it speeds up training without compromising model performance. Additionally, we analyze when and how to apply Fast Forward.
- Abstract(参考訳): 低ランク適応(LoRA)のようなパラメータ効率の良い微調整手法は、事前訓練された言語モデル(LM)を微調整する際の計算コストを削減することを目的としている。
これらの低ランク設定によって実現され、より効率的な最適化戦略が提案される: Fast Forward、大規模なトレーニングセグメントを高速化するためのシンプルで効果的なアプローチ。
Fast Forwardの段階では、損失が小さな検証セットで改善されなくなるまで、最新のオプティマイザステップを繰り返す。
通常の最適化段階とファストフォワード段階を交互に行うことで、Fast ForwardはFLOPの87倍の削減と、Adamとの標準SGDよりも81倍の短縮を実現している。
我々は、様々なタスクで様々なモデルを微調整することで、Fast Forwardを検証するとともに、モデル性能を損なうことなく、トレーニングのスピードアップを実証する。
さらに、Fast Forwardをいつ、どのように適用するかを分析します。
関連論文リスト
- Accelerating Augmentation Invariance Pretraining [7.772780341646099]
我々は、特に視覚変換器(ViT)の事前学習において、対照的な学習手法の計算課題に取り組む。
様々なシーケンス長の入力をまたいで一般化するViTのユニークな能力を生かしたアクセラレーションフレームワークを提案する。
本手法では,ランダム化トークンドロップアウトやフレキシブルパッチスケーリングなどのシーケンス圧縮戦略を併用することにより,勾配推定のコストを低減し,収束を加速する。
論文 参考訳(メタデータ) (2024-10-27T21:53:33Z) - AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference [63.52244442498831]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - Federated Learning of Large Language Models with Parameter-Efficient
Prompt Tuning and Adaptive Optimization [71.87335804334616]
フェデレートラーニング(FL)は、分散データとの協調モデルトレーニングを可能にする、有望なパラダイムである。
LLM(Large Language Models)のトレーニングプロセスは一般的に重要なパラメータの更新を引き起こす。
本稿では,性能と効率を同時に向上する効率的な部分的プロンプトチューニング手法を提案する。
論文 参考訳(メタデータ) (2023-10-23T16:37:59Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。