論文の概要: Fast Forwarding Low-Rank Training
- arxiv url: http://arxiv.org/abs/2409.04206v1
- Date: Fri, 6 Sep 2024 11:53:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:55:18.176149
- Title: Fast Forwarding Low-Rank Training
- Title(参考訳): 高速フォワード低ランクトレーニング
- Authors: Adir Rahamim, Naomi Saphra, Sara Kangaslahti, Yonatan Belinkov,
- Abstract要約: 我々は,大規模なトレーニングセグメントを高速化するためのシンプルで効果的なアプローチであるFast Forwardを提案する。
通常の最適化ステップとFast Forwardステージの交互に、Fast Forwardは最大87%のFLOPを削減できる。
我々は、様々なタスクで様々なモデルを微調整することで、Fast Forwardを検証するとともに、モデル性能を損なうことなく、トレーニングのスピードアップを実証する。
- 参考スコア(独自算出の注目度): 35.59960107598672
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Parameter efficient finetuning methods like low-rank adaptation (LoRA) aim to reduce the computational costs of finetuning pretrained Language Models (LMs). Enabled by these low-rank settings, we propose an even more efficient optimization strategy: Fast Forward, a simple and effective approach to accelerate large segments of training. In a Fast Forward stage, we repeat the most recent optimizer step until the loss stops improving on a tiny validation set. By alternating between regular optimization steps and Fast Forward stages, Fast Forward provides up to an 87\% reduction in FLOPs and up to an 81\% reduction in train time over standard SGD with Adam. We validate Fast Forward by finetuning various models on different tasks and demonstrate that it speeds up training without compromising model performance. Additionally, we analyze when and how to apply Fast Forward.
- Abstract(参考訳): 低ランク適応(LoRA)のようなパラメータ効率の良い微調整手法は、事前訓練された言語モデル(LM)を微調整する際の計算コストを削減することを目的としている。
これらの低ランク設定によって実現され、より効率的な最適化戦略が提案される: Fast Forward、大規模なトレーニングセグメントを高速化するためのシンプルで効果的なアプローチ。
Fast Forwardの段階では、損失が小さな検証セットで改善されなくなるまで、最新のオプティマイザステップを繰り返す。
通常の最適化段階とファストフォワード段階を交互に行うことで、Fast ForwardはFLOPの87倍の削減と、Adamとの標準SGDよりも81倍の短縮を実現している。
我々は、様々なタスクで様々なモデルを微調整することで、Fast Forwardを検証するとともに、モデル性能を損なうことなく、トレーニングのスピードアップを実証する。
さらに、Fast Forwardをいつ、どのように適用するかを分析します。
関連論文リスト
- Fine Tuning without Catastrophic Forgetting via Selective Low Rank Adaptation [13.084333776247743]
微調整は分散シフトに対する堅牢性を低下させ、アウト・オブ・ディストリビューション(OOD)のパフォーマンスに影響を及ぼす。
本稿では,低ランク適応(LoRA)ブロックを選択的に活性化するインジケータ関数を用いたパラメータ効率細調整(PEFT)手法を提案する。
有効微調整は5%のアクティブブロックで実現でき、効率が大幅に向上することを示した。
論文 参考訳(メタデータ) (2025-01-26T03:22:22Z) - OP-LoRA: The Blessing of Dimensionality [93.08208871549557]
低ランクアダプタは、少数のパラメータしか持たない大型モデルの微調整を可能にする。
しばしば最適化の課題を提起するが、収束性は低い。
推論コストを増大させることなく、トレーニングを加速する過剰パラメータ化アプローチを導入する。
視覚言語タスクの改善、特に画像生成の顕著な向上を実現している。
論文 参考訳(メタデータ) (2024-12-13T18:55:19Z) - PROFIT: A Specialized Optimizer for Deep Fine Tuning [9.082267858686933]
ProFIT(Prolly Restricted For Iterative Training)は、新しいタスクやデータセット上で、段階的に微調整された収束モデルに特化して設計された第1弾である。
単純な時間化プロセスを用いることで、PROFITは様々なタスクで従来の微調整方法より優れている。
PROFITはロジックにカプセル化され、最小限のエンジニアリング労力で任意のトレーニングパイプラインに容易に統合される。
論文 参考訳(メタデータ) (2024-12-02T19:37:34Z) - Accelerating Augmentation Invariance Pretraining [7.772780341646099]
我々は、特に視覚変換器(ViT)の事前学習において、対照的な学習手法の計算課題に取り組む。
様々なシーケンス長の入力をまたいで一般化するViTのユニークな能力を生かしたアクセラレーションフレームワークを提案する。
本手法では,ランダム化トークンドロップアウトやフレキシブルパッチスケーリングなどのシーケンス圧縮戦略を併用することにより,勾配推定のコストを低減し,収束を加速する。
論文 参考訳(メタデータ) (2024-10-27T21:53:33Z) - Forecast-PEFT: Parameter-Efficient Fine-Tuning for Pre-trained Motion Forecasting Models [68.23649978697027]
Forecast-PEFTは、モデルのパラメータの大部分を凍結し、新しく導入されたプロンプトとアダプタの調整に集中する微調整戦略である。
実験の結果,Forecast-PEFTは動作予測タスクにおいて従来のフルチューニング手法よりも優れていた。
Forecast-FTは予測性能をさらに改善し、従来のベースライン法よりも最大9.6%向上した。
論文 参考訳(メタデータ) (2024-07-28T19:18:59Z) - APT: Adaptive Pruning and Tuning Pretrained Language Models for Efficient Training and Inference [63.52244442498831]
大規模言語モデル(LM)による微調整と推論は一般的に高価であることが知られている。
LMのパラメータを適応的にプーンし調整するAPTを導入する。
APTは、LMの微調整を最大8倍高速化し、LMのメモリトレーニングのフットプリントを最大70%削減する。
論文 参考訳(メタデータ) (2024-01-22T18:39:40Z) - LiST: Lite Self-training Makes Efficient Few-shot Learners [91.28065455714018]
LiSTは古典的な微調整法よりも35%改善し、プロンプトチューニングよりも6%改善した。
論文 参考訳(メタデータ) (2021-10-12T18:47:18Z) - Extrapolation for Large-batch Training in Deep Learning [72.61259487233214]
我々は、バリエーションのホストが、我々が提案する統一されたフレームワークでカバー可能であることを示す。
本稿では,この手法の収束性を証明し,ResNet,LSTM,Transformer上での経験的性能を厳格に評価する。
論文 参考訳(メタデータ) (2020-06-10T08:22:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。