論文の概要: LoQT: Low-Rank Adapters for Quantized Pre-Training
- arxiv url: http://arxiv.org/abs/2405.16528v3
- Date: Mon, 9 Sep 2024 14:31:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 02:21:54.471734
- Title: LoQT: Low-Rank Adapters for Quantized Pre-Training
- Title(参考訳): LoQT: 量子化事前トレーニングのための低ランクアダプタ
- Authors: Sebastian Loeschcke, Mads Toftrup, Michael J. Kastoryano, Serge Belongie, Vésteinn Snæbjarnarson,
- Abstract要約: LoQTは、量子化されたモデルを効率的に訓練する手法である。
LoQTは、コンシューマグレードの24GB GPU上で、7Bパラメータまでのモデルの効率的なトレーニングを可能にする。
- 参考スコア(独自算出の注目度): 5.767156832161818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Training of large neural networks requires significant computational resources. Despite advances using low-rank adapters and quantization, pretraining of models such as LLMs on consumer hardware has not been possible without model sharding, offloading during training, or per-layer gradient updates. To address these limitations, we propose LoQT, a method for efficiently training quantized models. LoQT uses gradient-based tensor factorization to initialize low-rank trainable weight matrices that are periodically merged into quantized full-rank weight matrices. Our approach is suitable for both pretraining and fine-tuning of models, which we demonstrate experimentally for language modeling and downstream task adaptation. We find that LoQT enables efficient training of models up to 7B parameters on a consumer-grade 24GB GPU. We also demonstrate the feasibility of training a 13B parameter model using per-layer gradient updates on the same hardware.
- Abstract(参考訳): 大規模なニューラルネットワークのトレーニングには、かなりの計算資源が必要である。
低ランクアダプタと量子化の進歩にもかかわらず、消費者ハードウェア上でのLCMのようなモデルの事前訓練は、モデルのシャーディング、トレーニング中のオフロード、層ごとの勾配更新なしでは不可能である。
これらの制約に対処するため、量子化モデルを効率的に訓練するLoQTを提案する。
LoQTは勾配に基づくテンソル分解を用いて、定期的に量子化されたフルランクの重み行列にマージされる低ランクのトレーニング可能な重み行列を初期化する。
提案手法は事前学習と微調整の両方に適しており,言語モデリングと下流タスク適応の実験的な実証を行った。
LoQTは、コンシューマグレードの24GB GPU上で、7Bパラメータまでのモデルの効率的なトレーニングを可能にする。
また,同一ハードウェア上での層間勾配更新による13Bパラメータモデルのトレーニングの実現可能性を示す。
関連論文リスト
- AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。
低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。
トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文 参考訳(メタデータ) (2024-10-23T13:53:26Z) - Exploring Quantization for Efficient Pre-Training of Transformer Language Models [11.696132057489786]
本研究の目的は,変圧器の効率的な事前学習における量子化の影響を検討することである。
重み、アクティベーション、勾配、状態に直線量子化を体系的に適用することにより、トレーニング中のモデル効率、安定性、性能への影響を評価する。
論文 参考訳(メタデータ) (2024-07-16T13:42:09Z) - Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。
凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文 参考訳(メタデータ) (2024-02-05T10:55:47Z) - Weight subcloning: direct initialization of transformers using larger
pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。
ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。
我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文 参考訳(メタデータ) (2023-12-14T19:08:56Z) - Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。
実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文 参考訳(メタデータ) (2023-11-30T18:58:26Z) - Reusing Pretrained Models by Multi-linear Operators for Efficient
Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。
bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。
本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文 参考訳(メタデータ) (2023-10-16T06:16:47Z) - LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。
重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。
我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文 参考訳(メタデータ) (2023-05-29T05:22:11Z) - Meta-Learning Fast Weight Language Models [105.66999854213724]
我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。
FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
論文 参考訳(メタデータ) (2022-12-05T18:37:09Z) - CTMQ: Cyclic Training of Convolutional Neural Networks with Multiple
Quantization Steps [1.3106063755117399]
本稿では,低ビット量子化畳み込みニューラルネットワーク(CNN)における高機能化を実現するために,複数サイクルの訓練を施したトレーニング手法を提案する。
提案手法は,精度の高いモデルの訓練能力を反復的に活用することにより,各サイクルにおける低ビット量子化モデルの強化された重み付けを実現できる。
特に、トレーニング方法は、ImageNetデータセット上の2項化されたResNet-18のTop-1とTop-5の精度をそれぞれ5.80%と6.85%向上させることができる。
論文 参考訳(メタデータ) (2022-06-26T05:54:12Z) - Towards Efficient Post-training Quantization of Pre-trained Language
Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。
GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文 参考訳(メタデータ) (2021-09-30T12:50:06Z) - Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。
CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文 参考訳(メタデータ) (2020-06-12T15:07:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。