Fugu-MT 論文翻訳(概要): LoQT: Low-Rank Adapters for Quantized Pretraining

論文の概要: LoQT: Low-Rank Adapters for Quantized Pretraining

arxiv url: http://arxiv.org/abs/2405.16528v4
Date: Mon, 04 Nov 2024 09:50:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.820063
Title: LoQT: Low-Rank Adapters for Quantized Pretraining
Title（参考訳）: LoQT: 量子化事前トレーニングのための低ランクアダプタ
Authors: Sebastian Loeschcke, Mads Toftrup, Michael J. Kastoryano, Serge Belongie, Vésteinn Snæbjarnarson,
Abstract要約: Low-Rank Adapters for Quantized Training (LoQT) は、量子化モデルの効率的なトレーニング方法である。我々のアプローチは、事前学習モデルと微調整モデルの両方に適しています。言語モデリングとダウンストリームタスク適応において,LoQTが最大7Bパラメータを24GBのGPU上で効率的にトレーニングできることを実証する。
参考スコア（独自算出の注目度）: 5.767156832161818
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite advances using low-rank adapters and quantization, pretraining of large models on consumer hardware has not been possible without model sharding, offloading during training, or per-layer gradient updates. To address these limitations, we propose Low-Rank Adapters for Quantized Training (LoQT), a method for efficiently training quantized models. LoQT uses gradient-based tensor factorization to initialize low-rank trainable weight matrices that are periodically merged into quantized full-rank weight matrices. Our approach is suitable for both pretraining and fine-tuning models. We demonstrate this for language modeling and downstream task adaptation, finding that LoQT enables efficient training of models up to 7B parameters on a 24GB GPU. We also demonstrate the feasibility of training a 13B model using per-layer gradient updates on the same hardware.
Abstract（参考訳）: 低ランクアダプタと量子化の進歩にもかかわらず、モデルのシャーディング、トレーニング中のオフロード、層ごとの勾配更新がなければ、コンシューマハードウェア上での大規模なモデルの事前トレーニングは不可能である。これらの制約に対処するため,量子化モデルを効率的に訓練する手法であるLoQT(Lo-Rank Adapters for Quantized Training)を提案する。 LoQTは勾配に基づくテンソル分解を用いて、定期的に量子化されたフルランクの重み行列にマージされる低ランクのトレーニング可能な重み行列を初期化する。我々のアプローチは、事前学習モデルと微調整モデルの両方に適しています。言語モデリングとダウンストリームタスク適応において,LoQTが最大7Bパラメータを24GBのGPU上で効率的にトレーニングできることを実証する。また,同一ハードウェア上での階層ごとの勾配更新による13Bモデルのトレーニングの実現可能性を示す。

関連論文リスト

Learning Grouped Lattice Vector Quantizers for Low-Bit LLM Compression [57.54335545892155]
本稿では,各重みの群に独自の格子コードブックを割り当てるGLVQ(Grouped Lattice Vector Quantization)フレームワークを紹介する。提案手法は,既存のトレーニング後の量子化ベースラインと比較して,モデルサイズと精度のトレードオフが良好である。
論文参考訳（メタデータ） (2025-10-23T20:19:48Z)
AdaRankGrad: Adaptive Gradient-Rank and Moments for Memory-Efficient LLMs Training and Fine-Tuning [9.51289606759621]
大規模言語モデル(LLM)の訓練と微調整には、メモリと計算要求に関する課題が伴う。低ランク適応(LoRA)など、これらの課題に対処する様々な技術が開発されている。トレーニングが進むにつれて、推定勾配のランクが徐々に低下する現象に着想を得た新しい手法を導入する。
論文参考訳（メタデータ） (2024-10-23T13:53:26Z)
Exploring Quantization for Efficient Pre-Training of Transformer Language Models [11.696132057489786]
本研究の目的は,変圧器の効率的な事前学習における量子化の影響を検討することである。重み、アクティベーション、勾配、状態に直線量子化を体系的に適用することにより、トレーニング中のモデル効率、安定性、性能への影響を評価する。
論文参考訳（メタデータ） (2024-07-16T13:42:09Z)
Time-, Memory- and Parameter-Efficient Visual Adaptation [75.28557015773217]
バックボーンを介して勾配をバックプロパゲートしない適応法を提案する。凍結した、事前訓練されたバックボーンの機能を利用する軽量ネットワークを並列に設計することで、これを実現する。
論文参考訳（メタデータ） (2024-02-05T10:55:47Z)
Weight subcloning: direct initialization of transformers using larger pretrained ones [42.056148990349094]
本稿では,事前学習されたモデルの知識をより小さな変種に伝達する手法を提案する。ウェイト・サブクロニングは、より大きな事前訓練モデルからウェイトを初期化することにより、スケールダウン・トランスフォーマーのトレーニングを高速化する。我々は、次のトークン予測のために設計された画像分類と言語モデルにおいて、視覚変換器の4倍高速なトレーニングを実現する。
論文参考訳（メタデータ） (2023-12-14T19:08:56Z)
Initializing Models with Larger Ones [76.41561758293055]
事前訓練された大モデルから重みのサブセットを選択することにより、より小さなモデルを初期化する手法である重み選択を導入する。実験により, 重量選択は小型モデルの性能を著しく向上し, トレーニング時間を短縮できることが示された。
論文参考訳（メタデータ） (2023-11-30T18:58:26Z)
Reusing Pretrained Models by Multi-linear Operators for Efficient Training [65.64075958382034]
大規模なモデルをスクラッチからトレーニングすることは、通常、かなりの量のリソースを必要とする。 bert2BERT や LiGO といった最近の研究は、大規模なモデルを初期化するために、小さな事前訓練されたモデルを再利用している。本稿では,対象モデルの各重みを事前学習モデルの全重みに線形に相関させる手法を提案する。
論文参考訳（メタデータ） (2023-10-16T06:16:47Z)
LLM-QAT: Data-Free Quantization Aware Training for Large Language Models [38.76165207636793]
本研究では,事前学習モデルにより生成した世代を利用したデータフリー蒸留法を提案する。重みとアクティベーションの定量化に加えて、スループット向上に重要なKVキャッシュの定量化も行います。我々は7B,13B,30BのLLaMAモデルを4ビット以下の量子化レベルで実験した。
論文参考訳（メタデータ） (2023-05-29T05:22:11Z)
Meta-Learning Fast Weight Language Models [105.66999854213724]
我々は、動的評価の利点をより効率的に提供するニューラルネットワークコンポーネントであるFWL(Fast Weight Layers)を提示する。 FWLはトレーニング時に適用でき、モデルが勾配更新をうまく活用することを学ぶ。
論文参考訳（メタデータ） (2022-12-05T18:37:09Z)
CTMQ: Cyclic Training of Convolutional Neural Networks with Multiple Quantization Steps [1.3106063755117399]
本稿では,低ビット量子化畳み込みニューラルネットワーク(CNN)における高機能化を実現するために,複数サイクルの訓練を施したトレーニング手法を提案する。提案手法は,精度の高いモデルの訓練能力を反復的に活用することにより,各サイクルにおける低ビット量子化モデルの強化された重み付けを実現できる。特に、トレーニング方法は、ImageNetデータセット上の2項化されたResNet-18のTop-1とTop-5の精度をそれぞれ5.80%と6.85%向上させることができる。
論文参考訳（メタデータ） (2022-06-26T05:54:12Z)
Towards Efficient Post-training Quantization of Pre-trained Language Models [85.68317334241287]
PLMのポストトレーニング量子化(PTQ)について検討し,モジュール単位の量子化誤差最小化(MREM)を提案する。 GLUEとSQuADベンチマークの実験により、提案したPTQソリューションはQATに近く動作するだけでなく、トレーニング時間、メモリオーバーヘッド、データ消費を大幅に削減できることがわかった。
論文参考訳（メタデータ） (2021-09-30T12:50:06Z)
Dynamic Model Pruning with Feedback [64.019079257231]
余分なオーバーヘッドを伴わずにスパーストレーニングモデルを生成する新しいモデル圧縮法を提案する。 CIFAR-10 と ImageNet を用いて本手法の評価を行い,得られたスパースモデルが高密度モデルの最先端性能に到達可能であることを示す。
論文参考訳（メタデータ） (2020-06-12T15:07:08Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。