論文の概要: Large Language Models Compression via Low-Rank Feature Distillation
- arxiv url: http://arxiv.org/abs/2412.16719v1
- Date: Sat, 21 Dec 2024 18:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:04.034121
- Title: Large Language Models Compression via Low-Rank Feature Distillation
- Title(参考訳): 低ランク特徴蒸留による大言語モデル圧縮
- Authors: Yaya Sy, Christophe Cerisara, Irina Illina,
- Abstract要約: LLM 構造化プルーニング法は,(1) キャリブレーションデータによる圧縮,(2) 数十億のトークンによる事前訓練による損失性能の回復,の2段階を含む。
以前の研究では、トレーニング済みのトランスフォーマーの重量は、アクティベーションとは異なり本質的に低ランクではないことがわかりました。
我々は,低ランク重量をSVDで初期化し,教師と学生のアクティベーションを組み合わせた共同損失を用いて,低ランク重量を局所的に蒸留するワンショット圧縮法を提案する。
- 参考スコア(独自算出の注目度): 8.090496457850852
- License:
- Abstract: Current LLM structured pruning methods involve two steps: (1) compressing with calibration data and (2) continued pretraining on billions of tokens to recover the lost performance. This costly second step is needed as the first step significantly impacts performance. Previous studies have found that pretrained Transformer weights aren't inherently low-rank, unlike their activations, which may explain this performance drop. Based on this observation, we introduce a one-shot compression method that locally distills low-rank weights. We accelerate convergence by initializing the low-rank weights with SVD and using a joint loss that combines teacher and student activations. We reduce memory requirements by applying local gradient updates only. Our approach can compress Mixtral-8x7B within minutes on a single A100 GPU, removing 10 billion parameters while maintaining over 95% of the original performance. Phi-2 3B can be compressed by 40% using only 13 million calibration tokens into a small model that competes with recent models of similar size. We show our method generalizes well to non-transformer architectures: Mamba-3B can be compressed by 20% while maintaining 99% of its performance.
- Abstract(参考訳): 現在のLCM構造化プルーニング法は,(1)キャリブレーションデータによる圧縮,(2)数十億のトークンによる事前訓練による損失性能の回復,の2段階を含む。
第1ステップがパフォーマンスに大きな影響を与えるため、このコストのかかる第2ステップが必要です。
以前の研究では、トレーニング済みのトランスフォーマーの重量は、アクティベーションとは異なり本質的に低ランクではないことがわかりました。
そこで本研究では,低ランク重量を局所的に蒸留するワンショット圧縮法を提案する。
我々は,低ランクウェイトをSVDで初期化し,教師と学生のアクティベーションを組み合わせた共同損失を用いて収束を加速する。
ローカル勾配更新のみを適用してメモリ要求を削減します。
提案手法では,Mixtral-8x7Bを1つのA100 GPU上で数分で圧縮し,100億個のパラメータを除去し,元の性能の95%以上を維持できる。
Phi-2 3Bは、わずか1300万のキャリブレーショントークンを使用して40%圧縮できる。
提案手法は非変圧器アーキテクチャによく応用でき、Mamba-3Bは99%の性能を維持しながら20%圧縮できる。
関連論文リスト
- DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights [11.047879241587315]
我々は,LLMのメモリフットプリントを低減するために,新しい訓練後圧縮技術であるDeltaLLMを紹介する。
トレーニングでは、進行するモジュール置換法を採用し、低ランクモジュールの軽量なトレーニングは、スクラッチからトレーニングしたLLMと同等の大きさのLLMの性能を達成するのに十分であることを示す。
また,同数のパラメータを除去したJointDrop,LaCo,ShortGPT,SliceGPTの圧縮技術よりも優れていた。
論文 参考訳(メタデータ) (2025-01-30T18:59:55Z) - Direct Quantized Training of Language Models with Stochastic Rounding [12.028887152979046]
本稿では,バックプロパゲーション中のストレートスルー推定器に頼ることなく,量子化低精度行列を直接更新する可能性について検討する。
LLaMA構造モデルによる実験結果から,3次値に制約された場合でも,低精度の重み付きトレーニングが実現可能であることが示唆された。
私たちのモデルは3次重みを使って推論も行えます。
論文 参考訳(メタデータ) (2024-12-06T05:41:11Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - Blockwise Compression of Transformer-based Models without Retraining [6.118476907408718]
本稿では,再学習を伴わない変圧器のブロックワイド圧縮フレームワークであるBCTを提案する。
層ワイド圧縮法とは異なり、BCTはブロックワイド操作によりトランス全体のより微細な圧縮を実現する。
BCTは、埋め込み、行列乗算、GELU、Softmax、層正規化、中間結果など、モデルの全コンポーネントを効果的に圧縮する。
論文 参考訳(メタデータ) (2023-04-04T02:55:40Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Compression-aware Continual Learning using Singular Value Decomposition [2.4283778735260686]
本稿では,ニューラルネットワークを動的に成長させる圧縮型連続タスク学習手法を提案する。
近年のモデル圧縮技術にインスパイアされた我々は、圧縮認識トレーニングを採用し、低ランク重量近似を行う。
本手法は,コストのかかる微調整を必要とせず,最小性能の圧縮表現を実現する。
論文 参考訳(メタデータ) (2020-09-03T23:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。