論文の概要: Large Language Models Compression via Low-Rank Feature Distillation
- arxiv url: http://arxiv.org/abs/2412.16719v1
- Date: Sat, 21 Dec 2024 18:04:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-24 15:54:04.034121
- Title: Large Language Models Compression via Low-Rank Feature Distillation
- Title(参考訳): 低ランク特徴蒸留による大言語モデル圧縮
- Authors: Yaya Sy, Christophe Cerisara, Irina Illina,
- Abstract要約: LLM 構造化プルーニング法は,(1) キャリブレーションデータによる圧縮,(2) 数十億のトークンによる事前訓練による損失性能の回復,の2段階を含む。
以前の研究では、トレーニング済みのトランスフォーマーの重量は、アクティベーションとは異なり本質的に低ランクではないことがわかりました。
我々は,低ランク重量をSVDで初期化し,教師と学生のアクティベーションを組み合わせた共同損失を用いて,低ランク重量を局所的に蒸留するワンショット圧縮法を提案する。
- 参考スコア(独自算出の注目度): 8.090496457850852
- License:
- Abstract: Current LLM structured pruning methods involve two steps: (1) compressing with calibration data and (2) continued pretraining on billions of tokens to recover the lost performance. This costly second step is needed as the first step significantly impacts performance. Previous studies have found that pretrained Transformer weights aren't inherently low-rank, unlike their activations, which may explain this performance drop. Based on this observation, we introduce a one-shot compression method that locally distills low-rank weights. We accelerate convergence by initializing the low-rank weights with SVD and using a joint loss that combines teacher and student activations. We reduce memory requirements by applying local gradient updates only. Our approach can compress Mixtral-8x7B within minutes on a single A100 GPU, removing 10 billion parameters while maintaining over 95% of the original performance. Phi-2 3B can be compressed by 40% using only 13 million calibration tokens into a small model that competes with recent models of similar size. We show our method generalizes well to non-transformer architectures: Mamba-3B can be compressed by 20% while maintaining 99% of its performance.
- Abstract(参考訳): 現在のLCM構造化プルーニング法は,(1)キャリブレーションデータによる圧縮,(2)数十億のトークンによる事前訓練による損失性能の回復,の2段階を含む。
第1ステップがパフォーマンスに大きな影響を与えるため、このコストのかかる第2ステップが必要です。
以前の研究では、トレーニング済みのトランスフォーマーの重量は、アクティベーションとは異なり本質的に低ランクではないことがわかりました。
そこで本研究では,低ランク重量を局所的に蒸留するワンショット圧縮法を提案する。
我々は,低ランクウェイトをSVDで初期化し,教師と学生のアクティベーションを組み合わせた共同損失を用いて収束を加速する。
ローカル勾配更新のみを適用してメモリ要求を削減します。
提案手法では,Mixtral-8x7Bを1つのA100 GPU上で数分で圧縮し,100億個のパラメータを除去し,元の性能の95%以上を維持できる。
Phi-2 3Bは、わずか1300万のキャリブレーショントークンを使用して40%圧縮できる。
提案手法は非変圧器アーキテクチャによく応用でき、Mamba-3Bは99%の性能を維持しながら20%圧縮できる。
関連論文リスト
- MatryoshkaKV: Adaptive KV Compression via Trainable Orthogonal Projection [14.073722038551125]
KVキャッシュは、大規模言語モデルの推論におけるデファクト技術となっている。
本稿では,低ランクな投影行列を用いて,キャッシュ特性を次元を小さくした空間に変換する。
提案手法は, 平均KVキャッシュ圧縮率60%で90%以上の性能を維持することができる。
論文 参考訳(メタデータ) (2024-10-16T08:34:51Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Token Compensator: Altering Inference Cost of Vision Transformer without Re-Tuning [63.43972993473501]
視覚変換器(ViT)の訓練と推論を高速化するトークン圧縮
しかし、下流タスクに適用した場合、圧縮度はトレーニングと推論の段階で不一致となる。
本稿では,2段階間の圧縮度を分離するモデル演算フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-13T10:36:43Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight
Inheritance [97.01406871579525]
大規模言語画像事前学習モデルのための新しいクロスモーダル蒸留法TinyCLIPを提案する。
また、TinyCLIPは、トレーニング済みのCLIP ViT-B/32のサイズを50%削減し、ゼロショット性能を同等に維持できることを示した。
YFCC-15MでトレーニングしたTinyCLIP ViT-8M/16は、ImageNetで41.1%という印象的なゼロショットトップ1の精度を達成した。
論文 参考訳(メタデータ) (2023-09-21T17:59:53Z) - DiffRate : Differentiable Compression Rate for Efficient Vision
Transformers [98.33906104846386]
Token圧縮は、プルーニング(ドロップ)やトークンのマージによって、大規模な視覚変換器(ViTなど)を高速化することを目的としている。
DiffRate(ディフレート)は、先行技術にはないいくつかの魅力的な特性を持つ新しいトークン圧縮手法である。
論文 参考訳(メタデータ) (2023-05-29T10:15:19Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - CrAM: A Compression-Aware Minimizer [103.29159003723815]
本稿では、CrAMと呼ばれる新しい圧縮対応最小化器を提案し、最適化ステップを原則的に修正する。
CrAMは、標準のSGD/アダムベースベースラインよりも精度が高い密度のモデルを生成するが、重量計算では安定である。
CrAMは、転送学習のためにうまく機能するスパースモデルを生成することができ、GPUハードウェアでサポートされている半構造化の2:4プルーニングパターンでも機能する。
論文 参考訳(メタデータ) (2022-07-28T16:13:28Z) - Compression-aware Continual Learning using Singular Value Decomposition [2.4283778735260686]
本稿では,ニューラルネットワークを動的に成長させる圧縮型連続タスク学習手法を提案する。
近年のモデル圧縮技術にインスパイアされた我々は、圧縮認識トレーニングを採用し、低ランク重量近似を行う。
本手法は,コストのかかる微調整を必要とせず,最小性能の圧縮表現を実現する。
論文 参考訳(メタデータ) (2020-09-03T23:29:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。