論文の概要: DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights
- arxiv url: http://arxiv.org/abs/2501.18596v1
- Date: Thu, 30 Jan 2025 18:59:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-31 15:12:38.831006
- Title: DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights
- Title(参考訳): DeltaLLM: 共有重量間低ランクデルタ圧縮LDM
- Authors: Liana Mikaelyan, Ayyoob Imani, Mathew Salvaris, Parth Pathak, Mohsen Fayyaz,
- Abstract要約: 我々は,LLMのメモリフットプリントを低減するために,新しい訓練後圧縮技術であるDeltaLLMを紹介する。
トレーニングでは、進行するモジュール置換法を採用し、低ランクモジュールの軽量なトレーニングは、スクラッチからトレーニングしたLLMと同等の大きさのLLMの性能を達成するのに十分であることを示す。
また,同数のパラメータを除去したJointDrop,LaCo,ShortGPT,SliceGPTの圧縮技術よりも優れていた。
- 参考スコア(独自算出の注目度): 11.047879241587315
- License:
- Abstract: We introduce DeltaLLM, a new post-training compression technique to reduce the memory footprint of LLMs. We propose an alternative way of structuring LLMs with weight sharing between layers in subsequent Transformer blocks, along with additional low-rank difference matrices between them. For training, we adopt the progressing module replacement method and show that the lightweight training of the low-rank modules with approximately 30M-40M tokens is sufficient to achieve performance on par with LLMs of comparable sizes trained from scratch. We release the resultant models, DeltaLLAMA and DeltaPHI, with a 12% parameter reduction, retaining 90% of the performance of the base Llama and Phi models on common knowledge and reasoning benchmarks. Our method also outperforms compression techniques JointDrop, LaCo, ShortGPT and SliceGPT with the same number of parameters removed. For example, DeltaPhi 2.9B with a 24% reduction achieves similar average zero-shot accuracies as recovery fine-tuned SlicedPhi 3.3B with a 12% reduction, despite being approximately 400M parameters smaller with no fine-tuning applied. This work provides new insights into LLM architecture design and compression methods when storage space is critical.
- Abstract(参考訳): 我々は,LLMのメモリフットプリントを低減するために,新しい訓練後圧縮技術であるDeltaLLMを紹介する。
本稿では,次のTransformerブロックの層間重み共有と,それらの層間における低ランク差行列を用いたLCMの構成法を提案する。
トレーニングでは、進行モジュール置換法を採用し、約30M〜40Mのトークンを持つ低ランクモジュールの軽量なトレーニングが、スクラッチからトレーニングしたLLMと同等の大きさのLLMの性能を達成するのに十分であることを示す。
得られたモデルであるDeltaLLAMAとDeltaPHIはパラメータを12%削減し、共通知識および推論ベンチマークに基づいてLlamaとPhiモデルの性能の90%を維持している。
また,同数のパラメータを除去したJointDrop,LaCo,ShortGPT,SliceGPTの圧縮技術よりも優れていた。
例えば24%の減少率を持つDeltaPhi 2.9Bは、細調整されたSlicedPhi 3.3Bと同様の平均ゼロショット精度を12%の減少率で達成している。
この研究は、LLMアーキテクチャの設計と、ストレージ空間が重要な場合の圧縮方法に関する新たな洞察を提供する。
関連論文リスト
- SpaLLM: Unified Compressive Adaptation of Large Language Models with Sketching [32.4599581528901]
Two-towerアーキテクチャは、事前学習したLLMパラメータをコンパクトな表現に圧縮し、付加的な完全精度アダプタを微調整するために用いられる。
Sketched Adapting of LLMs (Sketched Adapting of LLMs) を提案する。
SpaLLMは事前訓練したLLM重量をルックアップテーブルにスケッチし、これらのテーブルの値を直接微調整する。
論文 参考訳(メタデータ) (2024-10-08T20:58:24Z) - From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。
WeLore(Weight Low-Rank Projection)を提案する。
論文 参考訳(メタデータ) (2024-07-15T21:05:20Z) - Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。
MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。
以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文 参考訳(メタデータ) (2024-06-24T05:57:55Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。
近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。
本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文 参考訳(メタデータ) (2024-06-13T07:57:27Z) - Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [40.15915011575071]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。
大型モデルの低ランク特性に関する実証的研究を行う。
大規模言語モデルに適した低ランク圧縮手法を提案する。
論文 参考訳(メタデータ) (2024-05-17T08:27:12Z) - GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。
本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。
私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文 参考訳(メタデータ) (2024-03-06T07:29:57Z) - Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。
本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。
提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文 参考訳(メタデータ) (2024-01-29T18:43:49Z) - LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot
Compression [16.901290551711476]
低ランク分解(LoRD)による単言語コード生成のための大言語モデル(LLM)圧縮の可能性について検討する。
次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。
論文 参考訳(メタデータ) (2023-09-25T10:35:17Z) - LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。
LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。
LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文 参考訳(メタデータ) (2023-05-28T15:15:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。