Fugu-MT 論文翻訳(概要): DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights

論文の概要: DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights

arxiv url: http://arxiv.org/abs/2501.18596v1
Date: Thu, 30 Jan 2025 18:59:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-01-31 22:50:04.324144
Title: DeltaLLM: Compress LLMs with Low-Rank Deltas between Shared Weights
Title（参考訳）: DeltaLLM: 共有重量間低ランクデルタ圧縮LDM
Authors: Liana Mikaelyan, Ayyoob Imani, Mathew Salvaris, Parth Pathak, Mohsen Fayyaz,
Abstract要約: 我々は,LLMのメモリフットプリントを低減するために,新しい訓練後圧縮技術であるDeltaLLMを紹介する。トレーニングでは、進行するモジュール置換法を採用し、低ランクモジュールの軽量なトレーニングは、スクラッチからトレーニングしたLLMと同等の大きさのLLMの性能を達成するのに十分であることを示す。また,同数のパラメータを除去したJointDrop,LaCo,ShortGPT,SliceGPTの圧縮技術よりも優れていた。
参考スコア（独自算出の注目度）: 11.047879241587315
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We introduce DeltaLLM, a new post-training compression technique to reduce the memory footprint of LLMs. We propose an alternative way of structuring LLMs with weight sharing between layers in subsequent Transformer blocks, along with additional low-rank difference matrices between them. For training, we adopt the progressing module replacement method and show that the lightweight training of the low-rank modules with approximately 30M-40M tokens is sufficient to achieve performance on par with LLMs of comparable sizes trained from scratch. We release the resultant models, DeltaLLAMA and DeltaPHI, with a 12% parameter reduction, retaining 90% of the performance of the base Llama and Phi models on common knowledge and reasoning benchmarks. Our method also outperforms compression techniques JointDrop, LaCo, ShortGPT and SliceGPT with the same number of parameters removed. For example, DeltaPhi 2.9B with a 24% reduction achieves similar average zero-shot accuracies as recovery fine-tuned SlicedPhi 3.3B with a 12% reduction, despite being approximately 400M parameters smaller with no fine-tuning applied. This work provides new insights into LLM architecture design and compression methods when storage space is critical.
Abstract（参考訳）: 我々は,LLMのメモリフットプリントを低減するために,新しい訓練後圧縮技術であるDeltaLLMを紹介する。本稿では,次のTransformerブロックの層間重み共有と,それらの層間における低ランク差行列を用いたLCMの構成法を提案する。トレーニングでは、進行モジュール置換法を採用し、約30M〜40Mのトークンを持つ低ランクモジュールの軽量なトレーニングが、スクラッチからトレーニングしたLLMと同等の大きさのLLMの性能を達成するのに十分であることを示す。得られたモデルであるDeltaLLAMAとDeltaPHIはパラメータを12%削減し、共通知識および推論ベンチマークに基づいてLlamaとPhiモデルの性能の90%を維持している。また,同数のパラメータを除去したJointDrop,LaCo,ShortGPT,SliceGPTの圧縮技術よりも優れていた。例えば24%の減少率を持つDeltaPhi 2.9Bは、細調整されたSlicedPhi 3.3Bと同様の平均ゼロショット精度を12%の減少率で達成している。この研究は、LLMアーキテクチャの設計と、ストレージ空間が重要な場合の圧縮方法に関する新たな洞察を提供する。

関連論文リスト

EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.5240021321113204]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文参考訳（メタデータ） (2025-05-05T05:42:14Z)
Delta Decompression for MoE-based LLMs Compression [22.144081182788394]
D2$-MoEは、MoE LLMのパラメータを減らすための新しいデルタ圧縮圧縮機である。我々はそれらの重みを共有基底重みとユニークなデルタ重みに分解する。実験では、私たちのアプローチの優位性を強調し、13%以上のパフォーマンス向上を実現しています。
論文参考訳（メタデータ） (2025-02-24T16:32:22Z)
From GaLore to WeLore: How Low-Rank Weights Non-uniformly Emerge from Low-Rank Gradients [86.40635601953446]
現代大規模言語モデルの様々な層にまたがる低ランク構造の出現について検討する。 WeLore(Weight Low-Rank Projection)を提案する。
論文参考訳（メタデータ） (2024-07-15T21:05:20Z)
Pruning via Merging: Compressing LLMs via Manifold Alignment Based Layer Merging [14.123313596780726]
我々は,MKA(Manifold-based Knowledge Alignment and Layer Merging Compression)を提案する。 MKAは、多様体学習と正規化ペアワイズ・インフォメーション・ボトルネック測定を使用して、類似したレイヤをマージし、本質的な性能を維持しながらモデルサイズを削減している。以上の結果から,MKAはモデル性能を保ちつつ,圧縮率も大幅に向上し,従来のプルーニング法よりも優れていた。
論文参考訳（メタデータ） (2024-06-24T05:57:55Z)
Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。 A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文参考訳（メタデータ） (2024-06-15T09:31:03Z)
Delta-CoMe: Training-Free Delta-Compression with Mixed-Precision for Large Language Models [79.46938238953916]
多様なアプリケーションへの微調整された大規模言語モデル(LLM)は、複雑な要求を満たすために不可欠である。近年の研究では、微調整LDMをベースモデルと対応するデルタウェイトに分解し、低ランクまたは低ビットのアプローチで圧縮してコストを削減することが示唆されている。本研究では,従来の低ランク圧縮法と低ビット圧縮法がタスク固有の微調整LDMのモデル性能を著しく損なうことを観察する。
論文参考訳（メタデータ） (2024-06-13T07:57:27Z)
Adaptive Feature-based Low-Rank Compression of Large Language Models via Bayesian Optimization [42.53133823994923]
低ランク圧縮は、大規模言語モデルにおける非必須パラメータを減らすための有望な手法である。大型モデルの低ランク特性に関する実証的研究を行う。大規模言語モデルに適した低ランク圧縮手法を提案する。
論文参考訳（メタデータ） (2024-05-17T08:27:12Z)
GaLore: Memory-Efficient LLM Training by Gradient Low-Rank Projection [133.45193150403537]
LLM(Large Language Models)のトレーニングは、重み付けやGPU状態の増大によって、メモリ上の重大な問題が発生する。本研究では,メモリ効率のトレーニング戦略としてグラディエント・ローランド・プロジェクション(GaLore)を提案する。私たちの8ビットのGaLoreは、BF16ベースラインと比較して、メモリを82.5%、トレーニング総メモリを63.3%削減します。
論文参考訳（メタデータ） (2024-03-06T07:29:57Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Scaling Sparse Fine-Tuning to Large Language Models [67.59697720719672]
大きな言語モデル(LLM)は、パラメータの数が多いため、完全な微調整が難しい。本研究では,パラメータの配列とパラメータのデルタを事前学習した値に対して保持する新しいスパース微調整法SpIELを提案する。提案手法は,LoRAのようなパラメータ効率の高い微調整法よりも性能が優れ,実行時間も同等であることを示す。
論文参考訳（メタデータ） (2024-01-29T18:43:49Z)
LORD: Low Rank Decomposition Of Monolingual Code LLMs For One-Shot Compression [16.901290551711476]
低ランク分解(LoRD)による単言語コード生成のための大言語モデル(LLM)圧縮の可能性について検討する。次に、ローランク分解(LoRD)を使用して、StarCoder 16B から 13.2B パラメータをドロップなしで圧縮し、HumanEval Pass@1 スコアを最小値で 12.3B に圧縮します。
論文参考訳（メタデータ） (2023-09-25T10:35:17Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
LoRAPrune: Structured Pruning Meets Low-Rank Parameter-Efficient Fine-Tuning [56.88751562302793]
低ランク適応 (LoRA) が大型言語モデル (LLM) に登場した。 LoRAPruneは、高度にメモリ効率の良い正確な構造化プルーンドモデルを提供する新しいフレームワークである。 LoRAPruneはWikiText2では4.81、TBでは3.46、メモリ使用量は52.6%減少している。
論文参考訳（メタデータ） (2023-05-28T15:15:48Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。