Fugu-MT 論文翻訳(概要): eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models

論文の概要: eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models

arxiv url: http://arxiv.org/abs/2309.00964v1
Date: Sat, 2 Sep 2023 15:16:35 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-07 00:09:42.361130
Title: eDKM: An Efficient and Accurate Train-time Weight Clustering for Large Language Models
Title（参考訳）: eDKM:大規模言語モデルのための効率的かつ正確な列車時重クラスタリング
Authors: Minsik Cho, Keivan A. Vahid, Qichen Fu, Saurabh Adya, Carlo C Del Mundo, Mohammad Rastegari, Devang Naik, Peter Zatloukal
Abstract要約: 微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示している。メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。
参考スコア（独自算出の注目度）: 19.502740996431452
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Since Large Language Models or LLMs have demonstrated high-quality performance on many complex language tasks, there is a great interest in bringing these LLMs to mobile devices for faster responses and better privacy protection. However, the size of LLMs (i.e., billions of parameters) requires highly effective compression to fit into storage-limited devices. Among many compression techniques, weight-clustering, a form of non-linear quantization, is one of the leading candidates for LLM compression, and supported by modern smartphones. Yet, its training overhead is prohibitively significant for LLM fine-tuning. Especially, Differentiable KMeans Clustering, or DKM, has shown the state-of-the-art trade-off between compression ratio and accuracy regression, but its large memory complexity makes it nearly impossible to apply to train-time LLM compression. In this paper, we propose a memory-efficient DKM implementation, eDKM powered by novel techniques to reduce the memory footprint of DKM by orders of magnitudes. For a given tensor to be saved on CPU for the backward pass of DKM, we compressed the tensor by applying uniquification and sharding after checking if there is no duplicated tensor previously copied to CPU. Our experimental results demonstrate that \prjname can fine-tune and compress a pretrained LLaMA 7B model from 12.6 GB to 2.5 GB (3bit/weight) with the Alpaca dataset by reducing the train-time memory footprint of a decoder layer by 130$\times$, while delivering good accuracy on broader LLM benchmarks (i.e., 77.7\% for PIQA, 66.1\% for Winograde, and so on).
Abstract（参考訳）: 大規模言語モデル(LLM)は、多くの複雑な言語タスクにおいて、高品質なパフォーマンスを示してきたため、より高速な応答とプライバシー保護のために、これらのLLMをモバイルデバイスに持ち込むことに大きな関心がある。しかし、LLMのサイズ(すなわち数十億のパラメータ)はストレージ制限されたデバイスに収まるために非常に効率的な圧縮を必要とする。多くの圧縮技術の中で、非線形量子化の一形態である重みクラスタリングは、LLM圧縮の主要な候補の1つであり、現代のスマートフォンでサポートされている。しかし、LLMの微調整にはトレーニングのオーバーヘッドが極めて重要である。特に、微分可能なKMeans Clustering(DKM)は、圧縮比と精度回帰の間の最先端のトレードオフを示しているが、その大きなメモリ複雑性により、列車時のLLM圧縮に適用することはほぼ不可能である。本稿では,メモリ効率のよいDKM実装であるeDKMを提案し,DKMのメモリフットプリントを桁違いに削減する。 DKMの後続パスのためにCPUに保存されるテンソルに対して、以前にCPUにコピーされた重複テンソルがないかどうかを確認した後、不等化とシャーディングを適用してテンソルを圧縮した。実験結果から,より広い LLM ベンチマーク(PIQA 77.7 %,Winograde 66.1 %,PIQA 66.1 %)で精度を向上しつつ,デコーダ層のトレインタイムメモリフットプリントを 130$\times$ に削減し,プレトレーニング済みの LLaMA 7B モデルを 12.6 GB から 2.5 GB (3bit/weight) に圧縮できることが確認された。

関連論文リスト

Breaking the Boundaries of Long-Context LLM Inference: Adaptive KV Management on a Single Commodity GPU [23.168435940997664]
本稿では,1つのコモディティGPUのためのLLM推論システムLeoAMについて述べる。我々のシステムは,KVデータを可変サイズのチャンクに分割する適応的なKV管理戦略を採用している。また,全KVデータではなく,ディスク上の各チャンクのKV抽象を格納・抽出することで,伝送遅延を最小限に抑える軽量なKV抽象手法を提案する。
論文参考訳（メタデータ） (2025-06-25T07:26:42Z)
EntroLLM: Entropy Encoded Weight Compression for Efficient Large Language Model Inference on Edge Devices [3.5240021321113204]
大きな言語モデル(LLM)は、様々なタスクにまたがる例外的なパフォーマンスを示すが、その大きなストレージと計算要求は、エッジデバイスへのデプロイメントを制限している。本稿では,エントロピー符号化と混合量子化を統合した新しい圧縮フレームワークEntroLLMを提案する。
論文参考訳（メタデータ） (2025-05-05T05:42:14Z)
CoLA: Compute-Efficient Pre-Training of LLMs via Low-Rank Activation [17.807249890437767]
我々は,CoLAとそのメモリ効率向上実装であるCoLA-Mを紹介する。モデルアクティベーションにおいて広く観測される低ランク構造を利用して、モデルサイズを削減し、モデルのキャパシティを向上し、トレーニング効率を向上させる。 6000万から70億のパラメータを持つLLaMAモデルの実験では、CoLAはコンピューティングコストを$bf 2pmbtimes$で削減し、フルランクレベルのパフォーマンスを維持しながら、トレーニングスループットを$bf 1.86pmbtimes$で改善している。
論文参考訳（メタデータ） (2025-02-16T01:05:16Z)
Huff-LLM: End-to-End Lossless Compression for Efficient LLM Inference [19.59857352852377]
大規模言語モデル(LLM)は、急速にサイズを拡大し続けている。これにより、小さなエッジデバイス上でのLLMの動作の困難さが増した。本稿では,LLM重みを圧縮形式で格納するHuff-LLMを提案する。
論文参考訳（メタデータ） (2025-02-02T21:23:42Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
Basis Sharing: Cross-Layer Parameter Sharing for Large Language Model Compression [5.206085750261924]
大規模言語モデル(LLM)は、推論においてかなりの量のメモリストレージを必要とする。本稿では,特異値分解を伴う異なる層間のパラメータ共有について検討する。総合的な実験により、Basis Sharingは最先端のSVDベースの圧縮アプローチより優れていることが示された。
論文参考訳（メタデータ） (2024-10-02T14:30:02Z)
Low-Rank Quantization-Aware Training for LLMs [8.535254310145005]
大規模言語モデル(LLM)は、一様だが、計算とメモリの需要がますます増大しているため、その実践的な展開は困難である。 LLMのための軽量かつメモリ効率のQATアルゴリズムであるLR-QATを提案する。提案手法は、PTQ(Common-training Quantization)アプローチよりも優れ、メモリ使用率のごく一部でフルモデルQATと同じモデル性能に達する。
論文参考訳（メタデータ） (2024-06-10T15:44:22Z)
Enabling High-Sparsity Foundational Llama Models with Efficient Pretraining and Deployment [56.44025052765861]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらしたが、そのサイズは計算のボトルネックを生み出している。そこで本研究では,高性能LLMの高精度かつ疎結合な基本バージョンを作成するための新しいアプローチを提案する。スパース量子化LLaMAの最大8.6倍のCPU上での総高速化を示す。
論文参考訳（メタデータ） (2024-05-06T16:03:32Z)
Dynamic Memory Compression: Retrofitting LLMs for Accelerated Inference [1.9639467358416092]
トランスフォーマーは、大きな言語モデル(LLM)のバックボーンとして登場した。本稿では,動的メモリ圧縮(DMC)を提案する。 Llama 2 (7B, 13B, 70B) などの事前学習 LLM を DMC トランスフォーマーに適合させ,NVIDIA H100 GPU 上での自己回帰推論で最大 7 倍のスループット向上を実現した。
論文参考訳（メタデータ） (2024-03-14T17:59:26Z)
BiLLM: Pushing the Limit of Post-Training Quantization for LLMs [53.31402059062365]
BiLLMは、事前訓練された大規模言語モデルに適した1ビット後のトレーニング後の量子化スキームである。 LLaMA2-70Bの8.41パープレキシティは、様々なLLMファミリーで1.08ビットの重みしか持たない。
論文参考訳（メタデータ） (2024-02-06T09:26:34Z)
Compressing LLMs: The Truth is Rarely Pure and Never Simple [90.05366363633568]
Knowledge-Intensive Compressed LLM BenchmarKは、圧縮された大言語モデルの評価プロトコルを再定義することを目的としている。 LLM-KICKは、現在のSoTA圧縮方式の多くの有利な利点と不運な点を明らかにしている。 LLM-KICKは、言語理解、推論、生成、テキスト内検索、テキスト内要約などのための圧縮LLMの能力に一様にアクセスできるように設計されている。
論文参考訳（メタデータ） (2023-10-02T17:42:37Z)
SpQR: A Sparse-Quantized Representation for Near-Lossless LLM Weight Compression [76.73007709690306]
Sparse-Quantized Representation (SpQR) は,新しい圧縮フォーマットと量子化技術である。 SpQRは、高精度なLLaMAとFalcon LLMのパープレキシティにおいて、1%未満の相対的精度の損失を達成している。これにより、1台の24GBのコンシューマGPU上で33BパラメータのLSMを実行でき、15%のスピードアップでパフォーマンスの劣化は発生しない。
論文参考訳（メタデータ） (2023-06-05T17:53:28Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。