Fugu-MT 論文翻訳(概要): ExCP: Extreme LLM Checkpoint Compression via Weight-Momentum Joint Shrinking

論文の概要: ExCP: Extreme LLM Checkpoint Compression via Weight-Momentum Joint Shrinking

arxiv url: http://arxiv.org/abs/2406.11257v1
Date: Mon, 17 Jun 2024 06:47:29 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-18 18:04:29.209777
Title: ExCP: Extreme LLM Checkpoint Compression via Weight-Momentum Joint Shrinking
Title（参考訳）: ExCP: 軽量関節研削による極端LCMチェックポイント圧縮
Authors: Wenshuo Li, Xinghao Chen, Han Shu, Yehui Tang, Yunhe Wang,
Abstract要約: 大規模言語モデル(LLM)は最近、人工知能の分野で大きな注目を集めている。本稿では,エクストリームチェックポイント圧縮(Exreme Checkpoint Compression, ExCP)フレームワークを提案する。提案した ExCP フレームワークを,410M から 7B のパラメータを含む複数のモデルで広範囲に評価し,高い性能を維持しつつ,ストレージの大幅な削減を実証した。
参考スコア（独自算出の注目度）: 39.02269424136506
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLM) have recently attracted significant attention in the field of artificial intelligence. However, the training process of these models poses significant challenges in terms of computational and storage capacities, thus compressing checkpoints has become an urgent problem. In this paper, we propose a novel Extreme Checkpoint Compression (ExCP) framework, which significantly reduces the required storage of training checkpoints while achieving nearly lossless performance. We first calculate the residuals of adjacent checkpoints to obtain the essential but sparse information for higher compression ratio. To further excavate the redundancy parameters in checkpoints, we then propose a weight-momentum joint shrinking method to utilize another important information during the model optimization, i.e., momentum. In particular, we exploit the information of both model and optimizer to discard as many parameters as possible while preserving critical information to ensure optimal performance. Furthermore, we utilize non-uniform quantization to further compress the storage of checkpoints. We extensively evaluate our proposed ExCP framework on several models ranging from 410M to 7B parameters and demonstrate significant storage reduction while maintaining strong performance. For instance, we achieve approximately $70\times$ compression for the Pythia-410M model, with the final performance being as accurate as the original model on various downstream tasks. Codes will be available at https://github.com/Gaffey/ExCP.
Abstract（参考訳）: 大規模言語モデル(LLM)は最近、人工知能の分野で大きな注目を集めている。しかし、これらのモデルのトレーニングプロセスは、計算能力と記憶能力の面で大きな課題を生じさせており、チェックポイントの圧縮は緊急の問題となっている。本稿では,エクストリームチェックポイント圧縮(exreme Checkpoint Compression, ExCP)フレームワークを提案する。まず, 隣り合うチェックポイントの残差を計算し, 圧縮比を高めるために, 必須だがスパースな情報を得る。チェックポイントにおける冗長性パラメータをさらに掘り下げるために,モデル最適化において重要な情報,すなわち運動量を利用する重み付き関節収縮法を提案する。特に、モデルとオプティマイザの両方の情報を利用して、最適性能を確保するために重要な情報を保持しながら、可能な限り多くのパラメータを破棄する。さらに、不均一な量子化を利用してチェックポイントの保存をさらに圧縮する。提案した ExCP フレームワークを,410M から 7B のパラメータを含む複数のモデルで広範囲に評価し,高い性能を維持しつつ,ストレージの大幅な削減を実証した。例えば、Pythia-410Mモデルに対して約70\times$圧縮を実現し、最終的な性能は様々な下流タスクのオリジナルのモデルと同じくらい正確である。コードはhttps://github.com/Gaffey/ExCP.comで入手できる。

関連論文リスト

Efficient Token Compression for Vision Transformer with Spatial Information Preserved [59.79302182800274]
トーケン圧縮は、トランスモデルの計算およびメモリ要求の低減に不可欠である。本稿では,Prune と Merge という,効率的なハードウェア互換のトークン圧縮手法を提案する。
論文参考訳（メタデータ） (2025-03-30T14:23:18Z)
When Compression Meets Model Compression: Memory-Efficient Double Compression for Large Language Models [12.687035979970194]
本稿では,量子化後の大規模言語モデル(LLM)を圧縮するフレームワークを提案する。量子化に先立ってモデルパラメータを再スケーリングすることにより, モデル重量圧縮性を高めるために, 圧縮対応量子化法が最初に提案され, さらにさらに改良するプルーニング法が提案されている。圧縮されたモデルによる推論は、精度と推論速度の損失を無視して、メモリサイズを40%削減できることを示す実験である。
論文参考訳（メタデータ） (2025-02-21T13:11:22Z)
Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。 ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文参考訳（メタデータ） (2025-02-03T18:40:58Z)
LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文参考訳（メタデータ） (2024-10-04T03:10:53Z)
CORM: Cache Optimization with Recent Message for Large Language Model Inference [57.109354287786154]
メモリフットプリントを大幅に最小化するKVキャッシュを最適化する革新的な手法を提案する。 KVキャッシュ消去ポリシーであるCORMは、モデル微調整を必要とせずに、推論に必要なキーと値のペアを動的に保持する。検証の結果,CORMはKVキャッシュの推論メモリ使用量を最大70%削減し,LongBenchの6つのタスクで性能劣化を無視できることがわかった。
論文参考訳（メタデータ） (2024-04-24T16:11:54Z)
The Cost of Compression: Investigating the Impact of Compression on Parametric Knowledge in Language Models [11.156816338995503]
大規模言語モデル(LLM)は、より高速な推論、メモリフットプリントの縮小、ローカルデプロイメントを可能にする。 2つの標準的な圧縮手法はプルーニングと量子化であり、前者はモデル層における冗長な接続を排除し、後者はより少ないビットでモデルパラメータを表現する。 LLM圧縮に関する既存の研究は、主にパープレキシティやダウンストリームタスクの精度といった一般的な指標のパフォーマンスに焦点を当てている。パラメトリックな知識を測定するような、よりきめ細かいメトリクスは、いまだにかなり過小評価されている。
論文参考訳（メタデータ） (2023-12-01T22:27:12Z)
Inshrinkerator: Compressing Deep Learning Training Checkpoints via Dynamic Quantization [5.648270790530862]
最先端のアプローチには、結果のモデル品質(精度)と圧縮比とのトレードオフを引き起こす、損失のあるモデル圧縮機構が含まれる。モデル重みの圧縮に対する感度がトレーニング中に変化し、異なる重みが異なる量子化レベルから恩恵を受けることを重要視する。本稿では,この変動を利用した非一様量子化手法,最適な量子化構成を動的に見つける効率的な探索機構,重みを再構成してチェックポイント差を最小限に抑える量子化対応デルタ圧縮機構を提案する。
論文参考訳（メタデータ） (2023-06-20T18:00:31Z)
Compress, Then Prompt: Improving Accuracy-Efficiency Trade-off of LLM Inference with Transferable Prompt [96.24800696597707]
圧縮モデルにより,このトレードオフを最適化する新たな視点を導入する。本稿では,圧縮されたモデルを学習プロセスに公開するソフトプロンプト学習法を提案する。我々のソフトプロンプト戦略は8x圧縮LLaMA-7Bモデルの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-05-17T20:45:13Z)
When Liebig's Barrel Meets Facial Landmark Detection: A Practical Model [87.25037167380522]
正確で、堅牢で、効率的で、一般化可能で、エンドツーエンドのトレーニングが可能なモデルを提案する。精度を向上させるために,2つの軽量モジュールを提案する。 DQInitは、インプットからデコーダのクエリを動的に初期化し、複数のデコーダ層を持つものと同じ精度でモデルを実現する。 QAMemは、共有するクエリではなく、それぞれのクエリに別々のメモリ値を割り当てることで、低解像度のフィーチャーマップ上のクエリの識別能力を高めるように設計されている。
論文参考訳（メタデータ） (2021-05-27T13:51:42Z)
Check-N-Run: A Checkpointing System for Training Deep Learning Recommendation Models [5.604501524927757]
我々はFacebookで大規模機械学習モデルをトレーニングするためのスケーラブルなチェックポイントシステムであるCheck-N-Runを紹介する。 Check-N-Runでは、サイズと帯域幅の問題に対処する2つの主要なテクニックを使用している。これらの技術により、Check-N-Runは、実際のモデルで必要な書き込み帯域幅を6-17倍、必要な容量を2.5-8倍削減できる。
論文参考訳（メタデータ） (2020-10-17T00:45:55Z)
On Efficient Constructions of Checkpoints [21.965296582303115]
LC-Checkpoint(LC-Checkpoint)と呼ばれるチェックポイント構築のための損失圧縮手法を提案する。 LC-Checkpointは同時に圧縮速度を最大化し、回復速度を最適化する。実験の結果,LC-Checkpointは圧縮速度を最大28倍に向上し,回収速度を5.77倍に向上させることができた。
論文参考訳（メタデータ） (2020-09-28T01:20:15Z)
Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文参考訳（メタデータ） (2020-04-15T20:10:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。