論文の概要: EvoPress: Accurate Dynamic Model Compression via Evolutionary Search
- arxiv url: http://arxiv.org/abs/2410.14649v2
- Date: Tue, 01 Jul 2025 14:41:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-02 17:57:15.517607
- Title: EvoPress: Accurate Dynamic Model Compression via Evolutionary Search
- Title(参考訳): EvoPress:進化的検索による正確な動的モデル圧縮
- Authors: Oliver Sieberling, Denis Kuznedelev, Eldar Kurtic, Dan Alistarh,
- Abstract要約: EvoPressは、大規模言語モデルの動的圧縮のための進化的フレームワークである。
最適な圧縮プロファイルを高い効率で識別する。
我々は,動的ビット幅の量子化,非構造的空間性,構造的プルーニング(ブロック/層降下),非構造的空間性,新しいベンチマークを設定した。
- 参考スコア(独自算出の注目度): 33.86918407429272
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The high computational costs of large language models (LLMs) have led to a flurry of research on LLM compression, via methods such as quantization, sparsification, or structured pruning. A new frontier in this area is given by dynamic, non-uniform compression methods, which adjust the compression levels (e.g., sparsity) per-block or even per-layer in order to minimize accuracy loss, while guaranteeing a global compression threshold. Yet, current methods rely on estimating the importance of a given layer, implicitly assuming that layers contribute independently to the overall compression error. We begin from the motivating observation that this independence assumption does not generally hold for LLM compression: pruning a model further may even significantly recover performance. To address this, we propose EvoPress, a novel evolutionary framework for dynamic LLM compression. By formulating dynamic compression as a general optimization problem, EvoPress identifies optimal compression profiles in a highly efficient manner, and generalizes across diverse models and compression techniques. Via EvoPress, we achieve state-of-the-art performance for dynamic compression of Llama, Mistral, and Phi models, setting new benchmarks for structural pruning (block/layer dropping), unstructured sparsity, and quantization with dynamic bitwidths. Our code is available at https://github.com/IST-DASLab/EvoPress}.
- Abstract(参考訳): 大規模言語モデル(LLM)の高計算コストは、量子化、スパーシフィケーション、構造化プルーニングといった手法を通じて、LLM圧縮の研究を急激なものにしている。
この領域の新しいフロンティアは、グローバルな圧縮しきい値を確保しつつ、精度の損失を最小限に抑えるために、ブロックごとの圧縮レベル(例えば、間隔)や層ごとの圧縮レベルを調節する動的で一様でない圧縮手法によって与えられる。
しかし、現在の手法は与えられたレイヤの重要性を推定することに依存しており、レイヤが全体的な圧縮エラーに独立して寄与すると暗黙的に仮定している。
我々は,この独立仮定が LLM 圧縮に一般的に当てはまらないという動機付け的な観察から始める。
そこで本稿では,動的LLM圧縮のための新しい進化的フレームワークであるEvoPressを提案する。
動的圧縮を一般的な最適化問題として定式化することにより、EvoPressは最適な圧縮プロファイルを高い効率で識別し、多様なモデルや圧縮技術にまたがって一般化する。
EvoPressは,Llama,Mistral,Phiモデルの動的圧縮のための最先端性能を実現し,構造化プルーニング(ブロック/層減少),非構造空間,動的ビット幅の量子化のための新しいベンチマークを設定した。
私たちのコードはhttps://github.com/IST-DASLab/EvoPress}で公開されています。
関連論文リスト
- A General Error-Theoretical Analysis Framework for Constructing Compression Strategies [3.1316260533944007]
本稿では,各層に対して最適な圧縮レベルを決定するための圧縮誤差理論(CET)フレームワークを提案する。
具体的には、ResNet-34モデルでは、CETはオリジナルのモデルに匹敵する性能を保ちながら、パラメータ圧縮の約11$times$を達成する。
論文 参考訳(メタデータ) (2025-02-19T06:12:43Z) - Choose Your Model Size: Any Compression by a Single Gradient Descent [9.074689052563878]
イテレーティブ・プルーニング(ACIP)による圧縮について紹介する。
ACIPは、単一の勾配降下ランから圧縮性能トレードオフを決定するアルゴリズム的なアプローチである。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Compression for Better: A General and Stable Lossless Compression Framework [7.356622397575378]
主な課題は、モデル損失を最小限に抑えるために圧縮エラーを効果的に活用することである。
一般的なtextbfLosstextbfLess textbfCompression理論フレームワーク(textbfLLC)を提案する。
量子化や分解など,様々な圧縮手法を適用する。
論文 参考訳(メタデータ) (2024-12-09T09:55:54Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Fundamental Limits of Prompt Compression: A Rate-Distortion Framework for Black-Box Language Models [21.025001473355996]
大規模言語モデル(LLM)の即時圧縮問題について定式化する。
ブラックボックスモデルのハードプロンプトを生成するトークンレベルのプロンプト圧縮手法を統合するためのフレームワークを提案する。
本稿では,現在の高速圧縮法の性能と最適戦略との間に大きなギャップがあることを述べる。
論文 参考訳(メタデータ) (2024-07-22T09:40:13Z) - Compression of Structured Data with Autoencoders: Provable Benefit of
Nonlinearities and Depth [83.15263499262824]
勾配勾配勾配は入力のスパース構造を完全に無視する解に収束することを示す。
浅層構造にデノナイジング関数を付加することにより,スパースデータの圧縮におけるガウス性能の改善方法を示す。
CIFAR-10 や MNIST などの画像データセットに対して,本研究の成果を検証した。
論文 参考訳(メタデータ) (2024-02-07T16:32:29Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Just CHOP: Embarrassingly Simple LLM Compression [27.64461490974072]
LLM(Large Language Model)は、非並列の少数およびゼロショット推論機能を実現するが、高い計算フットプリントを実現する。
拡張言語モデル事前学習と組み合わせた単純なレイヤプルーニングは、7Bスケールでモデルの構造的および半構造化された圧縮に対して最先端の結果をもたらすことを示す。
また,より小さなBERT型モデルのタスク非依存圧縮において非常に効果的であった蒸留が,我々の単純な刈り取り技術に対して非効率になることを示す。
論文 参考訳(メタデータ) (2023-05-24T08:18:35Z) - OPQ: Compressing Deep Neural Networks with One-shot Pruning-Quantization [32.60139548889592]
本稿では,新しいワンショットプルーニング量子化(OPQ)を提案する。
OPQは、事前訓練された重みパラメータのみによる圧縮割り当てを解析的に解決する。
本稿では,共通コードブックを共有するために各レイヤの全チャネルを強制する,統一的なチャネルワイド量子化手法を提案する。
論文 参考訳(メタデータ) (2022-05-23T09:05:25Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - Compressing Neural Networks: Towards Determining the Optimal Layer-wise
Decomposition [62.41259783906452]
本稿では,ディープニューラルネットワークのための新しいグローバル圧縮フレームワークを提案する。
各層を自動的に解析し、最適な層間圧縮比を特定する。
我々の結果は、現代のニューラルネットワークのグローバルなパフォーマンス-サイズトレードオフに関する将来の研究のための新たな道を開く。
論文 参考訳(メタデータ) (2021-07-23T20:01:30Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z) - Successive Pruning for Model Compression via Rate Distortion Theory [15.598364403631528]
NN圧縮を情報理論的手法を用いて検討し, NN圧縮の理論的限界を達成するために, 速度歪み理論がプルーニングを示唆していることを示す。
我々の導出は、新しいプルーニング戦略を含むエンドツーエンドの圧縮パイプラインも提供する。
本手法は,既存のプルーニング戦略を一貫して上回り,プルーニングモデルのサイズを2.5倍小さくする。
論文 参考訳(メタデータ) (2021-02-16T18:17:57Z) - A flexible, extensible software framework for model compression based on
the LC algorithm [10.787390511207683]
ニューラルネットワークや他の機械学習モデルを最小限の労力で圧縮できるソフトウェアフレームワークを提案する。
ライブラリはPythonとPyTorchで書かれており、Githubで入手できる。
論文 参考訳(メタデータ) (2020-05-15T21:14:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。