論文の概要: Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression
- arxiv url: http://arxiv.org/abs/2505.13563v1
- Date: Mon, 19 May 2025 10:37:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 14:49:52.444438
- Title: Breaking the Compression Ceiling: Data-Free Pipeline for Ultra-Efficient Delta Compression
- Title(参考訳): 圧縮シーリングを破る:超高効率デルタ圧縮のためのデータフリーパイプライン
- Authors: Xiaohui Wang, Peng Ye, Chenyu Huang, Shenghe Zheng, Bo Zhang, Wanli Ouyang, Tao Chen,
- Abstract要約: UltraDeltaはデータフリーのデルタ圧縮パイプラインで、超高圧縮と強力なパフォーマンスを実現する。
UltraDeltaは、冗長性を最小化し、情報を最大化し、層間、層内、大域的な寸法で性能を安定させるように設計されている。
- 参考スコア(独自算出の注目度): 47.88454706011022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rise of the fine-tuned--pretrained paradigm, storing numerous fine-tuned models for multi-tasking creates significant storage overhead. Delta compression alleviates this by storing only the pretrained model and the highly compressed delta weights (the differences between fine-tuned and pretrained model weights). However, existing methods fail to maintain both high compression and performance, and often rely on data. To address these challenges, we propose UltraDelta, the first data-free delta compression pipeline that achieves both ultra-high compression and strong performance. UltraDelta is designed to minimize redundancy, maximize information, and stabilize performance across inter-layer, intra-layer, and global dimensions, using three key components: (1) Variance-Based Mixed Sparsity Allocation assigns sparsity based on variance, giving lower sparsity to high-variance layers to preserve inter-layer information. (2) Distribution-Aware Compression applies uniform quantization and then groups parameters by value, followed by group-wise pruning, to better preserve intra-layer distribution. (3) Trace-Norm-Guided Rescaling uses the trace norm of delta weights to estimate a global rescaling factor, improving model stability under higher compression. Extensive experiments across (a) large language models (fine-tuned on LLaMA-2 7B and 13B) with up to 133x, (b) general NLP models (RoBERTa-base, T5-base) with up to 800x, (c) vision models (ViT-B/32, ViT-L/14) with up to 400x, and (d) multi-modal models (BEiT-3) with 40x compression ratio, demonstrate that UltraDelta consistently outperforms existing methods, especially under ultra-high compression.
- Abstract(参考訳): 微調整-事前訓練パラダイムの台頭により、マルチタスクのための多数の微調整モデルを保存することで、ストレージオーバーヘッドが大幅に増大する。
デルタ圧縮は、事前訓練されたモデルと高度に圧縮されたデルタ重み(微調整されたモデル重みと事前訓練されたモデル重みの違い)のみを格納することでこれを緩和する。
しかし、既存のメソッドは高い圧縮とパフォーマンスの両方を維持することができず、しばしばデータに依存している。
これらの課題に対処するため,UltraDeltaを提案する。UltraDeltaは,超高圧縮と高性能を実現する最初のデータフリーデルタ圧縮パイプラインである。
UltraDeltaは, 層間, 層間, 層間, グローバル次元にわたる性能を最小化し, 最大化し, 性能を安定させるように設計されている。
2) 分布認識圧縮は, 均一な量子化を適用し, 続いてグループワイドプルーニングを行い, 層内分布の保存性を向上する。
(3)Trace-Norm-Guided Rescalingは、デルタ重みのトレースノルムを用いて、大域的再スケーリング係数を推定し、より高い圧縮下でモデルの安定性を向上させる。
広汎な実験
(a)大型言語モデル(LLaMA-2 7Bと13Bで微調整)で最大133倍。
(b)一般的なNLPモデル(RoBERTaベース、T5ベース)は最大800倍。
(c)ビジョンモデル(ViT-B/32、ViT-L/14)最大400倍、
(d)40倍圧縮比を持つマルチモーダルモデル(BEiT-3)は,UltraDeltaが既存の手法,特に超高圧縮下で一貫して優れていることを示す。
関連論文リスト
- Dynamic Base model Shift for Delta Compression [53.505380509713575]
デルタ圧縮はデルタパラメータの冗長性を減少させることでコスト削減を試みる。
既存のメソッドはデフォルトでベースモデルとして事前訓練されたモデルを使用し、各タスクのデルタパラメータを圧縮する。
デルタ圧縮を行う前にベースモデルを対象タスクに動的に適応させる動的ベースモデルシフト(DBMS)を提案する。
論文 参考訳(メタデータ) (2025-05-16T15:11:19Z) - 4DGC: Rate-Aware 4D Gaussian Compression for Efficient Streamable Free-Viewpoint Video [56.04182926886754]
3D Gaussian Splatting (3DGS)は、フォトリアリスティック・フリー・ビューポイント・ビデオ(FVV)体験を可能にする大きな可能性を秘めている。
既存の方法は、動的3DGS表現と圧縮を別々に扱うのが一般的である。
本稿では,FVVのRD性能を向上しつつ,ストレージサイズを大幅に削減するレート対応4Dガウス圧縮フレームワークである4DGCを提案する。
論文 参考訳(メタデータ) (2025-03-24T08:05:27Z) - Seeing Delta Parameters as JPEG Images: Data-Free Delta Compression with Discrete Cosine Transform [51.29604910007176]
従来のJPEG画像圧縮にインスパイアされた最初のデータフリーデルタ圧縮手法であるDelta-DCTを導入し、離散コサイン変換(DCT)を利用する。
提案したデルタ-DCTはトレーニングやデータキャリブレーションを一切必要とせず、1ビット相当のデルタ圧縮比で元の微調整モデルに匹敵する性能を達成し、(1)最近7Bから13Bに異なるサイズのLSMを新たにリリースし、(2)RoBERTaやT5モデルを含む比較的小さな言語モデル、(3)視覚トランスフォーマーモデル、(4)マルチモーダルBEiT-3モデルなど様々なモデルで達成した。
論文 参考訳(メタデータ) (2025-03-09T16:03:48Z) - GoDe: Gaussians on Demand for Progressive Level of Detail and Scalable Compression [13.616981296093932]
本稿では,ガウスを複数の階層構造に整理する,新しいモデルに依存しない手法を提案する。
この手法は最近の3DGSの圧縮手法と組み合わせて、単一のモデルで複数の圧縮比を瞬時にスケールすることができる。
典型的なデータセットやベンチマークに対するアプローチを検証し、スケーラビリティと適応性の観点から、低歪みと実質的な利得を示す。
論文 参考訳(メタデータ) (2025-01-23T11:05:45Z) - DeltaDQ: Ultra-High Delta Compression for Fine-Tuned LLMs via Group-wise Dropout and Separate Quantization [17.501956455837707]
大規模言語モデルは、教師付き微調整により、様々な下流タスクにおいて例外的なパフォーマンスを達成する。
デルタ重量を圧縮する現在の方法は超高圧縮を達成するのに苦労している。
デルタ重みの超高圧縮を実現するために,分布駆動型デルタ圧縮フレームワークデルタDQを提案する。
論文 参考訳(メタデータ) (2024-10-11T09:44:16Z) - Compression via Pre-trained Transformers: A Study on Byte-Level Multimodal Data [8.475091996107741]
本稿では,事前学習したバニラ変圧器との競合圧縮比が可能なスイートスポットが存在するかを検討する。
テキスト、画像、オーディオデータの165GBの生のバイトシーケンスでモデルのファミリーをトレーニングします。
比較的小さなモデル(つまり数百万のパラメータ)が、標準的な汎用圧縮アルゴリズムより優れていることが分かりました。
論文 参考訳(メタデータ) (2024-10-07T14:32:03Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。