論文の概要: ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression
- arxiv url: http://arxiv.org/abs/2602.11008v1
- Date: Wed, 11 Feb 2026 16:34:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-12 21:44:02.189413
- Title: ROCKET: Rapid Optimization via Calibration-guided Knapsack Enhanced Truncation for Efficient Model Compression
- Title(参考訳): ROCKET: キャリブレーション誘導Knapsackによる効率的なモデル圧縮のための高速最適化
- Authors: Ammar Ali, Baher Mohammad, Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Stamatios Lefkimmiatis,
- Abstract要約: ROCKETは、因子化、構造化スパーシフィケーション、動的圧縮ベースラインと比較し、最先端の性能を実現する訓練不要なモデル圧縮手法である。
ROCKETは、異なるモデルアーキテクチャにおける既存の圧縮手法を20-50%の圧縮速度で一貫して上回っている。
- 参考スコア(独自算出の注目度): 5.280540253822294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present ROCKET, a training-free model compression method that achieves state-of-the-art performance in comparison with factorization, structured-sparsification and dynamic compression baselines. Operating under a global compression budget, ROCKET comprises two key innovations: First, it formulates layer-wise compression allocation as a multi-choice knapsack problem, selecting the optimal compression level for each layer to minimize total reconstruction error while adhering to a target model size. Second, it introduces a single-step sparse matrix factorization inspired by dictionary learning: using only a small calibration set, it sparsifies weight coefficients based on activation-weights sensitivity and then updates the dictionary in closed form via least squares bypassing iterative optimization, sparse coding, or backpropagation entirely. ROCKET consistently outperforms existing compression approaches across different model architectures at 20-50\% compression rates. Notably, it retains over 90\% of the original model's performance at 30\% compression without any fine-tuning. Moreover, when applying a light fine-tuning phase, recovery is substantially enhanced: for instance, compressing Qwen3-14B to an 8B-parameter model and healing it with just 30 million tokens yields performance nearly on par with the original Qwen3-8B. The code for ROCKET is at github.com/mts-ai/ROCKET/tree/main.
- Abstract(参考訳): ROCKETは、因子化、構造化スパーシフィケーション、動的圧縮ベースラインと比較して、最先端の性能を実現する訓練不要なモデル圧縮手法である。
ROCKETは、グローバルな圧縮予算の下で運用されており、まず、層単位での圧縮割り当てをマルチ選択クナップサック問題として定式化し、各層に対して最適な圧縮レベルを選択して、ターゲットモデルサイズに固執しながら、全体の再構成エラーを最小限に抑える。
第2に、辞書学習にインスパイアされた単一ステップのスパース行列分解を導入し、小さなキャリブレーションセットのみを使用して、アクティベーション重みの感度に基づいてウェイト係数を分散し、イテレーティブ最適化、スパースコーディング、あるいはバックプロパゲーションを完全にパスすることで、最小二乗によるクローズドな形式で辞書を更新する。
ROCKETは、異なるモデルアーキテクチャにおける既存の圧縮アプローチを20~50%の圧縮レートで一貫して上回っている。
特に、オリジナルのモデルの性能の90%以上を、微調整なしで30倍の圧縮で保持している。
さらに、軽微調整フェーズを適用すると、例えば、Qwen3-14Bを8Bパラメータモデルに圧縮し、3000万のトークンでヒーリングすると、元のQwen3-8Bとほぼ同等の性能が得られる。
ROCKETのコードはgithub.com/mts-ai/ROCKET/tree/mainにある。
関連論文リスト
- Compressing Many-Shots in In-Context Learning [61.231471139896506]
マルチショットプロンプトを圧縮することにより,ICL推論のメモリと計算効率を向上させる手法を提案する。
まず,既存のプロンプト圧縮手法がマルチショット圧縮には有効でないことを示す。
本稿では,レイヤワイド圧縮手法であるMemComを提案する。
論文 参考訳(メタデータ) (2025-10-17T16:57:42Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - HEMGS: A Hybrid Entropy Model for 3D Gaussian Splatting Data Compression [25.820461699307042]
本稿では,3次元ガウススプラッティング(HEMGS)のためのハイブリッドエントロピーモデルを提案する。
変数レート予測器、ハイパープライアネットワーク、自動回帰ネットワークの3つの主要コンポーネントで構成されている。
HEMGSは、ベースラインメソッドのレンダリング品質を維持しながら、約40%のサイズ削減を実現している。
論文 参考訳(メタデータ) (2024-11-27T16:08:59Z) - Fast Feedforward 3D Gaussian Splatting Compression [55.149325473447384]
3D Gaussian Splatting (FCGS) は、1つのフィードフォワードパスで3DGS表現を高速に圧縮できる最適化フリーモデルである。
FCGSは圧縮比を20倍以上に向上し、高精細度を維持しながら、ほとんどのシーン毎のSOTA最適化手法を上回ります。
論文 参考訳(メタデータ) (2024-10-10T15:13:08Z) - Order of Compression: A Systematic and Optimal Sequence to Combinationally Compress CNN [5.25545980258284]
本稿では,複数の圧縮手法を最も効率的な順序で適用するための,体系的かつ最適なシーケンスを提案する。
提案手法では,ResNet34の計算コストを最大859倍に削減する。
我々は, モデル圧縮の行程をシンプルかつ効果的に探索することで, モデル圧縮の実践に光を当てることができると考えている。
論文 参考訳(メタデータ) (2024-03-26T07:26:00Z) - Activations and Gradients Compression for Model-Parallel Training [85.99744701008802]
モデル並列分散トレーニングセットアップにおけるアクティベーションと勾配の同時圧縮が収束に与える影響について検討する。
グラデーションはアクティベーションよりも軽度な圧縮速度を必要とする。
実験では、TopKでトレーニングされたモデルが、推論中に圧縮も適用された場合にのみ正常に動作することが示されている。
論文 参考訳(メタデータ) (2024-01-15T15:54:54Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。