論文の概要: Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression
- arxiv url: http://arxiv.org/abs/2604.01609v1
- Date: Thu, 02 Apr 2026 04:40:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.274164
- Title: Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression
- Title(参考訳): Swift-SVD:低ランクLLM圧縮における理論的最適性
- Authors: Ruoling Qi, Yirui Liu, Xuaner Wu, Xiangyu Wang, Ming Li, Chen Chen, Jian Chen, Yin Chen, Qizhen Weng,
- Abstract要約: 大規模言語モデルは、静的ウェイトと動的キーバリューキャッシュのメモリと帯域幅の要求によって制約される。
既存手法には2つの重要な制限がある: 一部は再構成誤差において最適でないが、他方は理論的に最適だが実際は非効率である。
我々は,理論的最適性,実用的効率,数値安定性を保証する,アクティベーション対応クローズドフォーム圧縮フレームワークであるSwift-SVDを提案する。
- 参考スコア(独自算出の注目度): 10.689840449667974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The deployment of Large Language Models is constrained by the memory and bandwidth demands of static weights and dynamic Key-Value cache. SVD-based compression provides a hardware-friendly solution to reduce these costs. However, existing methods suffer from two key limitations: some are suboptimal in reconstruction error, while others are theoretically optimal but practically inefficient. In this paper, we propose Swift-SVD, an activation-aware, closed-form compression framework that simultaneously guarantees theoretical optimum, practical efficiency and numerical stability. Swift-SVD incrementally aggregates covariance of output activations given a batch of inputs and performs a single eigenvalue decomposition after aggregation, enabling training-free, fast, and optimal layer-wise low-rank approximation. We employ effective rank to analyze local layer-wise compressibility and design a dynamic rank allocation strategy that jointly accounts for local reconstruction loss and end-to-end layer importance. Extensive experiments across six LLMs and eight datasets demonstrate that Swift-SVD outperforms state-of-the-art baselines, achieving optimal compression accuracy while delivering 3-70X speedups in end-to-end compression time. Our code will be released upon acceptance.
- Abstract(参考訳): 大規模言語モデルの展開は、静的ウェイトと動的キーバリューキャッシュのメモリと帯域幅の要求によって制限される。
SVDベースの圧縮は、これらのコストを削減するハードウェアフレンドリーなソリューションを提供する。
しかし、既存の手法には2つの重要な制限がある: 一部は再構成誤差において最適でないが、他方は理論的に最適だが実際は非効率である。
本稿では,理論的最適性,実用性,数値安定性を同時に保証する,アクティベーション対応のクローズドフォーム圧縮フレームワークであるSwift-SVDを提案する。
Swift-SVDは、一連の入力が与えられた出力アクティベーションの共分散をインクリメンタルに集約し、アグリゲーション後の単一の固有値分解を実行する。
我々は,局所的な層圧縮性の解析と,局所的な復元損失とエンドツーエンドの層の重要性を共同で考慮した動的ランク割り当て戦略の設計に有効なランクを用いる。
6つのLLMと8つのデータセットにわたる大規模な実験により、Swift-SVDは最先端のベースラインよりも優れており、エンドツーエンドの圧縮時間で3,70倍のスピードアップを実現している。
私たちのコードは受け入れ次第解放されます。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - SAES-SVD: Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression [27.258302662888166]
SAES-SVDは、大規模言語モデルの低ランク圧縮フレームワークである。
層内再構成と層間誤差補償を共同で最適化する。
実験により,SAES-SVDは圧縮後の性能を常に改善することが示された。
論文 参考訳(メタデータ) (2026-02-03T03:23:10Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文 参考訳(メタデータ) (2025-05-29T19:42:35Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Learning Accurate Performance Predictors for Ultrafast Automated Model
Compression [86.22294249097203]
フレキシブルネットワーク展開のための超高速自動モデル圧縮フレームワークSeerNetを提案する。
本手法は,探索コストを大幅に削減した競合精度・複雑度トレードオフを実現する。
論文 参考訳(メタデータ) (2023-04-13T10:52:49Z) - You Only Compress Once: Towards Effective and Elastic BERT Compression
via Exploit-Explore Stochastic Nature Gradient [88.58536093633167]
既存のモデル圧縮アプローチでは、さまざまなハードウェアデプロイメントに対応するために、さまざまな制約にまたがる再圧縮や微調整が必要となる。
圧縮を一度行い、至るところに展開するための新しいアプローチであるYOCO-BERTを提案する。
最先端のアルゴリズムと比較すると、YOCO-BERTはよりコンパクトなモデルを提供するが、GLUEベンチマークの平均精度は2.1%-4.5%向上している。
論文 参考訳(メタデータ) (2021-06-04T12:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。