論文の概要: SAES-SVD: Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression
- arxiv url: http://arxiv.org/abs/2602.03051v1
- Date: Tue, 03 Feb 2026 03:23:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.219158
- Title: SAES-SVD: Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression
- Title(参考訳): SAES-SVD: SVDを用いたLLM圧縮のための累積誤差と局所誤差の自己適応抑制
- Authors: Xing Hu, Dawei Yang, Yuan Cheng, Zhixuan Chen, Zukang Xu,
- Abstract要約: SAES-SVDは、大規模言語モデルの低ランク圧縮フレームワークである。
層内再構成と層間誤差補償を共同で最適化する。
実験により,SAES-SVDは圧縮後の性能を常に改善することが示された。
- 参考スコア(独自算出の注目度): 27.258302662888166
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid growth in the parameter scale of large language models (LLMs) has created a high demand for efficient compression techniques. As a hardware-agnostic and highly compatible technique, low-rank compression has been widely adopted. However, existing methods typically compress each layer independently by minimizing per-layer reconstruction error, overlooking a critical limitation: the reconstruction error propagates and accumulates through the network, which leads to amplified global deviations from the full-precision baseline. To address this, we propose Self-Adaptive Error Suppression SVD (SAES-SVD), a LLMs compression framework that jointly optimizes intra-layer reconstruction and inter-layer error compensation. SAES-SVD is composed of two novel components: (1) Cumulative Error-Aware Layer Compression (CEALC), which formulates the compression objective as a combination of local reconstruction and weighted cumulative error compensation. Based on it, we derive a closed-form low-rank solution relied on second-order activation statistics, which explicitly aligns each layer's output with its full-precision counterpart to compensate for accumulated errors. (2) Adaptive Collaborative Error Suppression (ACES), which automatically adjusts the weighting coefficient to enhance the low-rank structure of the compression objective in CEALC. Specifically, the coefficient is optimized to maximize the ratio between the Frobenius norm of the compressed layer's output and that of the compression objective under a fixed rank, thus ensuring that the rank budget is utilized effectively. Extensive experiments across multiple LLM architectures and tasks show that, without fine-tuning or mixed-rank strategies, SAES-SVD consistently improves post-compression performance.
- Abstract(参考訳): 大規模言語モデル(LLM)のパラメータスケールの急速な成長は、効率的な圧縮技術に対する高い需要を生み出している。
ハードウェアに依存しない高互換性技術として、低ランク圧縮が広く採用されている。
しかし, 従来の手法では, 層間再構成誤差を最小化して各層を独立に圧縮する手法が一般的であり, 再構成誤差はネットワークを介して伝播・蓄積するので, 全精度ベースラインからのグローバルな偏差が増幅される。
そこで本研究では,層内再構成と層間誤り補償を協調的に最適化するLLM圧縮フレームワークである自己適応誤差抑圧SVD(SAES-SVD)を提案する。
SAES-SVDは,(1)累積誤差認識層圧縮(CEALC)という,局所的再構成と重み付き累積誤差補償を組み合わせた圧縮目標を定式化した2つの新しいコンポーネントから構成される。
これに基づいて、2階アクティベーション統計に依存する閉形式低ランク解を導出し、各層の出力を、蓄積したエラーを補償する完全精度のものと明確に整合する。
2) CEALCにおける圧縮対象の低ランク構造を強化するために重み付け係数を自動的に調整する適応的協調誤差抑制(ACES)について検討した。
具体的には、圧縮層の出力のフロベニウスノルムと一定ランクの圧縮目標との比を最大化するために係数を最適化し、ランク予算を効果的に活用する。
複数のLLMアーキテクチャやタスクにわたる大規模な実験は、微調整や混合ランクの戦略がなければ、SAES-SVDは圧縮後の性能を一貫して改善することを示している。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - CPSVD: Enhancing Large Language Model Compression via Column-Preserving Singular Value Decomposition [20.302975265084964]
textbfColumn-textbfPreserving textbfSingular textbfValue textbfDecomposition (CPSVD)を提案する。
CPSVDは、パラメータ行列をインテリジェントにセグメント化することで、SVDベースのLarge Language Models圧縮を洗練する。
最先端のSVDベースのLLM圧縮手法を一貫して上回り、ゼロショットタスクにおいて低いパープレキシティと高い精度を達成する。
論文 参考訳(メタデータ) (2025-10-22T09:02:37Z) - Activation-Informed Pareto-Guided Low-Rank Compression for Efficient LLM/VLM [11.762499172999886]
大規模言語モデル (LLM) と視覚言語モデル (VLM) は最先端のパフォーマンスを達成しているが、それらは展開において重要なメモリとコンピューティングの課題を課している。
この課題に対処する新しい低ランク圧縮フレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-07T03:07:47Z) - CALR: Corrective Adaptive Low-Rank Decomposition for Efficient Large Language Model Layer Compression [0.0]
大規模言語モデル(LLM)は、その膨大なサイズと計算要求のために、重大なデプロイメント上の課題を提示する。
本稿では,2成分圧縮手法である補正適応低ランク分解(CALR)を導入する。
CALR はパラメータ数を 26.93% から 51.77% に削減でき、元のモデルの性能の59.45% から 90.42% に維持できることを示した。
論文 参考訳(メタデータ) (2025-08-21T13:16:02Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [75.1196637934987]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - Communication-Efficient Distributed Learning with Local Immediate Error
Compensation [95.6828475028581]
本稿では,局所的即時誤差補償SGD (LIEC-SGD) 最適化アルゴリズムを提案する。
LIEC-SGDは、コンバージェンスレートまたは通信コストのいずれにおいても、以前の研究よりも優れている。
論文 参考訳(メタデータ) (2024-02-19T05:59:09Z) - Lightweight Attribute Localizing Models for Pedestrian Attribute Recognition [13.480231032159834]
本稿では,圧縮モデルの勾配方向が元のモデルと密接に一致していることを保証するため,低ランク層の最適ランクを決定する新しい手法を提案する。
これは、圧縮されたモデルはフルモデルの更新方向を効果的に保存し、歩行者属性認識タスクのより効率的な圧縮を可能にすることを意味する。
論文 参考訳(メタデータ) (2023-06-16T13:07:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。