論文の概要: COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression
- arxiv url: http://arxiv.org/abs/2602.15200v1
- Date: Mon, 16 Feb 2026 21:31:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:17.912241
- Title: COMPOT: Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers Compression
- Title(参考訳): CompOT: 変圧器圧縮のための校正最適化マトリックスプロクリストの直交化
- Authors: Denis Makhov, Dmitriy Shopkhoev, Magauiya Zhussip, Ammar Ali, Baher Mohammad, Stamatios Lefkimmiatis,
- Abstract要約: Transformer モデルの学習後圧縮は、通常、切り離された特異値分解(SVD)に依存する
我々は、小さなキャリブレーションデータセットを用いてスパース重み分解を推定する、トレーニング不要な圧縮フレームワークCompotを提案する。
COMPOTは、強い低ランクとスパースベースラインよりも優れた品質圧縮トレードオフを一貫して提供します。
- 参考スコア(独自算出の注目度): 5.280540253822294
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Post-training compression of Transformer models commonly relies on truncated singular value decomposition (SVD). However, enforcing a single shared subspace can degrade accuracy even at moderate compression. Sparse dictionary learning provides a more flexible union-of-subspaces representation, but existing approaches often suffer from iterative dictionary and coefficient updates. We propose COMPOT (Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers), a training-free compression framework that uses a small calibration dataset to estimate a sparse weight factorization. COMPOT employs orthogonal dictionaries that enable closed-form Procrustes updates for the dictionary and analytical single-step sparse coding for the coefficients, eliminating iterative optimization. To handle heterogeneous layer sensitivity under a global compression budget, COMPOT further introduces a one-shot dynamic allocation strategy that adaptively redistributes layer-wise compression rates. Extensive experiments across diverse architectures and tasks show that COMPOT consistently delivers a superior quality-compression trade-off over strong low-rank and sparse baselines, while remaining fully compatible with post-training quantization for extreme compression. Code is available $\href{https://github.com/mts-ai/COMPOT}{here}$.
- Abstract(参考訳): Transformerモデルのトレーニング後の圧縮は、一般的に、切り離された特異値分解(SVD)に依存している。
しかし、単一の共有部分空間を強制することは、適度な圧縮でも精度を低下させることができる。
スパース辞書学習は、より柔軟な部分空間の結合表現を提供するが、既存のアプローチは反復辞書や係数の更新に悩まされることが多い。
小型キャリブレーションデータセットを用いてスパース重み分解を推定する訓練自由圧縮フレームワークであるCompot(Calibration-Optimized Matrix Procrustes Orthogonalization for Transformers)を提案する。
COMPOTは直交辞書を使用し、辞書のクローズドフォームProcrustes更新と係数の単一ステップスパース符号化を可能にし、反復最適化を排除している。
グローバル圧縮予算の下で不均一層感度を扱うために、Compotはさらに、層ワイド圧縮率を適応的に再分配するワンショットダイナミックアロケーション戦略を導入した。
多様なアーキテクチャやタスクにわたる大規模な実験により、Compotは強い低ランクとスパースベースラインよりも優れた品質圧縮トレードオフを一貫して提供する一方で、極端な圧縮のためにトレーニング後の量子化と完全に互換性を保っていることが示された。
コードは$\href{https://github.com/mts-ai/COMPOT}{here}$で入手できる。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - SAES-SVD: Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression [27.258302662888166]
SAES-SVDは、大規模言語モデルの低ランク圧縮フレームワークである。
層内再構成と層間誤差補償を共同で最適化する。
実験により,SAES-SVDは圧縮後の性能を常に改善することが示された。
論文 参考訳(メタデータ) (2026-02-03T03:23:10Z) - Concatenated Matrix SVD: Compression Bounds, Incremental Approximation, and Error-Constrained Clustering [0.0]
予測された共同SVD圧縮誤差がユーザ指定しきい値以下である場合にのみ、行列をマージする3つのクラスタリングアルゴリズムを提案する。
アルゴリズムは、スピード、証明可能な精度、スケーラビリティのトレードオフにまたがっており、明示的なエラー制御を備えた圧縮対応クラスタリングを可能にしている。
論文 参考訳(メタデータ) (2026-01-12T18:15:53Z) - COSPADI: Compressing LLMs via Calibration-Guided Sparse Dictionary Learning [5.595343998068235]
CoSpaDiは、低ランクの分解をより柔軟な構造化されたスパース分解に置き換える、トレーニング不要の圧縮フレームワークである。
複数のLlamaモデルとQwenモデルにまたがるCoSpaDiを,20~50%の圧縮比で層間および群間設定で評価した。
論文 参考訳(メタデータ) (2025-09-26T08:55:09Z) - Optimizing Singular Spectrum for Large Language Model Compression [95.7621116637755]
SVDの分解したコンポーネントをデータ駆動で再スケールする新しい圧縮フレームワークであるSoCoを紹介する。
学習可能な特異スペクトルのおかげで、SoCoは重要度スコアに応じて成分を適応的にプーンする。
複数のLLMおよびベンチマークでの実験的な評価は、SoCoがモデル圧縮における最先端の手法を超越していることを示している。
論文 参考訳(メタデータ) (2025-02-20T23:18:39Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Unified Multivariate Gaussian Mixture for Efficient Neural Image
Compression [151.3826781154146]
先行変数と超優先度を持つ潜伏変数は、変動画像圧縮において重要な問題である。
ベクトル化された視点で潜伏変数を観察する際、相関関係や相関関係は存在する。
当社のモデルでは、速度歪曲性能が向上し、圧縮速度が3.18倍に向上した。
論文 参考訳(メタデータ) (2022-03-21T11:44:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。