論文の概要: IO-SVD: Input-Output Whitened SVD for Adaptive-Rank LLM Compression
- arxiv url: http://arxiv.org/abs/2605.15626v1
- Date: Fri, 15 May 2026 05:19:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-18 21:22:26.181157
- Title: IO-SVD: Input-Output Whitened SVD for Adaptive-Rank LLM Compression
- Title(参考訳): IO-SVD:Adaptive-Rank LLM圧縮のための入出力白色SVD
- Authors: Ali Abbasi, Chayne Thrash, Haoran Qin, Hamed Pirsiavash, Soheil Kolouri,
- Abstract要約: SVDベースのポストトレーニング圧縮は、ハードウェアに依存しない方法でモデルサイズを削減し、推論効率を向上させる。
既存の方法は、入力のみのホワイトニング空間、均質なランクアロケーション、損失に依存しないアロケーションなどに依存することが多い。
モデル重みに対するKL対応両面白化空間を形成する後学習圧縮手法である入出力白化SVD(IO-SVD)を提案する。
- 参考スコア(独自算出の注目度): 21.844141881475533
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models deliver strong performance across language and reasoning tasks, but their storage and compute costs remain major barriers to deployment in resource-constrained and latency-sensitive settings. SVD-based post-training compression offers a hardware-agnostic way to reduce model size and improve inference efficiency through low-rank factorization. However, existing methods often rely on input-only whitening spaces, homogeneous rank allocation, or loss-agnostic allocation heuristics, limiting their ability to preserve model quality under aggressive compression. We propose Input-Output Whitened SVD (IO-SVD), a post-training compression method that forms a KL-aware double-sided whitening space for model weights. Using a second-order expansion of the KL loss over the top-K token probabilities, IO-SVD constructs an output-side metric that captures predictive sensitivity, while input whitening captures activation statistics. We further introduce an efficient heterogeneous rank-allocation strategy that scores whitened singular components using first-order calibration loss estimates and prunes the least sensitive components under a global budget. Inspired by prior work that combines SVD truncation with quantization, we improve hybrid SVD-quantization compression through loss-aware remapping, which selects low-rank factor rows for 8-bit quantization based on the predicted loss change incurred by quantizing them. Extensive experiments across diverse LLM and VLM families, and inference-time analysis shows that IO-SVD compresses LLMs with minimal performance degradation while delivering practical inference speedups. Code is available at https://github.com/mint-vu/IO-SVD.git
- Abstract(参考訳): 大規模言語モデルは、言語と推論タスク間で強力なパフォーマンスを提供するが、そのストレージと計算コストは、リソース制約のあるレイテンシに敏感な設定でデプロイする上で大きな障壁である。
SVDベースのポストトレーニング圧縮は、ハードウェアに依存しない方法でモデルサイズを減らし、低ランク因数分解による推論効率を向上させる。
しかし、既存の手法は入力のみのホワイトニング空間、均質なランク割り当て、損失に依存しないアロケーションヒューリスティックスに頼り、攻撃的な圧縮の下でモデル品質を維持する能力を制限する。
モデル重みに対するKL対応両面白化空間を形成する後学習圧縮手法である入出力白化SVD(IO-SVD)を提案する。
IO-SVDは、トップKトークン確率に対するKL損失の2次展開を用いて、予測感度をキャプチャする出力側メトリックを構築し、入力ホワイトニングはアクティベーション統計をキャプチャする。
さらに,1次キャリブレーション損失推定値を用いて白色の特異成分をスコアし,世界予算下で最も感度の低い成分をプーンで評価する,効率的な均一なランクアロケーション戦略を導入する。
SVD truncation と量子化を組み合わせた先行研究に触発されて、損失認識リマッピングによるハイブリッドSVD量子化圧縮を改善し、量子化による損失変化の予測に基づいて、8ビット量子化のための低ランク因子列を選択する。
IO-SVD は LLM を最小限の性能劣化で圧縮し,実用的な推論高速化を実現する。
コードはhttps://github.com/mint-vu/IO-SVD.gitで入手できる。
関連論文リスト
- Swift-SVD: Theoretical Optimality Meets Practical Efficiency in Low-Rank LLM Compression [10.689840449667974]
大規模言語モデルは、静的ウェイトと動的キーバリューキャッシュのメモリと帯域幅の要求によって制約される。
既存手法には2つの重要な制限がある: 一部は再構成誤差において最適でないが、他方は理論的に最適だが実際は非効率である。
我々は,理論的最適性,実用的効率,数値安定性を保証する,アクティベーション対応クローズドフォーム圧縮フレームワークであるSwift-SVDを提案する。
論文 参考訳(メタデータ) (2026-04-02T04:40:50Z) - SAES-SVD: Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression [27.258302662888166]
SAES-SVDは、大規模言語モデルの低ランク圧縮フレームワークである。
層内再構成と層間誤差補償を共同で最適化する。
実験により,SAES-SVDは圧縮後の性能を常に改善することが示された。
論文 参考訳(メタデータ) (2026-02-03T03:23:10Z) - Zero Sum SVD: Balancing Loss Sensitivity for Low Rank LLM Compression [11.908793753919745]
白色座標における特異成分選択を行うポストトレーニング法であるtextbfZero Sum SVD (textbfZS-SVD) を提案する。
textbfZS-SVDは、累積的な損失変化を0付近に保持する textbfzero sum ルールで、モデル全体のコンポーネントをプルーする。
実験では、様々なベンチマークと圧縮比で一貫した利得を示している。
論文 参考訳(メタデータ) (2026-02-02T21:51:01Z) - QSVD: Efficient Low-rank Approximation for Unified Query-Key-Value Weight Compression in Low-Precision Vision-Language Models [13.850959421148273]
VLM(Vision-Language Models)は、画像キャプションや視覚的質問応答といったタスクに不可欠なモデルである。
大規模なメモリフットプリントと処理時間によって駆動される高い計算コストは、スケーラビリティとリアルタイム適用性を制限します。
結合クエリ(Q),キー(K),値(V)重み行列に対して,Singular-Value Decomposition(SVD)を活用することで,KVキャッシュサイズと計算オーバーヘッドを低減することを提案する。
論文 参考訳(メタデータ) (2025-10-18T01:31:14Z) - KV-Latent: Dimensional-level KV Cache Reduction with Frequency-aware Rotary Positional Embedding [72.12756830560217]
Transformer Decodersをベースとした大規模言語モデル(LLM)が、会話生成AIの選択肢として好まれている。
デコーダアーキテクチャの全体的な優位性にもかかわらず、推論中にキーバリューキャッシュが徐々に増加し、主要な効率ボトルネックとなっている。
キーバリューベクトル次元を潜在空間にダウンサンプリングすることで、KVキャッシュのフットプリントを大幅に削減し、推論速度を向上させることができる。
論文 参考訳(メタデータ) (2025-07-15T12:52:12Z) - AdaSVD: Adaptive Singular Value Decomposition for Large Language Models [75.1196637934987]
Singular Value Decomposition (SVD) は,大規模言語モデル(LLM)の有望な圧縮手法として登場した。
既存のSVDベースの手法は、SVDトランケーションによって引き起こされるエラーを効果的に軽減するために苦労することが多い。
適応SVDに基づくLLM圧縮手法であるAdaSVDを提案する。
論文 参考訳(メタデータ) (2025-02-03T14:34:37Z) - EoRA: Fine-tuning-free Compensation for Compressed LLM with Eigenspace Low-Rank Approximation [84.70637613266835]
EoRAは、圧縮されたLarge Language Modelを低ランク行列で拡張する微調整不要な手法である。
EoRAは、圧縮LDMの精度を回復するために、トレーニングなしの低ランク法よりも一貫して優れている。
論文 参考訳(メタデータ) (2024-10-28T17:59:03Z) - LoRC: Low-Rank Compression for LLMs KV Cache with a Progressive Compression Strategy [59.1298692559785]
キーバリュー(KV)キャッシュは、トランスフォーマーベースの自己回帰型大言語モデル(LLM)を提供する上で重要なコンポーネントである。
この問題を緩和するためのアプローチとしては、(1) アップサイクルステージに統合された効率的な注意変動、(2) テスト時のKVキャッシュ圧縮、(3) テスト時のKVキャッシュ圧縮がある。
そこで我々は,KV重み行列の低ランク近似を提案し,モデル再学習なしに既存のトランスフォーマーベースLCMとのプラグイン統合を実現する。
本手法は,テスト段階におけるアップサイクリング段階のモデルチューニングやタスク固有のプロファイリングを伴わずに機能するように設計されている。
論文 参考訳(メタデータ) (2024-10-04T03:10:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。