論文の概要: AA-SVD : Anchored and Adaptive SVD for Large Language Model Compression
- arxiv url: http://arxiv.org/abs/2604.02119v1
- Date: Thu, 02 Apr 2026 14:55:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.867333
- Title: AA-SVD : Anchored and Adaptive SVD for Large Language Model Compression
- Title(参考訳): AA-SVD : 大規模言語モデル圧縮のためのAnchoredとAdaptive SVD
- Authors: Atul Kumar Sinha, François Fleuret,
- Abstract要約: 本稿では,大規模な言語モデルを再学習せずに圧縮するための高速な低ランク分解に基づくフレームワークを提案する。
ブロックレベルの出力歪みを最小限に抑え、各トランスブロックをエンドツーエンドに洗練する。
提案手法は圧縮比で既存のSVDベースラインを上回っている。
- 参考スコア(独自算出の注目度): 19.41870881350408
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce a fast low-rank factorization-based framework for compressing large language models that enables rapid compression of billion-parameter models without retraining. Unlike existing factorization-based approaches that optimize only on the original inputs, ignoring distribution shifts from upstream compression and thus propagating errors forward, or those that rely only on shifted inputs and risk drifting away from the original outputs, our approach accounts for both. Beyond individual layer compression, we further refine each transformer block end-to-end, minimizing block-level output distortion and allowing compressed layers to jointly compensate for accumulated errors. By anchoring each compressed layer to the original outputs while explicitly modeling input distribution shifts, our method finds a low-rank approximation that maintains functional equivalence with the original model. Experiments on large language models show that our method consistently outperforms existing SVD-based baselines across compression ratios, with the advantage becoming increasingly pronounced at aggressive compression budgets, where competing methods degrade substantially or collapse entirely, offering a practical solution for efficient, large-scale model deployment.
- Abstract(参考訳): 本稿では,数十億パラメータモデルの高速圧縮を可能にする,大規模言語モデルを圧縮するための高速な低ランク分解に基づくフレームワークを提案する。
元の入力のみを最適化する既存のファクタライゼーションベースのアプローチとは異なり、アップストリーム圧縮からの分散シフトを無視して、前方にエラーを伝播するアプローチや、シフトした入力のみに依存し、元の出力から逸脱するリスクのみに依存するアプローチと異なり、当社のアプローチはどちらも考慮している。
個別層圧縮以外にも,各変圧器ブロックのエンド・ツー・エンドを改良し,ブロックレベルの出力歪みを最小限に抑え,圧縮層が累積誤差を補えるようにした。
入力分布シフトを明示的にモデル化しながら,各圧縮層を元の出力に固定することにより,元のモデルと関数的等価性を維持する低ランク近似を求める。
大規模言語モデルに対する実験により,提案手法は圧縮比で既存のSVDベースラインを一貫して上回り,積極的圧縮予算では強みが増し,競合する手法が大幅に劣化あるいは完全に崩壊し,効率的な大規模モデル展開のための実用的なソリューションを提供する。
関連論文リスト
- Arbitrary Ratio Feature Compression via Next Token Prediction [52.10426317889982]
Arbitrary Ratio Feature Compression (ARFC)フレームワークは、任意の圧縮比を単一のモデルでサポートする。
ARCは、次の回帰予測によって圧縮を行う自動回帰モデルである。
MoSモジュールは複数の圧縮結果を利用して圧縮トークンを洗練する。
ERGCは、圧縮中の意味的および構造的関係を維持するために、トレーニングプロセスに統合される。
論文 参考訳(メタデータ) (2026-02-12T02:38:57Z) - Proxy Compression for Language Modeling [58.904023114033954]
プロキシ圧縮は、圧縮された入力の効率性を維持する代替のトレーニングスキームである。
コード言語モデリングの実験では、プロキシ圧縮がトレーニング効率を大幅に向上することを示した。
モデルスケールが大きくなるにつれて、プロキシトレーニングされたモデルは最終的に一致するか、あるいは競合するトークン化アルゴリズムのアプローチになる。
論文 参考訳(メタデータ) (2026-02-04T07:36:46Z) - SAES-SVD: Self-Adaptive Suppression of Accumulated and Local Errors for SVD-based LLM Compression [27.258302662888166]
SAES-SVDは、大規模言語モデルの低ランク圧縮フレームワークである。
層内再構成と層間誤差補償を共同で最適化する。
実験により,SAES-SVDは圧縮後の性能を常に改善することが示された。
論文 参考訳(メタデータ) (2026-02-03T03:23:10Z) - Rethinking Autoregressive Models for Lossless Image Compression via Hierarchical Parallelism and Progressive Adaptation [75.58269386927076]
自己回帰(AR)モデルは、しばしば計算コストの禁止のために非現実的に除外される。
この研究は、階層的並列性とプログレッシブ適応に基づくフレームワークを導入して、このパラダイムを再考する。
各種データセット(自然,衛星,医療)の実験により,本手法が新たな最先端圧縮を実現することを確認した。
論文 参考訳(メタデータ) (2025-11-14T06:27:58Z) - FLAT-LLM: Fine-grained Low-rank Activation Space Transformation for Large Language Model Compression [15.784158079414235]
FLAT-LLMは、アクティベーション空間の微細な低ランク変換に基づく、トレーニング不要な構造圧縮手法である。
回復微調整なしで効率よく効果的な重量圧縮を実現し、数分でキャリブレーションを完了できる。
論文 参考訳(メタデータ) (2025-05-29T19:42:35Z) - Multi-Scale Invertible Neural Network for Wide-Range Variable-Rate Learned Image Compression [90.59962443790593]
本稿では,制限を克服するために,可逆変換に基づく可変レート画像圧縮モデルを提案する。
具体的には、入力画像をマルチスケールの潜在表現にマッピングする、軽量なマルチスケール非可逆ニューラルネットワークを設計する。
実験結果から,提案手法は既存の可変レート法と比較して最先端性能を実現することが示された。
論文 参考訳(メタデータ) (2025-03-27T09:08:39Z) - Choose Your Model Size: Any Compression of Large Language Models Without Re-Computation [10.376875638696504]
本研究は, 圧縮性能トレードオフを決定するアルゴリズム手法であるACIP (Any Compression via Iterative Pruning) を提案する。
線形層をSVDで再パラメータ化し,その特異値をスペーサ性誘導ペナルティで反復的にプルーする。
本稿では,ACIPが共通量子化に基づく圧縮手法をシームレスに補完することを示す。
論文 参考訳(メタデータ) (2025-02-03T18:40:58Z) - Lightweight Attribute Localizing Models for Pedestrian Attribute Recognition [13.480231032159834]
本稿では,圧縮モデルの勾配方向が元のモデルと密接に一致していることを保証するため,低ランク層の最適ランクを決定する新しい手法を提案する。
これは、圧縮されたモデルはフルモデルの更新方向を効果的に保存し、歩行者属性認識タスクのより効率的な圧縮を可能にすることを意味する。
論文 参考訳(メタデータ) (2023-06-16T13:07:13Z) - Compression of Generative Pre-trained Language Models via Quantization [62.80110048377957]
従来の量子化手法は, テクスモジニアス単語の埋め込みによって生成タスクに失敗することがわかった。
本稿では,区別可能な単語埋め込みを学習するためのトークンレベルのコントラスト蒸留法と,異なるモジュールに対して量子化器を適応させるモジュールワイドダイナミックスケーリングを提案する。
論文 参考訳(メタデータ) (2022-03-21T02:11:35Z) - What do Compressed Large Language Models Forget? Robustness Challenges
in Model Compression [68.82486784654817]
本稿では,知識蒸留とプルーニングを含む2つの一般的なモデル圧縮手法について検討する。
本研究では, 圧縮モデルが, 対向テストセット上のPLMモデルよりもはるかに頑健であることを示す。
サンプル不確実性に基づくモデル圧縮の正規化戦略を開発する。
論文 参考訳(メタデータ) (2021-10-16T00:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。