論文の概要: From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression
- arxiv url: http://arxiv.org/abs/2606.02559v1
- Date: Mon, 01 Jun 2026 17:52:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.557469
- Title: From Layers to Submodules: Rethinking Granularity in Replacement-Based LLM Compression
- Title(参考訳): 層から部分加群へ:置換型LLM圧縮における粒度の再考
- Authors: Elia Cunegatti, Marcus Vukojevic, Erik Nielsen, Giovanni Iacca,
- Abstract要約: LLM(Large Language Models)のトレーニング後の圧縮は、アーキテクチャコンポーネント全体を削除します。
サブモジュールレベルでLLMを圧縮するSubFitを導入する。
評価されたスパーシリティレベル全体で最高の集合パープレキシティ-精度トレードオフを達成する。
- 参考スコア(独自算出の注目度): 6.667596224057802
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training compression of Large Language Models (LLMs) removes entire architectural components, either deleting them or replacing them with fitted modules. Existing replacement-based methods share two design constraints: full-layer granularity and contiguous selection. We argue that this is overly restrictive: in fact, redundancy in pretrained transformers is not confined to contiguous regions, nor does it evenly distribute between Attention and FeedForward outputs, implying that different strategies best approximate different submodule types and that removable components need not cluster within contiguous depth ranges. Based on this intuition, we introduce SubFit (Submodule-level Fitted residual replacement), which compresses LLMs at the submodule level: Attention and FeedForward submodules are selected non-contiguously, and each receives its own lightweight fitted residual bypass. SubFit operates post-training and requires only calibration data. Across ten LLMs (five base, five instruction-tuned), five sparsity levels from 12.5% to 37.5%, and four replacement-based baselines, SubFit achieves the best aggregate perplexity-accuracy trade-off across the evaluated sparsity levels, with larger gains under aggressive compression. At 25% sparsity, it retains 84.6% of dense downstream accuracy and incurs 2.42x perplexity degradation, against 81.6% and 4.34x for the strongest baselines, while delivering measurable inference speedup and KV-cache savings. Code is available at https://github.com/eliacunegatti/SubFit.
- Abstract(参考訳): LLM(Large Language Models)のトレーニング後の圧縮は、アーキテクチャコンポーネント全体を削除し、削除するか、モジュールに置き換える。
既存の置換法は、全層粒度と連続選択という2つの設計上の制約を共有している。
実際には、事前訓練されたトランスフォーマーの冗長性は連続した領域に限らず、注意とフィードフォワードの出力の間に均等に分散するわけでもなく、異なる戦略が異なるサブモジュールタイプに最も近いことを示唆し、除去可能なコンポーネントは連続した深さ範囲内でクラスタ化する必要がなくなる。
この直感に基づいて、サブモジュールレベルでLLMを圧縮するSubFit(submodule-level Fitted residual replacement)を導入します。
SubFitはトレーニング後に動作し、キャリブレーションデータのみを必要とする。
10個のLDM(5つのベース、5つの命令チューニング)、12.5%から37.5%までの5つのスパーシリティレベル、および4つの代替ベースライン、SubFitは評価されたスパーシティレベル全体で最高の集合パープレキシティ-精度トレードオフを達成し、アグレッシブな圧縮の下でより大きなゲインを得る。
25%の間隔で、密度の低い下流の精度の84.6%を保持し、2.42倍のパープレキシティ低下を発生させ、最強のベースラインでは81.6%と4.34倍、測定可能な推論スピードアップとKVキャッシュの節約をもたらす。
コードはhttps://github.com/eliacunegatti/SubFit.comで入手できる。
関連論文リスト
- A Hardware-Aware, Per-Layer Methodology for Post-Training Quantization of Large Language Models [0.0]
Scaled Outer Productは、大規模言語モデルの重み付けのためのトレーニング後の量子化方法論である。
ハードウェア上では、層ごとのLUTデコードで4.5--6ビットでほぼロスレスの忠実さを提供する。
論文 参考訳(メタデータ) (2026-05-14T15:03:58Z) - RLearner-LLM: Balancing Logical Grounding and Fluency in Large Language Models via Hybrid Direct Preference Optimization [5.0009109610311855]
ハイブリッドDPOを用いたRLearner-LLMを提案する。
RLearner-LLMはSFTよりも最大6倍NLI改善する。
Gemma 4 E4B-itでは、Hybrid-DPOは5つのドメインのうち4つのNLIを持ち上げる。
論文 参考訳(メタデータ) (2026-05-06T06:36:09Z) - ITQ3_S: High-Fidelity 3-bit LLM Inference via Interleaved Ternary Quantization with Rotation-Domain Smoothing [0.0]
我々は,TurboQuant(TQ)を統合したLLMのための新しい3ビット重み量子化フォーマットであるITQ3_S(Interleaved Ternary Quantization -- Specialized)を提案する。
従来の3ビット法では、重み付き重み分布とチャネル間外周による精度の低下が見られた。
ITQ3_Sは、量子化の前にFWHTを介して重み空間を前回転させ、ベクトルにエネルギーを分散させ、ガウス近傍の分布を誘導する。
論文 参考訳(メタデータ) (2026-03-30T00:03:22Z) - HAS-VQ: Hessian-Adaptive Sparse Vector Quantization for High-Fidelity LLM Compression [0.0]
HAS-VQ (Hessian-Adaptive Sparse Vec-tor Quantization) は,高感度のアウトレーヤをバルク重量分布から厳密に分離する圧縮フレームワークである。
我々は, SmolLM2-1.7B上のHAS-VQを評価し, 2つの異なる優越性を証明した。
論文 参考訳(メタデータ) (2026-01-11T15:35:10Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - SVDQuant: Absorbing Outliers by Low-Rank Components for 4-Bit Diffusion Models [61.474101404805545]
拡散モデルは高品質なイメージを生成することができるが、スケールするにつれて、メモリ要求が増加し、より高いレイテンシがデプロイメント上の課題を引き起こす。
この制限を克服する新しい4ビット量子化パラダイムであるSVDQuantを提案する。
We reduce the memory usage for the 12B FLUX.1 models by 3.5$times$, achieved 3.0$times$ speedup over the 4-bit weight-only Quantization (W4A16) baseline。
論文 参考訳(メタデータ) (2024-11-07T18:59:58Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。