論文の概要: Structural Sensitivity in Compressed Transformers: Error Propagation, Lyapunov Stability, and Formally Verified Bounds
- arxiv url: http://arxiv.org/abs/2603.20991v1
- Date: Sun, 22 Mar 2026 00:24:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-24 19:11:39.185723
- Title: Structural Sensitivity in Compressed Transformers: Error Propagation, Lyapunov Stability, and Formally Verified Bounds
- Title(参考訳): 圧縮変圧器の構造感度:誤差伝搬、リャプノフ安定性、形式検証境界
- Authors: Abhinaba Basu,
- Abstract要約: GPT-2の468のうち1つのマトリックスは圧縮すると2万倍のパープレキシティを増大させることができる。
リアプノフ安定性理論を用いて, 残留接続の圧縮誤差は, 隠れ状態が誤差よりも高速に大きくなることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A single matrix out of 468 in GPT-2 Small can increase perplexity by 20,000x when compressed, revealing that transformer compression sensitivity spans five orders of magnitude. We map this sensitivity landscape across five architectures (117M-8B parameters), finding a consistent hierarchy: early-layer MLP up-projections are catastrophically sensitive while value projections compress nearly for free. This hierarchy is stable across compression levels, evaluation scales (2K-51K tokens), and datasets (WikiText-103, C4). Using Lyapunov stability theory, we show that residual connections contract compression errors by growing the hidden state faster than the error. Error contraction is necessary but not sufficient for compression tolerance: architecture-specific redundancy plays an equally important role, as demonstrated by the hybrid LFM2-2.6B degrading only 7x despite higher amplification than the fully-contracting GPT-2 Small (120x). Ten machine-checked Lean 4 theorems formalize per-matrix error bounds with no sorry markers; all bounds produce zero violations across 14,040+ configurations. We validate with downstream task evaluation (HellaSwag, ARC-Easy, Winogrande), activation-aware pruning on two architectures, and a Compression Fragility Index that rank-orders model robustness.
- Abstract(参考訳): GPT-2 の 468 のうち 1 つの行列は圧縮すると 20,000 倍のパープレキシティを増大させることができる。
この感度景観を5つのアーキテクチャ(117M-8Bパラメータ)にマップし、一貫した階層構造を求める。
この階層は、圧縮レベル、評価スケール(2K-51Kトークン)、データセット(WikiText-103, C4)にわたって安定している。
リアプノフ安定性理論を用いて, 残留接続の圧縮誤差は, 隠れ状態が誤差よりも高速に大きくなることを示す。
アーキテクチャ固有の冗長性は、完全に収縮した GPT-2 Small (120x) よりも高い増幅にもかかわらず、ハイブリッドの LFM2-2.6B はわずか7倍しか分解しない。
マシンチェックされた10のLean 4の定理は、気の毒なマーカーなしで、マクロ単位のエラー境界を形式化する。
ダウンストリームタスク評価(HellaSwag,ARC-Easy,Winogrande)、アクティベーション対応プルーニング(アクティベーション対応)、モデルロバスト性をランク付けする圧縮脆弱度指数(Compression Fragility Index)を用いて検証する。
関連論文リスト
- HAS-VQ: Hessian-Adaptive Sparse Vector Quantization for High-Fidelity LLM Compression [0.0]
HAS-VQ (Hessian-Adaptive Sparse Vec-tor Quantization) は,高感度のアウトレーヤをバルク重量分布から厳密に分離する圧縮フレームワークである。
我々は, SmolLM2-1.7B上のHAS-VQを評価し, 2つの異なる優越性を証明した。
論文 参考訳(メタデータ) (2026-01-11T15:35:10Z) - Compression is Routing: Reconstruction Error as an Intrinsic Signal for Modular Language Models [0.0]
「この論文は、圧縮は知性である」という前提に基づいている。」
それは新しいアーキテクチャ哲学を提唱している: 圧縮はルーティングである。
超長期のコンテキストを扱うために、VRAM圧縮の新たな視点を提供する。
論文 参考訳(メタデータ) (2025-12-18T09:02:03Z) - SALS: Sparse Attention in Latent Space for KV cache Compression [17.28816246273855]
本稿では,鍵ベクトルへのRoPEの適用により,それらの分散が増大し,結果として高い階数が得られること,鍵ベクトルが潜在空間に変換された後に,ほとんどの層にわたって表現が維持されること,という2つの重要な知見を紹介する。
これらの知見に基づき、我々はラテントスペースフレームワークにおけるスパースアテンション(Sparse Attention in Latent Space)を提案する。SALSはKVキャッシュをローランクプロジェクションを介してコンパクトなラテント空間に投影し、この空間でRoPEフリークエリキーインタラクションを用いてスパーストークン選択を行う。
論文 参考訳(メタデータ) (2025-10-28T10:32:52Z) - ARMOR: High-Performance Semi-Structured Pruning via Adaptive Matrix Factorization [99.96330641363396]
ARMOR: (Adaptive Representation with Matrix-factorization) は、新しい1ショットのポストトレーニングプルーニングアルゴリズムである。
ARMORは重量を直接刈る代わりに、各重量行列を2:4のスパースコアに分解する。
ARMORは、幅広いダウンストリームタスクとパープレキシティ評価において、最先端の2:4プルーニング手法よりも一貫して、はるかに優れています。
論文 参考訳(メタデータ) (2025-10-07T02:39:20Z) - MoDeGPT: Modular Decomposition for Large Language Model Compression [59.361006801465344]
本稿では,新しい構造化圧縮フレームワークである textbfModular bfDecomposition (MoDeGPT) を紹介する。
MoDeGPTはTransformerブロックを行列対からなるモジュールに分割し、隠れた次元を減らす。
本実験では, 後方伝播を伴わないMoDeGPTが, 従来の圧縮手法と一致するか, あるいは超えていることを示す。
論文 参考訳(メタデータ) (2024-08-19T01:30:14Z) - Vision Transformer Compression with Structured Pruning and Low Rank
Approximation [1.9685957565449135]
トランスフォーマーアーキテクチャは、大規模なデータセットでスケールできることから人気を集めている。
画像認識タスクのための視覚変換器を提案する。
この目的のために、低階近似やプルーニングなどの異なる圧縮手法の適用について検討する。
論文 参考訳(メタデータ) (2022-03-25T04:18:07Z) - Towards Compact CNNs via Collaborative Compression [166.86915086497433]
チャネルプルーニングとテンソル分解を結合してCNNモデルを圧縮する協調圧縮方式を提案する。
52.9%のFLOPを削減し、ResNet-50で48.4%のパラメータを削除しました。
論文 参考訳(メタデータ) (2021-05-24T12:07:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。