論文の概要: Variance Is Not Importance: Structural Analysis of Transformer Compressibility Across Model Scales
- arxiv url: http://arxiv.org/abs/2604.20682v1
- Date: Wed, 22 Apr 2026 15:31:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-23 15:36:11.196979
- Title: Variance Is Not Importance: Structural Analysis of Transformer Compressibility Across Model Scales
- Title(参考訳): 変動は重要ではない:モデルスケールにおける変圧器圧縮性の構造解析
- Authors: Samuel Salfati,
- Abstract要約: スペクトル圧縮,ブロックレベル関数置換,回転ベース量子化,アクティベーション幾何,適応早期出口について検討した。
圧縮に関連する5つの構造特性を同定する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a systematic empirical study of transformer compression through over 40 experiments on GPT-2 (124M parameters) and Mistral 7B (7.24B parameters). Our analysis covers spectral compression, block-level function replacement, rotation-based quantization, activation geometry, and adaptive early exit. We identify five structural properties relevant to compression. (1) Variance is not importance: high-variance activation directions are approximately 96 percent uncorrelated with predictive directions (measured via CCA), and projecting onto these subspaces preserves over 90 percent of variance while degrading perplexity. (2) Block linearity is conditional: transformer blocks are approximately linear (R^2 ~ 0.95 on GPT-2, 0.93 on Mistral block 31) only under the correct upstream distribution; modifying earlier blocks induces distribution shift that degrades downstream approximations. (3) The reconstruction wall: approaches that factor weights into quantized components amplify errors through cross-terms, making direct quantization strictly superior. (4) Linearity increases with depth: Mistral 7B exhibits a progression from R^2 = 0.17 (block 0) to R^2 = 0.93 (block 31), indicating a division between nonlinear feature construction and linear refinement. (5) Approximately 30 percent of tokens are computationally easy, confirmed via exit heads and KL divergence sensitivity. We demonstrate that single-block linear replacement achieves 34x compression with a 1.71 perplexity increase on the final block of Mistral 7B, while multi-block replacement fails due to residual error accumulation and distribution shift. These findings suggest fundamental limits to static post-training compression and motivate adaptive, per-token computation as a more effective direction.
- Abstract(参考訳): GPT-2 (124Mパラメータ) とMistral 7B (7.24Bパラメータ) の40以上の実験を通して, 変圧器圧縮の系統的研究を行った。
本分析では, スペクトル圧縮, ブロックレベル関数置換, 回転型量子化, アクティベーション幾何, 適応早期出口について検討した。
圧縮に関連する5つの構造特性を同定する。
1) ばらつきは重要ではなく, 高分散活性化方向は予測方向(CAAによる測定)と約96%非相関であり, これらの部分空間への投影は, 難易度を低下させながら90%以上のばらつきを保っている。
2) ブロックの線形性は条件付きである: 変圧器ブロックは概線型(GPT-2ではR^2 ~0.95、Mistral Block 31では0.93)であり、正しい上流分布の下でのみ成り立つ。
(3) 復元壁: 重みを量子化成分に分解するアプローチは、断続的に誤差を増幅し、直接量子化が厳密に優れている。
(4) 線形性は深さとともに増大する: Mistral 7B は R^2 = 0.17 (block 0) から R^2 = 0.93 (block 31) へと進行し、非線形特徴構造と線形改善の分裂を示す。
(5)トークンの約30%は計算が容易で、出口ヘッドとKLの発散感度によって確認される。
単ブロック線形置換はMistral 7Bの最終ブロックで1.71パープレキシティ増加の34倍圧縮を達成する一方で,残差の蓄積と分布シフトにより多重ブロック置換は失敗することを示した。
これらの結果から, 静的後圧縮に対する基本的限界が示唆され, 適応的, トーケン毎の計算をより効果的に行うことが示唆された。
関連論文リスト
- Compressing Transformer Language Models via Matrix Product Operator Decomposition: A Case Study on PicoGPT [0.0]
トランスフォーマーベースの言語モデルは、NLPタスク間で強力なパフォーマンスを実現するが、その2次パラメータスケーリングは、リソース制約のあるハードウェアへのデプロイを高くする。
変圧器の原理圧縮法として行列積演算子分解について検討する。
MPOは、重み行列を低ランクコアの鎖に分解し、近似品質は結合次元chiによって制御される。
論文 参考訳(メタデータ) (2026-03-30T14:57:47Z) - SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing [77.91660464664615]
Diffusion Transformers (DiTs) はビデオ生成において主要なバックボーンとなっているが、その二次的注意コストは依然として大きなボトルネックとなっている。
本稿では,不足しているコントリビューションをトレーニングなしで回収できることを示す。
パラメータフリーな線形補償分岐であるSVG-EARを導入する。
論文 参考訳(メタデータ) (2026-03-09T22:15:31Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Pay Attention Later: From Vector Space Diffusion to Linearithmic Spectral Phase-Locking [0.0]
スタンダードトランスフォーマーは「セマンティックアライメント税」に苦しむ
位相共鳴インテリジェントスペクトルモデル(PRISM)を導入する。
PRISMは複素領域(Cd)における共振周波数としてのセマンティックアイデンティティを符号化し、二次自己アテンションをリニアリトミック O(N log N) Gated Harmonic Convolutions に置き換える。
論文 参考訳(メタデータ) (2025-12-01T02:46:15Z) - MLPMoE: Zero-Shot Architectural Metamorphosis of Dense LLM MLPs into Static Mixture-of-Experts [0.0]
大規模言語モデル(LLM)は、主に高密度トランスフォーマーとしてデプロイされ、すべてのトークンに対してフィードフォワードブロック内の全てのパラメータがアクティブになる。
MoEfication、CMoE、ToMoE、MoOREといった最近のアップサイクリング手法は、高密度フィードフォワードネットワーク内の疎小で半モジュラーなサブ構造に有用な計算の大部分が存在していることを明らかにしている。
本稿では,高密度の変圧器ブロックを静的な高心性混合体に再構成する学習自由変換であるMoE(MLP-Experts)を紹介する。
論文 参考訳(メタデータ) (2025-11-26T06:14:26Z) - Change-of-Basis Pruning via Rotational Invariance [0.0]
余分なパラメータを伴わずに、CoB変換を周囲の重みにマージできる2サブスペースアクティベーション(TSRA)を導入する。
この研究は、回転不変設計がベーシ・プルーニングの変化に対する原則的なアプローチを提供するかもしれないという概念実証である。
論文 参考訳(メタデータ) (2025-11-20T05:45:19Z) - Temporal Zoom Networks: Distance Regression and Continuous Depth for Efficient Action Localization [6.908972852063454]
時間的行動の局所化は、正確な境界検出と計算効率の両方を必要とする。
我々は、境界距離回帰(BDR)と適応時間制限(ATR)という2つの補完的なイノベーションを通じてこの問題に対処する。
THUMOS14では、ActionFormer++ (55.7% mAP@0.7 at 235G) よりも36%少ないFLOPを用いて、151GのFLOPで56.5% mAP@0.7を達成する。
論文 参考訳(メタデータ) (2025-11-06T00:41:54Z) - Rao-Blackwell Gradient Estimators for Equivariant Denoising Diffusion [55.95767828747407]
分子やタンパク質の生成のようなドメインでは、物理系はモデルにとって重要な固有の対称性を示す。
学習のばらつきを低減し、確率的に低い分散勾配推定器を提供するフレームワークを提案する。
また,軌道拡散法(Orbit Diffusion)と呼ばれる手法を用いて,損失とサンプリングの手順を取り入れた推定器の実用的実装を提案する。
論文 参考訳(メタデータ) (2025-02-14T03:26:57Z) - Adaptive Multi-step Refinement Network for Robust Point Cloud Registration [82.64560249066734]
ポイントクラウド登録は、同じシーンの2つのポイントクラウド間の相対的な厳密な変換を推定する。
本稿では,前ステップからの情報を活用することで,各ステップの登録品質を向上する適応型多段階改良ネットワークを提案する。
本手法は3DMatch/3DLoMatchベンチマークとKITTIベンチマークの両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-12-05T18:59:41Z) - Pruning Redundant Mappings in Transformer Models via Spectral-Normalized
Identity Prior [54.629850694790036]
スペクトル正規化アイデンティティ事前 (SNIP) は、トランスフォーマーモデルにおける残余モジュール全体をアイデンティティマッピングに向けてペナライズする構造化プルーニング手法である。
5つのGLUEベンチマークタスクでBERTを用いて実験を行い、SNIPが同等の性能を維持しながら効率的な刈り取り結果が得られることを示した。
論文 参考訳(メタデータ) (2020-10-05T05:40:56Z) - Analytic Signal Phase in $N-D$ by Linear Symmetry Tensor--fingerprint
modeling [69.35569554213679]
解析信号位相とその勾配は2-D$以上の不連続性を持つことを示す。
この欠点は深刻なアーティファクトをもたらす可能性があるが、問題は1-D $シグナルには存在しない。
本稿では,複数のGaborフィルタに頼って線形シンメトリー位相を用いることを提案する。
論文 参考訳(メタデータ) (2020-05-16T21:17:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。