論文の概要: Massive Spikes in LLMs are Bias Vectors: Mechanistic Uncovering and Spike-Free Quantization
- arxiv url: http://arxiv.org/abs/2606.02288v1
- Date: Mon, 01 Jun 2026 14:09:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:32.198184
- Title: Massive Spikes in LLMs are Bias Vectors: Mechanistic Uncovering and Spike-Free Quantization
- Title(参考訳): LLMの大量スパイクはバイアスベクトル:機械論的発見とスパイクフリー量子化
- Authors: Yung-Chin Chen, Chung Peng Lee, Ze-Wei Liou, Naveen Verma,
- Abstract要約: 大規模言語モデル(LLM)における大規模アクティベーションスパイクは、動的範囲を延ばして量子化を著しく低下させる。
これらのスパイクは、注意シンクと値状態ドレイン機構を駆動する正規化後に一定ベクトルに収束することを示す。
InSERTQUANTは、事前計算されたテンプレートベクトルを介してスパイクをクランプし、それらの関数を復元するポストトレーニング量子化フレームワークである。
- 参考スコア(独自算出の注目度): 2.1915855082751894
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Massive activation spikes in Large Language Models (LLMs) severely degrade quantization by stretching dynamic ranges. While prior hypotheses characterize these as high-level scalar biases, we argue that they are merely the scalar intermediates of rigid, structural vector biases in the spike-carrying tokens. We show that these tokens converge to constant vectors after normalization that drive the attention sink and value-state drain mechanisms. We geometrically substantiate this by analyzing the coordination of projection weights: $W_K$ contrastively amplifies the vector, $W_Q$ aligns semantic tokens toward it, and $W_V$ projects it into the spectral null-space. Furthermore, we reveal that the model actively preserves these structural biases against Rotary Positional Embedding (RoPE) perturbations by localizing them in "zones of rotational stability" utilizing low-frequency bands and coherent channel pairs. Leveraging this, we propose INSERTQUANT, a post-training quantization (PTQ) framework that clamps spikes and restores their function via pre-computed template vectors. This renders activations strictly spike-free, enabling robust low-bit quantization with high fidelity. INSERTQUANT achieves parity with state-of-the-art per-tensor quantization methods on LLMs and uniquely generalizes beyond text to other modalities such as ViTs.
- Abstract(参考訳): 大規模言語モデル(LLM)における大規模アクティベーションスパイクは、動的範囲を延ばして量子化を著しく低下させる。
以前の仮説ではこれらを高レベルのスカラーバイアスとして特徴づけるが、これらはスパイクキャリングトークンにおける厳密で構造的なベクトルバイアスのスカラー中間体に過ぎないと論じている。
これらのトークンは、注意シンクと値状態ドレイン機構を駆動する正規化後に一定ベクトルに収束することを示す。
W_K$ はベクトルを対照的に増幅し、$W_Q$ はそれに対して意味的トークンを整列し、$W_V$ はスペクトルヌル空間に投影する。
さらに,低周波帯とコヒーレントチャネルペアを用いた「回転安定帯」に局在させることにより,回転位置埋め込み(RoPE)摂動に対するこれらの構造バイアスを積極的に保存することを明らかにする。
これを応用して、事前計算されたテンプレートベクターを用いて、スパイクをクランプし、関数を復元するPTQ(Post-training Quantization)フレームワークであるINSERTQUANTを提案する。
これにより、アクティベーションは厳密にスパイクフリーとなり、高忠実度でロバストな低ビット量子化が可能となる。
INSERTQUANT は LLM 上の最先端のテンソル単位量子化法と同等性を達成し、テキストを超えて ViT などの他のモダリティに一意に一般化する。
関連論文リスト
- How Does Attention Help? Insights from Random Matrices on Signal Recovery from Sequence Models [6.758792133077052]
固有値分布の制限,外乱固有値,および隠れ信号との固有ベクトルアライメントの正確な特徴を導出する。
パラメータフリー因果自己アテンションを$/d$のスコアスケーリングで行うと、平均プールよりも信号の回復が向上する決定論的調和重みが得られることを示す。
論文 参考訳(メタデータ) (2026-05-07T18:28:01Z) - Support Tokens, Stability Margins, and a New Foundation for Robust LLMs [1.429795922604976]
現代基礎モデルのバックボーンである因果自己注意変換器を再解釈する。
バリア制約が自己アテンションパラメータに現れる。
これにより、注意が不調になる境界が明らかになる。
論文 参考訳(メタデータ) (2026-02-25T08:44:44Z) - Engineered Robustness for Nonadiabatic Geometric Quantum Gates [4.88863227820264]
非断熱幾何学的量子ゲート(NGQG)のための合理化フレームワークを提案する。
このフレームワーク内では、非循環経路を用いてNGQGを設計し、設計の柔軟性を向上する。
本結果は,2ビットシナリオにおける性能を損なう微妙な制限を識別する。
論文 参考訳(メタデータ) (2025-11-06T09:54:02Z) - Noise-induced decoherence-free zones for anyons [0.0]
固定パラメータから変動量への交換位相の促進を行う異種システムのためのフレームワークを開発する。
保護モードは、常に$thetastar = pi/2$というデファを最小化し、$D$の特定の形式とは無関係であることを示す。
これは、ノイズの多い異音系におけるコヒーレンスを最適化するための単純な設計規則を強調している。
論文 参考訳(メタデータ) (2025-10-07T16:21:57Z) - Demystifying Singular Defects in Large Language Models [61.98878352956125]
大規模言語モデル(LLM)では、ハイノームトークンの根本原因は未解明のままである。
理論的な洞察と経験的検証の両方を、近年のモデルで提供します。
量子化方式の改良とLCMシグネチャの設計の2つの実用的応用について述べる。
論文 参考訳(メタデータ) (2025-02-10T20:09:16Z) - Active-Dormant Attention Heads: Mechanistically Demystifying Extreme-Token Phenomena in LLMs [77.66717051042032]
実践者は変圧器に基づく大言語モデルにおいて、3つのパズリング現象を一貫して観察してきた。
これらの現象は、ある種のいわゆる「シンクトークン」が不当に高い注意重みを負っているのが特徴である。
極端トーケン現象のメカニズムを解明する。
論文 参考訳(メタデータ) (2024-10-17T17:54:06Z) - Disentanglement via Latent Quantization [60.37109712033694]
本研究では,組織化された潜在空間からの符号化と復号化に向けた帰納的バイアスを構築する。
本稿では,基本データレコーダ (vanilla autoencoder) と潜時再構成 (InfoGAN) 生成モデルの両方に追加することで,このアプローチの広範な適用性を実証する。
論文 参考訳(メタデータ) (2023-05-28T06:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。