論文の概要: Activation Sensitivity as a Unifying Principle for Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2601.11663v1
- Date: Thu, 15 Jan 2026 22:27:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 22:47:22.26574
- Title: Activation Sensitivity as a Unifying Principle for Post-Training Quantization
- Title(参考訳): ポストトレーニング量子化の統一原理としての活性化感度
- Authors: Bruce Changlong Xu,
- Abstract要約: 大規模言語モデルのポストトレーニング量子化(PTQ)法は、どの重みチャネルがモデル行動に最も強く影響を及ぼすかの優先順位付けに依存する。
本稿では、チャネルの摂動が損失に与える影響を予測したアクティベーション感度を形式化し、PTQの統一的な理論的枠組みを提案する。
我々は、感度指標の設計空間を解析し、勾配値、フィッシャー情報、ヘッセン基準を接続し、最適脳損傷や最適脳サージオンといった古典的プルーニング手法との関係を明らかにする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Post-training quantization (PTQ) methods for large language models rely on heuristics that implicitly estimate which weight channels most strongly influence model behavior. Two dominant paradigms have emerged: activation-aware methods such as AWQ prioritize channels with large activation magnitudes, while second-order methods such as GPTQ allocate quantization error according to input covariance structure. Despite strong empirical performance, these approaches remain conceptually fragmented, and it is unclear what underlying quantity they are approximating. In this work, we present a unified theoretical framework for PTQ by formalizing activation sensitivity, defined as the expected impact of channel-wise perturbations on the loss. Using a first-order Taylor expansion, we show that sensitivity naturally arises as the squared norm of gradient-weighted activations, yielding a principled measure of channel importance that captures both activation magnitude and downstream error propagation. Within this framework, AWQ and GPTQ can be interpreted as complementary approximations that recover sensitivity under distinct simplifying assumptions. We analyze the design space of sensitivity metrics, connect gradient-based saliency, Fisher information, and Hessian-based criteria, and clarify their relationships to classical pruning methods such as Optimal Brain Damage and Optimal Brain Surgeon. Rather than proposing a new quantization algorithm, this work provides a conceptual foundation for understanding and comparing post-training quantization methods through the lens of sensitivity.
- Abstract(参考訳): 大規模言語モデルのポストトレーニング量子化(PTQ)法は、どの重みチャネルがモデル行動に最も強く影響するかを暗黙的に推定するヒューリスティックに頼っている。
AWQのようなアクティベーション対応の手法は、大きなアクティベーショングレードのチャネルを優先するが、GPTQのような2階法は入力共分散構造に応じて量子化誤差を割り当てる。
強い経験的性能にもかかわらず、これらのアプローチは概念的に断片化されており、その根底にある量は不明確である。
本研究では, チャネルの摂動が損失に与える影響を予測した活性化感度を定式化し, PTQの統一的理論的枠組みを提案する。
1次テイラー展開を用いて、感度が勾配重み付き活性化の2乗ノルムとして自然に生じることを示し、活性化の大きさと下流誤差の伝播の両方をキャプチャーする経路の重要性の原則的尺度を導出する。
このフレームワーク内では、AWQとGPTQは、異なる単純化された仮定の下で感度を回復する相補的な近似として解釈できる。
我々は、感度指標の設計空間を解析し、勾配値、フィッシャー情報、ヘッセン基準を接続し、最適脳損傷や最適脳サージオンといった古典的プルーニング手法との関係を明らかにする。
この研究は、新しい量子化アルゴリズムを提案するのではなく、感度のレンズを通して学習後の量子化法を理解し比較するための概念的基礎を提供する。
関連論文リスト
- Efficient Thought Space Exploration through Strategic Intervention [54.35208611253168]
本稿では,この知見を2つの相乗的コンポーネントを通して操作するHint-Practice Reasoning(HPR)フレームワークを提案する。
フレームワークの中核となる革新は、動的に介入点を識別する分散不整合低減(DIR)である。
算術的および常識的推論ベンチマークによる実験は、HPRの最先端の効率-精度トレードオフを実証している。
論文 参考訳(メタデータ) (2025-11-13T07:26:01Z) - FIMA-Q: Post-Training Quantization for Vision Transformers by Fisher Information Matrix Approximation [55.12070409045766]
ポストトレーニング量子化(PTQ)は近年,費用対効果と有望なモデル圧縮パラダイムとして注目されている。
ビジョン変換器(ViT)の現在のPTQ法は、特に低ビット量子化において、精度が著しく低下している。
論文 参考訳(メタデータ) (2025-06-13T07:57:38Z) - Precision Neural Network Quantization via Learnable Adaptive Modules [27.323901068182234]
量子化アウェアトレーニング(QAT)は、モデルサイズを圧縮し、運用効率を向上させるニューラルネットワーク量子化技術である。
本稿では、適応ステップサイズ量子化(ASQ)と呼ばれる、効果的な学習可能な適応型ニューラルネットワーク量子化法を提案する。
論文 参考訳(メタデータ) (2025-04-24T05:46:25Z) - Unifying Perplexing Behaviors in Modified BP Attributions through Alignment Perspective [61.5509267439999]
GBP, RectGrad, LRP, DTD などの手法の統一理論フレームワークを提案する。
活性化ニューロンの重みを結合して入力アライメントを実現することを実証した。
このアライメントにより、可視化品質が向上し、重量ランダム化に対する感度が低下する。
論文 参考訳(メタデータ) (2025-03-14T07:58:26Z) - Deep Weight Factorization: Sparse Learning Through the Lens of Artificial Symmetries [10.209740962369453]
スパース正規化技術は機械学習において十分に確立されているが、ニューラルネットワークへの応用は依然として難しい。
期待できる代替手段として、浅い重み分解があり、そこでは重みが2つの要因に分断され、$L$penalized Neural Networkの最適化が可能になる。
本研究では,2つ以上の既存手法に微分因子を付加し,重み分解を導入する。
論文 参考訳(メタデータ) (2025-02-04T17:12:56Z) - A Theoretical Perspective for Speculative Decoding Algorithm [60.79447486066416]
EmphSpeculative Decodingは、小さなモデルを使用して、ドラフトトークンのシーケンスと、検証のための大きなモデルをサンプリングする。
本稿では,マルコフ連鎖抽象化による復号化問題を概念化し,理論的な観点から,鍵特性,エファンアウトプットの品質,推論加速度について考察する。
論文 参考訳(メタデータ) (2024-10-30T01:53:04Z) - Quantization Aware Factorization for Deep Neural Network Compression [20.04951101799232]
畳み込み層と完全連結層の分解は、ニューラルネットワークにおけるパラメータとFLOPを減らす効果的な方法である。
従来のトレーニング後量子化手法は重み付きネットワークに適用され、精度が低下する。
これは、分解された近似を量子化因子で直接発見するアルゴリズムを開発する動機となった。
論文 参考訳(メタデータ) (2023-08-08T21:38:02Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z) - Revisiting Initialization of Neural Networks [72.24615341588846]
ヘッセン行列のノルムを近似し, 制御することにより, 層間における重みのグローバルな曲率を厳密に推定する。
Word2Vec と MNIST/CIFAR 画像分類タスクの実験により,Hessian ノルムの追跡が診断ツールとして有用であることが確認された。
論文 参考訳(メタデータ) (2020-04-20T18:12:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。