論文の概要: A KL Lens on Quantization: Fast, Forward-Only Sensitivity for Mixed-Precision SSM-Transformer Models
- arxiv url: http://arxiv.org/abs/2604.13440v1
- Date: Wed, 15 Apr 2026 03:40:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.369185
- Title: A KL Lens on Quantization: Fast, Forward-Only Sensitivity for Mixed-Precision SSM-Transformer Models
- Title(参考訳): 量子化に関するKLレンズ:混合精度SSM変換器モデルに対する高速・フォワードオンリー感度
- Authors: Jason Kong, Nilesh Prasad Pandey, Flavio Ponzina, Tajana Rosing,
- Abstract要約: エッジデバイス上の大規模言語モデル(LLM)は、計算とメモリの厳しい制約に直面している。
量子化誘起劣化に最も敏感なハイブリッドSSM-トランスフォーマーコンポーネントを同定するための,軽量でバックプロパゲーションフリーなサロゲート型感度分析フレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.31160191200499
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deploying Large Language Models (LLMs) on edge devices faces severe computational and memory constraints, limiting real-time processing and on-device intelligence. Hybrid architectures combining Structured State Space Models (SSMs) with transformer-based LLMs offer a balance of efficiency and performance. Aggressive quantization can drastically cut model size and speed up inference, but its uneven effects on different components require careful management. In this work, we propose a lightweight, backpropagation-free, surrogate-based sensitivity analysis framework to identify hybrid SSM-Transformer components most susceptible to quantization-induced degradation. Relying solely on forward-pass metrics, our method avoids expensive gradient computations and retraining, making it suitable for situations where access to in-domain data is limited due to proprietary restrictions or privacy constraints. We also provide a formal analysis showing that the Kullback-Leibler (KL) divergence metric better captures quantization sensitivity for Language modeling tasks than widely adopted alternatives such as mean squared error (MSE) and signal-to-quantization-noise ratio (SQNR). Through extensive experiments on SSM and hybrid architectures, our ablation studies confirm that KL-based rankings align with observed performance drops and outperform alternative metrics. This framework enables the practical deployment of advanced hybrid models on resource-constrained edge devices with minimal accuracy loss. We further validate our approach with real-world on-device profiling on Intel Lunar Lake hardware, demonstrating that KL-guided mixed-precision achieves near-FP16 perplexity with model sizes and throughput competitive with Uniform INT4 on both CPU and GPU execution modes. Code is available at https://github.com/jasonkongie/kl-ssm-quant.
- Abstract(参考訳): エッジデバイスに大規模言語モデル(LLM)をデプロイすることは、リアルタイム処理とデバイス上のインテリジェンスを制限する、計算とメモリの厳しい制約に直面します。
構造化状態空間モデル(SSM)とトランスフォーマーベースのLLMを組み合わせたハイブリッドアーキテクチャは、効率と性能のバランスを提供する。
攻撃的量子化はモデルのサイズを大幅に削減し、推論を高速化するが、異なるコンポーネントに対する不均一な影響は慎重に管理する必要がある。
本研究では,量子化誘起劣化に最も敏感なハイブリッドSSM-Transformerコンポーネントを同定する,軽量でバックプロパゲーションフリーなサロゲート型感度分析フレームワークを提案する。
本手法は,フォワードパスのメトリクスのみに頼って,高コストな勾配計算や再トレーニングを回避し,ドメイン内データへのアクセスがプロプライエタリな制約やプライバシ制約によって制限される状況に適合する。
また,言語モデリングタスクの量子化感度を,平均二乗誤差(MSE)やSQNR(Signal-to-quantization-noise ratio)など,広く採用されている代替手段よりも向上させることを示す。
SSMとハイブリッドアーキテクチャに関する広範な実験を通じて、我々のアブレーション研究は、KLベースのランキングが観測された性能低下と同等であり、代替指標よりも優れていることを確認した。
このフレームワークは、リソース制約のあるエッジデバイスに、精度の低下を最小限に抑えた高度なハイブリッドモデルの実践的な展開を可能にする。
我々は、Intel Lunar Lakeハードウェア上での実際のオンデバイスプロファイリングによるアプローチをさらに検証し、KL誘導混合精度がモデルサイズとUniform INT4とCPUおよびGPU実行モードの両方で競合するスループットでほぼFP16パープレキシティを実現することを示した。
コードはhttps://github.com/jasonkongie/kl-ssm-quant.comで入手できる。
関連論文リスト
- Mixed-Precision Quantization for Language Models: Techniques and Prospects [10.345914140081925]
量子化は、モデルサイズを減らし、メモリボトルネックを緩和し、推論を加速する重要な圧縮技術として登場した。
混合精度量子化は、効率と精度のバランスをとるために、層またはテンソル内で精度を選択的に割り振ることで、有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-10-19T12:16:40Z) - QuantVSR: Low-Bit Post-Training Quantization for Real-World Video Super-Resolution [53.13952833016505]
実世界のビデオ超解像(VSR)のための低ビット量子化モデルを提案する。
キャリブレーションデータセットを用いて各レイヤの空間的および時間的複雑さを計測する。
我々はFPおよび低ビット分岐を改良し、同時最適化を実現する。
論文 参考訳(メタデータ) (2025-08-06T14:35:59Z) - QS4D: Quantization-aware training for efficient hardware deployment of structured state-space sequential models [0.8474310104568011]
構造化状態空間モデル(Structured State Space Model, SSM)は、ディープラーニングモデルの新しいクラスとして登場した。
QATは、様々なパフォーマンス指標において、SSMの複雑さを最大2桁まで減少させることができる。
その結果,QATはアナログノイズに対する堅牢性を高め,構造的プルーニングを可能にすることがわかった。
論文 参考訳(メタデータ) (2025-07-08T15:19:14Z) - The Larger the Merrier? Efficient Large AI Model Inference in Wireless Edge Networks [56.37880529653111]
大規模計算モデル(LAIM)サービスの需要は、従来のクラウドベースの推論から、低レイテンシでプライバシ保護のアプリケーションのためのエッジベースの推論へのパラダイムシフトを推進している。
本稿では,事前学習したLAIMをデバイス上のサブモデルとサーバ上のサブモデルに分割して配置するLAIM推論方式について検討する。
論文 参考訳(メタデータ) (2025-05-14T08:18:55Z) - Mix-QSAM: Mixed-Precision Quantization of the Segment Anything Model [0.0]
Mix-QSAMはSegment Anything Model(SAM)のためのPTQフレームワークである。
モデル出力に対する各レイヤの寄与を定量化するために,Kulback-Leibler (KL) 偏差を用いて導出したレイヤ単位の重要度スコアを導入する。
また、隣接層間の依存関係を捉えるために、因果的相互情報に基づく新しい計量である層間相乗法を導入する。
論文 参考訳(メタデータ) (2025-05-08T00:08:31Z) - DSMoE: Matrix-Partitioned Experts with Dynamic Routing for Computation-Efficient Dense LLMs [86.76714527437383]
本稿では,事前学習したFFN層を計算ブロックに分割することで,分散化を実現するDSMoEを提案する。
我々は,Sigmoid アクティベーションとストレートスルー推定器を用いた適応型エキスパートルーティングを実装し,トークンがモデル知識の様々な側面に柔軟にアクセスできるようにする。
LLaMAモデルを用いた実験により、DSMoEは既存のプルーニング法やMoE法に比べて優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2025-02-18T02:37:26Z) - Resource Management for Low-latency Cooperative Fine-tuning of Foundation Models at the Network Edge [35.40849522296486]
大規模ファウンデーションモデル(FoMos)は、人間のような知性を実現することができる。
FoMosは微調整技術により、特定の下流タスクに適応する必要がある。
デバイスエッジ協調微調整パラダイムにおける多デバイス連携を提唱する。
論文 参考訳(メタデータ) (2024-07-13T12:47:14Z) - LLMC: Benchmarking Large Language Model Quantization with a Versatile Compression Toolkit [55.73370804397226]
鍵圧縮技術である量子化は、大きな言語モデルを圧縮し、加速することにより、これらの要求を効果的に軽減することができる。
本稿では,プラグアンドプレイ圧縮ツールキットであるLLMCについて,量子化の影響を公平かつ体系的に検討する。
この汎用ツールキットによって、我々のベンチマークはキャリブレーションデータ、アルゴリズム(3つの戦略)、データフォーマットの3つの重要な側面をカバーしています。
論文 参考訳(メタデータ) (2024-05-09T11:49:05Z) - AMED: Automatic Mixed-Precision Quantization for Edge Devices [3.5223695602582614]
量子ニューラルネットワークは、レイテンシ、消費電力、モデルサイズをパフォーマンスに大きな影響を与えずに減少させることでよく知られている。
混合精度量子化は、異なるビット幅での算術演算をサポートするカスタマイズされたハードウェアのより良い利用を提供する。
論文 参考訳(メタデータ) (2022-05-30T21:23:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。