論文の概要: SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference
- arxiv url: http://arxiv.org/abs/2602.22136v1
- Date: Wed, 25 Feb 2026 17:34:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-26 18:19:16.931356
- Title: SigmaQuant: Hardware-Aware Heterogeneous Quantization Method for Edge DNN Inference
- Title(参考訳): SigmaQuant:エッジDNN推論のためのハードウェア対応不均一量子化手法
- Authors: Qunyou Liu, Pengbo Yu, Marina Zapater, David Atienza,
- Abstract要約: エッジやモバイルデバイス上で高度なタスクを実行するには、ディープニューラルネットワーク(DNN)が不可欠だ。
彼らの展開は、メモリ、エネルギー、計算能力の制限を含む厳しいリソース制約によってしばしば妨げられる。
この研究は、適応的な層単位での不均一な量子化フレームワークである textbftextitSigmaQuantを導入している。
- 参考スコア(独自算出の注目度): 3.6684096066755747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep neural networks (DNNs) are essential for performing advanced tasks on edge or mobile devices, yet their deployment is often hindered by severe resource constraints, including limited memory, energy, and computational power. While uniform quantization provides a straightforward approach to compress model and reduce hardware requirement, it fails to fully leverage the varying robustness across layers, and often lead to accuracy degradation or suboptimal resource usage, particularly at low bitwidths. In contrast, heterogeneous quantization, which allocates different bitwidths to individual layers, can mitigate these drawbacks. Nonetheless, current heterogeneous quantization methods either needs huge brute-force design space search or lacks the adaptability to meet different hardware conditions, such as memory size, energy budget, and latency requirement. Filling these gaps, this work introduces \textbf{\textit{SigmaQuant}}, an adaptive layer-wise heterogeneous quantization framework designed to efficiently balance accuracy and resource usage for varied edge environments without exhaustive search.
- Abstract(参考訳): エッジやモバイルデバイス上で高度なタスクを実行するには、ディープニューラルネットワーク(DNN)が不可欠だが、そのデプロイメントは、メモリ、エネルギ、計算能力などの厳しいリソース制約によって妨げられることが多い。
均一量子化は、モデル圧縮とハードウェア要件の削減に簡単なアプローチを提供するが、層間でのロバスト性を完全に活用することができず、特に低ビット幅において、精度の低下やリソース使用量の最適化につながることが多い。
対照的に、個々の層に異なるビット幅を割り当てる異種量子化は、これらの欠点を軽減することができる。
しかしながら、現在の異種量子化法は、巨大なブルートフォース設計空間探索を必要とするか、メモリサイズ、エネルギー予算、遅延要求といった異なるハードウェア条件を満たす適応性に欠ける。
これらのギャップを埋めるために、この研究は、徹底的な探索をすることなく、様々なエッジ環境における精度とリソース使用量の効率よくバランスをとるように設計された適応層ワイドの不均一な量子化フレームワークである \textbf{\textit{SigmaQuant}} を導入している。
関連論文リスト
- Tensor Network Assisted Distributed Variational Quantum Algorithm for Large Scale Combinatorial Optimization Problem [19.046113542182436]
組合せ最適化問題の解法として分散変分量子アルゴリズム(DVQA)を提案する。
DVQAの重要な革新は、複雑な長距離の絡み合いに頼ることなく、変数間の依存関係を保存するために、切り詰められた高階特異値分解を使用することである。
実験的に、DVQAはシミュレーションの最先端性能を達成し、ポートフォリオ最適化のためにWu Kong量子コンピュータで実験的に検証されている。
論文 参考訳(メタデータ) (2026-01-20T13:31:02Z) - Adaptive Mesh-Quantization for Neural PDE Solvers [51.26961483962011]
グラフニューラルネットワークは複雑なジオメトリや境界条件に必要な不規則なメッシュを処理できるが、それでもすべてのノードで一様計算処理を適用できる。
適応メッシュ量子化(Adaptive Mesh Quantization): メッシュノード,エッジ,クラスタ特徴間の空間適応量子化であり,量子化モデルで使用されるビット幅を動的に調整する。
我々は,MP-PDEとGraphViTという2つの最先端モデルと統合して,複数のタスクのパフォーマンスを評価することで,フレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2025-11-23T14:47:24Z) - MPQ-DMv2: Flexible Residual Mixed Precision Quantization for Low-Bit Diffusion Models with Temporal Distillation [74.34220141721231]
我々は,textbfMixed textbfPrecision textbfQuantizationフレームワークを改良したMPQ-DMv2を提案する。
論文 参考訳(メタデータ) (2025-07-06T08:16:50Z) - Quantization without Tears [26.5790668319932]
QwT(Quantization without Tears)は、量子化速度、精度、単純さ、一般化性を同時に達成する手法である。
QwTは、量子化中の情報損失を軽減するために、軽量な追加構造を量子化ネットワークに組み込む。
様々な視覚、言語、マルチモーダルタスクにわたる広範囲な実験は、QwTが高効率かつ多目的であることを示した。
論文 参考訳(メタデータ) (2024-11-21T08:13:24Z) - PIPE : Parallelized Inference Through Post-Training Quantization
Ensembling of Residual Expansions [23.1120983784623]
PIPEは、残差誤差展開とグループ間隔とアンサンブル近似を利用して、より良い並列化を実現する量子化法である。
すべてのベンチマークアプリケーション(ビジョンからNLPタスクまで)、アーキテクチャ(ConvNet、トランスフォーマー、ビット幅)において、優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-11-27T13:29:34Z) - SqueezeLLM: Dense-and-Sparse Quantization [80.32162537942138]
LLMにおける生成推論の主なボトルネックは、単一のバッチ推論のための計算ではなく、メモリ帯域幅である。
学習後量子化フレームワークであるSqueezeLLMを導入し、最大3ビットの超低精度でのロスレス圧縮を実現する。
本フレームワークは,2次情報に基づく最適ビット精度割当を探索する感度ベース非一様量子化法と,2次情報に基づくDense-and-Sparse分解法と,2次情報量割当値と感度重み値を効率的にスパース形式で格納するDense-and-Sparse分解法である。
論文 参考訳(メタデータ) (2023-06-13T08:57:54Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Space-efficient binary optimization for variational computing [68.8204255655161]
本研究では,トラベリングセールスマン問題に必要なキュービット数を大幅に削減できることを示す。
また、量子ビット効率と回路深さ効率のモデルを円滑に補間する符号化方式を提案する。
論文 参考訳(メタデータ) (2020-09-15T18:17:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。