論文の概要: GranQ: Granular Zero-Shot Quantization with Channel-Wise Activation Scaling in QAT
- arxiv url: http://arxiv.org/abs/2503.18339v5
- Date: Wed, 13 Aug 2025 05:11:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-14 16:17:42.28351
- Title: GranQ: Granular Zero-Shot Quantization with Channel-Wise Activation Scaling in QAT
- Title(参考訳): GranQ: QATにおけるチャネルワイズアクティベーションスケーリングによるグラニュラーゼロショット量子化
- Authors: Inpyo Hong, Youngwan Jo, Hyojeong Lee, Sunghyun Ahn, Kijung Lee, Sanghyun Park,
- Abstract要約: GranQは、効率的な事前スケーリング戦略を導入する新しいアクティベーション量子化フレームワークである。
CIFARとImageNetで、最先端のZSQメソッドを一貫して上回る。
GranQは従来のチャネルごとの手法に比べて量子化遅延の大幅な高速化を実現している。
- 参考スコア(独自算出の注目度): 1.7051307941715268
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot quantization (ZSQ) enables neural network compression without original training data, making it a promising solution for restricted data access scenarios. To compensate for the lack of data, recent ZSQ methods typically rely on synthetic inputs generated from the full-precision model. However, these synthetic inputs often lead to activation distortion, especially under low-bit settings. To mitigate this, existing methods typically employ per-channel scaling, but they still struggle due to the severe computational overhead during the accumulation process. To overcome this critical bottleneck, we propose GranQ, a novel activation quantization framework that introduces an efficient pre-scaling strategy. Unlike conventional channel-wise methods that repeatedly perform scaling operations during accumulation, GranQ applies scaling factors in a pre-scaling step through fully vectorized computation, eliminating runtime scaling overhead. This design enables GranQ to maintain fine-grained quantization accuracy while significantly reducing computational burden, particularly in low-bit quantization settings. Extensive experiments under quantization-aware training (QAT) settings demonstrate that GranQ consistently outperforms state-of-the-art ZSQ methods across CIFAR and ImageNet. In particular, our method achieves up to 5.45% higher accuracy in the 3-bit setting on CIFAR-100 and even surpasses the full-precision baseline on CIFAR-10. Furthermore, GranQ achieves significant speedup in quantization latency over conventional per-channel methods, demonstrating improved efficiency. With these findings, we anticipate that GranQ will inspire future research beyond conventional ZSQ approaches centered on data generation and model fine-tuning. The official code is available at https://github.com/anonymus-orange/GranQ.
- Abstract(参考訳): Zero-shot Quantization (ZSQ)は、オリジナルのトレーニングデータなしでニューラルネットワークの圧縮を可能にする。
データ不足を補うため、最近のZSQ法は一般的に、完全精度モデルから生成された合成入力に依存している。
しかしながら、これらの合成入力は、特に低ビット設定下では、しばしば活性化歪みを引き起こす。
これを軽減するため、既存の手法ではチャネルごとのスケーリングが一般的だが、集積プロセスの計算オーバーヘッドが重いため、依然として苦戦している。
この重要なボトルネックを克服するために、効率的な事前スケーリング戦略を導入する新しいアクティベーション量子化フレームワークであるGranQを提案する。
蓄積中に繰り返しスケーリング操作を行う従来のチャネルワイドメソッドとは異なり、GranQは、完全にベクトル化された計算を通じて事前スケーリングステップにスケーリング要素を適用し、実行時のスケーリングオーバーヘッドをなくす。
この設計により、GranQは、特に低ビット量子化設定において、計算負担を大幅に削減しながら、きめ細かい量子化の精度を維持することができる。
量子化対応トレーニング(QAT)設定下での大規模な実験は、GranQがCIFARとImageNetをまたいだ最先端のZSQメソッドを一貫して上回っていることを示している。
特に,CIFAR-100の3ビット設定では最大5.45%の精度を実現し,CIFAR-10の完全精度ベースラインを超えている。
さらに、GranQは従来のチャネルごとの手法に比べて量子化遅延の大幅な高速化を実現し、効率が向上した。
これらの結果から,GranQはデータ生成とモデル微調整を中心とした従来のZSQアプローチよりも先進的な研究を促すことが期待できる。
公式コードはhttps://github.com/anonymus-orange/GranQ.comで公開されている。
関連論文リスト
- DMQ: Dissecting Outliers of Diffusion Models for Post-Training Quantization [29.066284789131494]
最近のトレーニング後の量子化法は、外乱を無視し、低ビット幅での劣化性能をもたらす。
本稿では,Learned Equivalent ScalingとチャネルワイドのPower-of-Two Scalingを組み合わせたDMQを提案する。
提案手法は,特に低ビット幅において,既存の処理性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-17T09:15:29Z) - Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
学習後の量子化は、大規模な言語モデル(LLM)を再学習せずに圧縮する手法として広く使われている。
層間の量子化誤差の蓄積は、特に低ビット状態において、性能を著しく低下させる。
本稿では,QEP(Quantization Error propagation)を提案する。QEP(Quantization Error propagation)は,QEP(Quantization Error propagation)を明示的に伝播させることにより,レイヤワイドPTQを強化する軽量で汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-13T15:56:00Z) - PCGS: Progressive Compression of 3D Gaussian Splatting [55.149325473447384]
ガウスの量と品質を適応的に制御するPCGS(Progressive Compression of 3D Gaussian Splatting)を提案する。
全体として、PCGSは、SoTA非プログレッシブ手法に匹敵する圧縮性能を維持しながら、進行性を達成する。
論文 参考訳(メタデータ) (2025-03-11T15:01:11Z) - PTQ1.61: Push the Real Limit of Extremely Low-Bit Post-Training Quantization Methods for Large Language Models [64.84734437930362]
大規模言語モデル(LLM)は、非常に低ビット(2ビット未満)の量子化に直面した場合、性能が著しく低下する。
我々はPTQ1.61と呼ばれる極低ビットのPTQ法を提案し、これによって初めて1.61ビットの重み量子化が可能となる。
実験により、PTQ1.61は極低ビット量子化において最先端の性能を達成することが示された。
論文 参考訳(メタデータ) (2025-02-18T08:04:58Z) - Advanced Knowledge Transfer: Refined Feature Distillation for Zero-Shot Quantization in Edge Computing [1.8067835669244101]
AKT(Advanced Knowledge Transfer)は、低ビット量子化(Q)モデルのトレーニング能力を高める新しい手法である。
低ビットQモデルの基本勾配爆発問題に対処する。
論文 参考訳(メタデータ) (2024-12-26T08:52:27Z) - GAQAT: gradient-adaptive quantization-aware training for domain generalization [54.31450550793485]
そこで本研究では,DGのためのGAQAT(Gradient-Adaptive Quantization-Aware Training)フレームワークを提案する。
我々のアプローチは、低精度量子化におけるスケール・グラディエント・コンフリクト問題を特定することから始まる。
GAQATフレームワークの有効性を実験により検証した。
論文 参考訳(メタデータ) (2024-12-07T06:07:21Z) - Leveraging Pre-Trained Neural Networks to Enhance Machine Learning with Variational Quantum Circuits [48.33631905972908]
我々は、事前学習されたニューラルネットワークを用いて変分量子回路(VQC)を強化する革新的なアプローチを導入する。
この手法は近似誤差をキュービット数から効果的に分離し、制約条件の必要性を除去する。
我々の結果はヒトゲノム解析などの応用にまで拡張され、我々のアプローチの幅広い適用性を示している。
論文 参考訳(メタデータ) (2024-11-13T12:03:39Z) - QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。
QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。
我々は、QT-DoGが様々なデータセット、アーキテクチャ、量子化アルゴリズムにまたがって一般化することを実証する。
論文 参考訳(メタデータ) (2024-10-08T13:21:48Z) - Constraint Guided Model Quantization of Neural Networks [0.0]
Constraint Guided Model Quantization (CGMQ) は、計算資源の上限を使い、ニューラルネットワークのパラメータのビット幅を削減する量子化対応トレーニングアルゴリズムである。
MNISTでは、CGMQの性能が最先端の量子化対応トレーニングアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2024-09-30T09:41:16Z) - Quantum-Train: Rethinking Hybrid Quantum-Classical Machine Learning in the Model Compression Perspective [7.7063925534143705]
本稿では,量子コンピューティングと機械学習アルゴリズムを統合する新しいアプローチであるQuantum-Train(QT)フレームワークを紹介する。
QTは、古典的なマッピングモデルと並んで量子ニューラルネットワークを利用することで、顕著な結果を得る。
論文 参考訳(メタデータ) (2024-05-18T14:35:57Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - Mitigating the Impact of Outlier Channels for Language Model Quantization with Activation Regularization [62.15918574997175]
言語モデルには、平均値が他のチャネルよりも桁違いに高い外れ値チャネルが含まれていることが知られている。
本稿では,QAT(Quantization-Aware Training)とアクティベーション・カルトシス・正規化(Activation Kurtosis regularization)によって,レイヤの入力を正規化する戦略を提案する。
入力と出力の両方を正規化することは、入力量子化の難しさを重みに"移行"するのを防ぐために重要であることを示す。
論文 参考訳(メタデータ) (2024-04-04T17:25:30Z) - Zero-Shot Sharpness-Aware Quantization for Pre-trained Language Models [88.80146574509195]
量子化は、メモリオーバーヘッドを減らし、推論を加速するための有望なアプローチである。
種々のPLMのゼロショット量子化のための新しい量子化(ZSAQ)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-20T07:09:56Z) - Calibrating the role of entanglement in variational quantum circuits [0.6435156676256051]
エンタングルメント(Entanglement)は、量子コンピューティングの重要な性質であり、古典的なものとは分離している。
2つの変分量子アルゴリズムの動作における絡み合いの役割を系統的に検討する。
QAOAを用いて解いたMAX-CUT問題に対して,絡み合い関数としての忠実度は層数に大きく依存することがわかった。
QNNの場合、高いテスト精度のトレーニング回路は高い絡み合いによって支えられ、強制的な絡み合いの制限はテスト精度の急激な低下をもたらす。
論文 参考訳(メタデータ) (2023-10-16T23:36:40Z) - Norm Tweaking: High-performance Low-bit Quantization of Large Language
Models [21.855106896725598]
そこで本研究では,現在のPTQ手法のプラグインとして利用できるノルム調整手法を提案する。
本手法は,重量のみの量子化と重みとアクティベーションの連成量子化の両面で有意な改善を示す。
私たちのシンプルで効果的なアプローチは、現実世界のアプリケーションにとってより実用的です。
論文 参考訳(メタデータ) (2023-09-06T06:51:15Z) - Scaling Limits of Quantum Repeater Networks [62.75241407271626]
量子ネットワーク(QN)は、セキュアな通信、強化されたセンシング、効率的な分散量子コンピューティングのための有望なプラットフォームである。
量子状態の脆弱な性質のため、これらのネットワークはスケーラビリティの観点から大きな課題に直面している。
本稿では,量子リピータネットワーク(QRN)のスケーリング限界について解析する。
論文 参考訳(メタデータ) (2023-05-15T14:57:01Z) - Accelerating the training of single-layer binary neural networks using
the HHL quantum algorithm [58.720142291102135]
Harrow-Hassidim-Lloyd (HHL) の量子力学的実装から有用な情報が抽出可能であることを示す。
しかし,本論文では,HHLの量子力学的実装から有用な情報を抽出し,古典的側面における解を見つける際の複雑性を低減することを目的としている。
論文 参考訳(メタデータ) (2022-10-23T11:58:05Z) - Synergy Between Quantum Circuits and Tensor Networks: Short-cutting the
Race to Practical Quantum Advantage [43.3054117987806]
本稿では,量子回路の初期化を最適化するために,古典計算資源を利用するスケーラブルな手法を提案する。
本手法は, PQCのトレーニング性, 性能を, 様々な問題において著しく向上させることを示す。
古典的コンピュータを用いて限られた量子資源を増強する手法を実証することにより、量子コンピューティングにおける量子と量子に着想を得たモデル間の相乗効果を実証する。
論文 参考訳(メタデータ) (2022-08-29T15:24:03Z) - Optimizing Tensor Network Contraction Using Reinforcement Learning [86.05566365115729]
本稿では,グラフニューラルネットワーク(GNN)と組み合わせた強化学習(RL)手法を提案する。
この問題は、巨大な検索スペース、重い尾の報酬分布、そして困難なクレジット割り当てのために非常に難しい。
GNNを基本方針として利用するRLエージェントが,これらの課題にどのように対処できるかを示す。
論文 参考訳(メタデータ) (2022-04-18T21:45:13Z) - BSQ: Exploring Bit-Level Sparsity for Mixed-Precision Neural Network
Quantization [32.770842274996774]
混合精度量子化は、ディープニューラルネットワークの性能と圧縮率の最適なトレードオフを実現できる可能性がある。
従来の方法は、小さな手作業で設計された検索空間のみを調べるか、面倒なニューラルネットワークアーキテクチャ検索を使用して広大な検索空間を探索する。
本研究では、ビットレベルスパーシティを誘導する新たな角度から、混合精度量子化に取り組むためのビットレベルスパーシティ量子化(BSQ)を提案する。
論文 参考訳(メタデータ) (2021-02-20T22:37:41Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。