論文の概要: GranQ: Granular Zero-Shot Quantization with Channel-Wise Activation Scaling in QAT
- arxiv url: http://arxiv.org/abs/2503.18339v4
- Date: Tue, 20 May 2025 08:27:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-21 19:22:16.846516
- Title: GranQ: Granular Zero-Shot Quantization with Channel-Wise Activation Scaling in QAT
- Title(参考訳): GranQ: QATにおけるチャネルワイズアクティベーションスケーリングによるグラニュラーゼロショット量子化
- Authors: Inpyo Hong, Youngwan Jo, Hyojeong Lee, Sunghyun Ahn, Sanghyun Park,
- Abstract要約: GranQは、ベクトル化計算によるチャネルごとのスケーリングを効率的に適用する、新しいアクティベーション量子化フレームワークである。
提案手法は, CIFAR-100の3ビット設定において最大5.45%の精度を実現し, CIFAR-10の完全精度ベースラインを超えている。
- 参考スコア(独自算出の注目度): 1.8067835669244101
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot quantization (ZSQ) enables neural network compression without original training data, making it a promising solution for restricted data access scenarios. To compensate for the lack of data, recent ZSQ methods typically rely on synthetic inputs generated from the full-precision model. However, these synthetic inputs often lead to activation distortion, especially under low-bit settings. As a result, existing methods struggle to mitigate this issue due to coarse activation scaling. To address this issue, we propose GranQ, a novel activation quantization framework that efficiently applies per-channel scaling through vectorized computation. In contrast to conventional channel-wise methods, which apply vectorization only to the quantization step, GranQ improves efficiency by vectorizing the scaling operation. This design allows GranQ to maintain fine-grained quantization granularity with minimal computational overhead, even in low-bit environments. Extensive experiments under quantization-aware training (QAT) settings demonstrate that GranQ consistently outperforms state-of-the-art ZSQ methods across CIFAR and ImageNet. In particular, our method achieves up to 5.45% higher accuracy in the 3-bit setting on CIFAR-100 and even surpasses the full-precision baseline on CIFAR-10. Furthermore, GranQ achieves significant speedup in quantization latency over conventional per-channel methods, demonstrating improved efficiency. With these findings, we anticipate that GranQ will inspire future research beyond conventional ZSQ approaches centered on data generation and model fine-tuning.
- Abstract(参考訳): Zero-shot Quantization (ZSQ)は、オリジナルのトレーニングデータなしでニューラルネットワークの圧縮を可能にする。
データ不足を補うため、最近のZSQ法は一般的に、完全精度モデルから生成された合成入力に依存している。
しかしながら、これらの合成入力は、特に低ビット設定下では、しばしば活性化歪みを引き起こす。
結果として、既存の手法は、粗いアクティベーションスケーリングのためにこの問題を軽減するのに苦労している。
この問題に対処するために,ベクトル化計算によるチャネル間スケーリングを効率的に適用する新しいアクティベーション量子化フレームワークであるGranQを提案する。
量子化ステップのみにベクトル化を適用する従来のチャネルワイド法とは対照的に、GranQはスケーリング操作をベクトル化することで効率を向上させる。
この設計により、GranQは低ビット環境でも最小の計算オーバーヘッドで微細な量子化の粒度を維持することができる。
量子化対応トレーニング(QAT)設定下での大規模な実験は、GranQがCIFARとImageNetをまたいだ最先端のZSQメソッドを一貫して上回っていることを示している。
特に,CIFAR-100の3ビット設定では最大5.45%の精度を実現し,CIFAR-10の完全精度ベースラインを超えている。
さらに、GranQは従来のチャネルごとの手法に比べて量子化遅延の大幅な高速化を実現し、効率が向上した。
これらの結果から,GranQはデータ生成とモデル微調整を中心とした従来のZSQアプローチよりも先進的な研究を促すことが期待できる。
関連論文リスト
- Quantization Error Propagation: Revisiting Layer-Wise Post-Training Quantization [0.0]
学習後の量子化は、大規模な言語モデル(LLM)を再学習せずに圧縮する手法として広く使われている。
層間の量子化誤差の蓄積は、特に低ビット状態において、性能を著しく低下させる。
本稿では,QEP(Quantization Error propagation)を提案する。QEP(Quantization Error propagation)は,QEP(Quantization Error propagation)を明示的に伝播させることにより,レイヤワイドPTQを強化する軽量で汎用的なフレームワークである。
論文 参考訳(メタデータ) (2025-04-13T15:56:00Z) - Leveraging Pre-Trained Neural Networks to Enhance Machine Learning with Variational Quantum Circuits [48.33631905972908]
我々は、事前学習されたニューラルネットワークを用いて変分量子回路(VQC)を強化する革新的なアプローチを導入する。
この手法は近似誤差をキュービット数から効果的に分離し、制約条件の必要性を除去する。
我々の結果はヒトゲノム解析などの応用にまで拡張され、我々のアプローチの幅広い適用性を示している。
論文 参考訳(メタデータ) (2024-11-13T12:03:39Z) - QT-DoG: Quantization-aware Training for Domain Generalization [58.439816306817306]
領域一般化のための量子化アウェアトレーニング(QT-DoG)を提案する。
QT-DoGは、モデル重みのノイズを誘導することで暗黙の正則化器として量子化を利用する。
我々は、QT-DoGが様々なデータセット、アーキテクチャ、量子化アルゴリズムにまたがって一般化することを実証する。
論文 参考訳(メタデータ) (2024-10-08T13:21:48Z) - Constraint Guided Model Quantization of Neural Networks [0.0]
Constraint Guided Model Quantization (CGMQ) は、計算資源の上限を使い、ニューラルネットワークのパラメータのビット幅を削減する量子化対応トレーニングアルゴリズムである。
MNISTでは、CGMQの性能が最先端の量子化対応トレーニングアルゴリズムと競合していることが示されている。
論文 参考訳(メタデータ) (2024-09-30T09:41:16Z) - Quantum-Train: Rethinking Hybrid Quantum-Classical Machine Learning in the Model Compression Perspective [7.7063925534143705]
本稿では,量子コンピューティングと機械学習アルゴリズムを統合する新しいアプローチであるQuantum-Train(QT)フレームワークを紹介する。
QTは、古典的なマッピングモデルと並んで量子ニューラルネットワークを利用することで、顕著な結果を得る。
論文 参考訳(メタデータ) (2024-05-18T14:35:57Z) - Gradient-based Automatic Mixed Precision Quantization for Neural Networks On-Chip [0.9187138676564589]
本稿では,革新的な量子化学習手法である高粒度量子化(HGQ)を提案する。
HGQは、勾配降下によって最適化できるようにすることで、重量当たりおよび活動当たりの精度を微調整する。
このアプローチは、演算演算が可能なハードウェア上で、超低レイテンシと低電力ニューラルネットワークを実現する。
論文 参考訳(メタデータ) (2024-05-01T17:18:46Z) - Calibrating the role of entanglement in variational quantum circuits [0.6435156676256051]
エンタングルメント(Entanglement)は、量子コンピューティングの重要な性質であり、古典的なものとは分離している。
2つの変分量子アルゴリズムの動作における絡み合いの役割を系統的に検討する。
QAOAを用いて解いたMAX-CUT問題に対して,絡み合い関数としての忠実度は層数に大きく依存することがわかった。
QNNの場合、高いテスト精度のトレーニング回路は高い絡み合いによって支えられ、強制的な絡み合いの制限はテスト精度の急激な低下をもたらす。
論文 参考訳(メタデータ) (2023-10-16T23:36:40Z) - Scaling Limits of Quantum Repeater Networks [62.75241407271626]
量子ネットワーク(QN)は、セキュアな通信、強化されたセンシング、効率的な分散量子コンピューティングのための有望なプラットフォームである。
量子状態の脆弱な性質のため、これらのネットワークはスケーラビリティの観点から大きな課題に直面している。
本稿では,量子リピータネットワーク(QRN)のスケーリング限界について解析する。
論文 参考訳(メタデータ) (2023-05-15T14:57:01Z) - Accelerating the training of single-layer binary neural networks using
the HHL quantum algorithm [58.720142291102135]
Harrow-Hassidim-Lloyd (HHL) の量子力学的実装から有用な情報が抽出可能であることを示す。
しかし,本論文では,HHLの量子力学的実装から有用な情報を抽出し,古典的側面における解を見つける際の複雑性を低減することを目的としている。
論文 参考訳(メタデータ) (2022-10-23T11:58:05Z) - Synergy Between Quantum Circuits and Tensor Networks: Short-cutting the
Race to Practical Quantum Advantage [43.3054117987806]
本稿では,量子回路の初期化を最適化するために,古典計算資源を利用するスケーラブルな手法を提案する。
本手法は, PQCのトレーニング性, 性能を, 様々な問題において著しく向上させることを示す。
古典的コンピュータを用いて限られた量子資源を増強する手法を実証することにより、量子コンピューティングにおける量子と量子に着想を得たモデル間の相乗効果を実証する。
論文 参考訳(メタデータ) (2022-08-29T15:24:03Z) - Optimizing Tensor Network Contraction Using Reinforcement Learning [86.05566365115729]
本稿では,グラフニューラルネットワーク(GNN)と組み合わせた強化学習(RL)手法を提案する。
この問題は、巨大な検索スペース、重い尾の報酬分布、そして困難なクレジット割り当てのために非常に難しい。
GNNを基本方針として利用するRLエージェントが,これらの課題にどのように対処できるかを示す。
論文 参考訳(メタデータ) (2022-04-18T21:45:13Z) - DAQ: Distribution-Aware Quantization for Deep Image Super-Resolution
Networks [49.191062785007006]
画像超解像のための深い畳み込みニューラルネットワークの定量化は、計算コストを大幅に削減する。
既存の作業は、4ビット以下の超低精度の厳しい性能低下に苦しむか、または性能を回復するために重い微調整プロセスを必要とします。
高精度なトレーニングフリー量子化を実現する新しい分散認識量子化方式(DAQ)を提案する。
論文 参考訳(メタデータ) (2020-12-21T10:19:42Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。