論文の概要: QwT-v2: Practical, Effective and Efficient Post-Training Quantization
- arxiv url: http://arxiv.org/abs/2505.20932v1
- Date: Tue, 27 May 2025 09:21:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.540947
- Title: QwT-v2: Practical, Effective and Efficient Post-Training Quantization
- Title(参考訳): QwT-v2: 試行後の量子化の実践的、効果的、効率的
- Authors: Ningyuan Tang, Minghao Fu, Hao Yu, Jianxin Wu,
- Abstract要約: QwTメソッドは、余分なパラメータと遅延を発生させる。
QwTは多くのハードウェアプラットフォームと互換性がない。
QwT-v2では、パラメータや計算量が大幅に削減されている。
- 参考スコア(独自算出の注目度): 14.513441739563453
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Network quantization is arguably one of the most practical network compression approaches for reducing the enormous resource consumption of modern deep neural networks. They usually require diverse and subtle design choices for specific architecture and tasks. Instead, the QwT method is a simple and general approach which introduces lightweight additional structures to improve quantization. But QwT incurs extra parameters and latency. More importantly, QwT is not compatible with many hardware platforms. In this paper, we propose QwT-v2, which not only enjoys all advantages of but also resolves major defects of QwT. By adopting a very lightweight channel-wise affine compensation (CWAC) module, QwT-v2 introduces significantly less extra parameters and computations compared to QwT, and at the same time matches or even outperforms QwT in accuracy. The compensation module of QwT-v2 can be integrated into quantization inference engines with little effort, which not only effectively removes the extra costs but also makes it compatible with most existing hardware platforms.
- Abstract(参考訳): ネットワーク量子化は、現代のディープニューラルネットワークの膨大なリソース消費を減らすための最も実用的なネットワーク圧縮手法の1つである。
それらは通常、特定のアーキテクチャやタスクに対して多様で微妙な設計選択を必要とする。
代わりにQwT法は、量子化を改善するための軽量な追加構造を導入する単純で一般的なアプローチである。
しかし、QwTは追加のパラメータとレイテンシを発生させる。
さらに重要なのは、QwTは多くのハードウェアプラットフォームと互換性がないことだ。
本稿では,QwTの利点を享受するだけでなく,QwTの大きな欠陥を解消するQwT-v2を提案する。
非常に軽量なチャネルワイドアフィン補償 (CWAC) モジュールを採用することで、QwT-v2はQwTよりもはるかに少ない余分なパラメータや計算を導入し、同時にQwTよりも精度が優れている。
QwT-v2の補償モジュールは量子化推論エンジンに統合できるため、コストを効果的に削減できるだけでなく、既存のハードウェアプラットフォームとも互換性がある。
関連論文リスト
- Quantum Deep Equilibrium Models [1.5853439776721878]
本稿では,量子機械学習モデルのパラメータを学習するトレーニングパラダイムであるQuantum Deep Equilibrium Models (QDEQ)を紹介する。
QDEQは、既存の同等のベースラインモデルと競合するだけでなく、5倍以上のレイヤを持つネットワークよりも高いパフォーマンスを実現している。
このことは、QDEQパラダイムが与えられたタスクに対してより浅い量子回路を開発するのに利用できることを示している。
論文 参考訳(メタデータ) (2024-10-31T13:54:37Z) - MRQ:Support Multiple Quantization Schemes through Model Re-Quantization [0.17499351967216337]
ディープラーニングモデルは、様々な固定ポイントハードウェアで容易に定量化できない。
モデル再量子化と呼ばれる新しいタイプのモデル量子化手法を提案する。
再量子化プロセスから得られたモデルは、Echo ShowデバイスでNNAにうまくデプロイされている。
論文 参考訳(メタデータ) (2023-08-01T08:15:30Z) - Elastic Entangled Pair and Qubit Resource Management in Quantum Cloud
Computing [73.7522199491117]
量子クラウドコンピューティング(QCC)は、量子コンピューティングリソースを効率的に提供するための有望なアプローチを提供する。
ユーザ需要の変動と量子回路の要求は、効率的なリソース供給のために困難である。
本稿では、量子コンピューティングとネットワークリソースのプロビジョニングのためのリソース割り当てモデルを提案する。
論文 参考訳(メタデータ) (2023-07-25T00:38:46Z) - Pre-training Tensor-Train Networks Facilitates Machine Learning with Variational Quantum Circuits [70.97518416003358]
変分量子回路(VQC)は、ノイズの多い中間スケール量子(NISQ)デバイス上での量子機械学習を約束する。
テンソルトレインネットワーク(TTN)はVQC表現と一般化を向上させることができるが、結果として得られるハイブリッドモデルであるTTN-VQCは、Polyak-Lojasiewicz(PL)条件による最適化の課題に直面している。
この課題を軽減するために,プレトレーニングTTNモデルとVQCを組み合わせたPre+TTN-VQCを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:08:18Z) - Knowledge Distillation in Quantum Neural Network using Approximate
Synthesis [5.833272638548153]
量子ニューラルネットワーク(QNN)における知識蒸留の概念を近似合成を用いて紹介する。
回路層が71.4%減少し、ノイズ下では16.2%の精度が達成されている。
論文 参考訳(メタデータ) (2022-07-05T04:09:43Z) - Optimizing Tensor Network Contraction Using Reinforcement Learning [86.05566365115729]
本稿では,グラフニューラルネットワーク(GNN)と組み合わせた強化学習(RL)手法を提案する。
この問題は、巨大な検索スペース、重い尾の報酬分布、そして困難なクレジット割り当てのために非常に難しい。
GNNを基本方針として利用するRLエージェントが,これらの課題にどのように対処できるかを示す。
論文 参考訳(メタデータ) (2022-04-18T21:45:13Z) - A White Paper on Neural Network Quantization [20.542729144379223]
本稿では,量子化ノイズがネットワークの性能に与える影響を緩和する最新アルゴリズムを提案する。
我々は,ポストトレーニング量子化(PTQ)と量子化アウェア・トレーニング(QAT)の2つのアルゴリズムについて考察する。
論文 参考訳(メタデータ) (2021-06-15T17:12:42Z) - A Statistical Framework for Low-bitwidth Training of Deep Neural
Networks [70.77754244060384]
フル量子化トレーニング(FQT)は、ニューラルネットワークモデルのアクティベーション、重み、勾配を定量化することで、低ビット幅のハードウェアを使用する。
FQTの最大の課題は、特に勾配量子化が収束特性にどのように影響するかという理論的な理解の欠如である。
論文 参考訳(メタデータ) (2020-10-27T13:57:33Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。