論文の概要: RTF-Q: Unsupervised domain adaptation based retraining-free quantization network
- arxiv url: http://arxiv.org/abs/2408.05752v1
- Date: Sun, 11 Aug 2024 11:53:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-13 15:37:52.304117
- Title: RTF-Q: Unsupervised domain adaptation based retraining-free quantization network
- Title(参考訳): RTF-Q:unsupervised domain adaptation based retraining-free Quantization network
- Authors: Nanyang Du, Chen Tang, Yuan Meng, Zhi Wang,
- Abstract要約: 教師なしドメイン適応に基づくReTraining-Free Quantized (RTF-Q)ネットワークを導入する。
我々は量子化学習を使用し、全精度ネットワークのビットOPを少なくとも1/16削減する。
実験の結果,UDAタスクにおけるSOTA法と同等の分類精度が得られた。
- 参考スコア(独自算出の注目度): 15.499564396513101
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Performing unsupervised domain adaptation on resource-constrained edge devices is a significant task. Although existing research allows edge devices to use subnets with different computational budgets for inference, they often require expensive pre-training and do not consider the issues of parameter precision redundancy in the model, which is not conducive to the deployment of the model on edge devices. In this paper, we introduce a ReTraining-Free Quantized (RTF-Q) network based on unsupervised domain adaptation, featuring quantized subnets of varying computational costs that can operate on devices with dynamically changing computation budgets. Our network has three switchable dimensions: width (number of channels), input resolution, and quantization bit-width. Specifically, we choose subnet dimensions that have minimal impact on network performance and then directly load the official weight files without requiring expensive and time-consuming pre-training on Imagenet-1K. To further reduce the network's computational load and memory usage, we use quantization-aware training, reducing the BitOPs of full-precision networks by at least 1/16. We propose a training method called SandwichQ for multiple quantization bit widths, which can efficiently train multiple quantization subnets. By training in multiple quantization bit-width spaces simultaneously and using the proposed SandwichQ rule, we achieve better network performance compared to using a single quantization bit-width alone. Experimental results show that our method achieves classification accuracy comparable to SOTA methods on various UDA tasks, significantly reducing network size and computational overhead. Code will be available at https://github.com/dunanyang/RTF-Q.
- Abstract(参考訳): リソース制約のあるエッジデバイス上で、教師なしのドメイン適応を実行することは重要なタスクである。
既存の研究では、エッジデバイスは推論のために異なる計算予算を持つサブネットを使用することができるが、しばしば高価な事前トレーニングを必要とし、モデルのパラメータ精度の冗長性の問題を考慮しない。
本稿では,非教師付きドメイン適応に基づくReTraining-Free Quantized (RTF-Q)ネットワークを提案する。
我々のネットワークは、幅(チャンネル数)、入力解像度、量子化ビット幅の3つの切替可能な次元を持っている。
具体的には、ネットワーク性能に最小限の影響を与えるサブネットディメンションを選択し、Imagenet-1Kでコストと時間を要する事前トレーニングを必要とせずに、公式の重みファイルを直接ロードする。
ネットワークの計算負荷とメモリ使用量をさらに削減するために、量子化対応トレーニングを使用し、全精度ネットワークのビットOPを少なくとも1/16削減する。
我々は、複数の量子化ビット幅に対するサンドウィッチQと呼ばれるトレーニング手法を提案し、複数の量子化サブネットを効率的に訓練することができる。
複数の量子化ビット幅空間を同時にトレーニングし、提案したSandwichQルールを用いることで、単一量子化ビット幅のみを使用する場合と比較してネットワーク性能が向上する。
実験結果から,UDAタスクにおけるSOTA法に匹敵する分類精度を実現し,ネットワークサイズや計算オーバーヘッドを大幅に低減した。
コードはhttps://github.com/dunanyang/RTF-Q.comで入手できる。
関連論文リスト
- AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - Post-Training Quantization for Re-parameterization via Coarse & Fine
Weight Splitting [13.270381125055275]
本稿では,重みの量子化誤差を低減するために,粗大かつ微細な重み分割法(CFWS)を提案する。
我々は、活性化のための最適な量子化尺度を決定するために改良されたKLメトリックを開発した。
例えば、量子化されたRepVGG-A1モデルは、わずか0.3%の精度損失を示す。
論文 参考訳(メタデータ) (2023-12-17T02:31:20Z) - EQ-Net: Elastic Quantization Neural Networks [15.289359357583079]
Elastic Quantization Neural Networks (EQ-Net) は、堅牢な重み共有量子化スーパーネットのトレーニングを目的としている。
本稿では, 様々な主要な量形式に対応するために, 弾性量子化空間(弾性ビット幅, 粒度, 対称性を含む)を提案する。
遺伝的アルゴリズムと,提案した条件量子化対応条件精度予測器(CQAP)を推定器として組み込んで,混合精度量子ニューラルネットワークを高速に探索する。
論文 参考訳(メタデータ) (2023-08-15T08:57:03Z) - MBQuant: A Novel Multi-Branch Topology Method for Arbitrary Bit-width Network Quantization [51.85834744835766]
任意のビット幅量子化のための新しい手法MBQuantを提案する。
本稿では,既存の任意のビット幅量子化法と比較して,MBQuantが大幅な性能向上を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-14T10:17:09Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Standard Deviation-Based Quantization for Deep Neural Networks [17.495852096822894]
深層ニューラルネットワークの量子化は、推論コストを低減するための有望なアプローチである。
ネットワークの重みと活性化分布の知識を用いて量子化間隔(離散値)を学習する新しいフレームワークを提案する。
提案手法は,ネットワークのパラメータを同時に推定し,量子化過程におけるプルーニング比を柔軟に調整する。
論文 参考訳(メタデータ) (2022-02-24T23:33:47Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Direct Quantization for Training Highly Accurate Low Bit-width Deep
Neural Networks [73.29587731448345]
本稿では,低ビット幅重みとアクティベーションで深部畳み込みニューラルネットワークを訓練する2つの新しい手法を提案する。
まず、ビット幅の少ない重みを得るため、既存の方法の多くは、全精度ネットワーク重みで量子化することにより量子化重みを得る。
第二に、低ビット幅のアクティベーションを得るために、既存の作品はすべてのチャネルを等しく考慮する。
論文 参考訳(メタデータ) (2020-12-26T15:21:18Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。