論文の概要: Confounding Tradeoffs for Neural Network Quantization
- arxiv url: http://arxiv.org/abs/2102.06366v1
- Date: Fri, 12 Feb 2021 06:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-15 13:19:12.464098
- Title: Confounding Tradeoffs for Neural Network Quantization
- Title(参考訳): ニューラルネットワーク量子化のトレードオフ
- Authors: Sahaj Garg, Anirudh Jain, Joe Lou, Mitchell Nahmias
- Abstract要約: ニューラルネットワーク量子化技術は、ディープラーニングの計算量とメモリフットプリントを減らすために開発された。
しかし、これらの手法は、高い精度と引き換えに推論の加速やリソースの複雑さに影響を与える可能性のあるトレードオフの確立によって評価される。
この研究は、しばしば見過ごされ、均一で混合予測後の量子化に与える影響を実証的に分析する様々なトレードオフを特徴付ける。
これらのトレードオフは、異なるユースケースで実現可能なハードウェアアクセラレーションを制限するため、研究者は「量子化カード」の構造を通じて、これらの設計選択を明示的に報告することを推奨する。
- 参考スコア(独自算出の注目度): 0.7701333337093469
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Many neural network quantization techniques have been developed to decrease
the computational and memory footprint of deep learning. However, these methods
are evaluated subject to confounding tradeoffs that may affect inference
acceleration or resource complexity in exchange for higher accuracy. In this
work, we articulate a variety of tradeoffs whose impact is often overlooked and
empirically analyze their impact on uniform and mixed-precision post-training
quantization, finding that these confounding tradeoffs may have a larger impact
on quantized network accuracy than the actual quantization methods themselves.
Because these tradeoffs constrain the attainable hardware acceleration for
different use-cases, we encourage researchers to explicitly report these design
choices through the structure of "quantization cards." We expect quantization
cards to help researchers compare methods more effectively and engineers
determine the applicability of quantization techniques for their hardware.
- Abstract(参考訳): ディープラーニングの計算とメモリフットプリントを減らすために、多くのニューラルネットワーク量子化技術が開発されている。
しかし、これらの手法は、高い精度と引き換えに推論の加速やリソースの複雑さに影響を与える可能性のあるトレードオフの確立によって評価される。
本研究では,その影響がしばしば見過ごされ,その影響が均一かつ混合予測後の量子化に与える影響を実証的に分析し,これらの統合的トレードオフが実際の量子化手法自体よりも量子化ネットワークの精度に大きな影響を与えることを見出した。
これらのトレードオフは、異なるユースケースで実現可能なハードウェアアクセラレーションを制限するため、研究者は「量子化カード」の構造を通じて、これらの設計選択を明示的に報告することを推奨する。
量子化カードは、研究者がより効果的に方法を比較するのに役立ち、エンジニアはハードウェアの量子化技術の適用性を決定するだろう。
関連論文リスト
- Neural auto-designer for enhanced quantum kernels [59.616404192966016]
本稿では,問題固有の量子特徴写像の設計を自動化するデータ駆動型手法を提案する。
私たちの研究は、量子機械学習の進歩におけるディープラーニングの実質的な役割を強調します。
論文 参考訳(メタデータ) (2024-01-20T03:11:59Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Resource Saving via Ensemble Techniques for Quantum Neural Networks [1.4606049539095878]
本稿では,複数の量子ニューラルネットワークのインスタンスに基づいて,単一の機械学習モデルを構築することを含むアンサンブル手法を提案する。
特に,データロード構成の異なるバッグングとAdaBoostの手法を実装し,その性能を実世界の分類と回帰の両方で評価する。
これらの手法により,比較的小さな量子デバイス上でも,大規模で強力なモデルの構築が可能であることが示唆された。
論文 参考訳(メタデータ) (2023-03-20T17:19:45Z) - Ternary Quantization: A Survey [12.90416661059601]
深層ニューラルネットワークモデルのデプロイには、推論時間、モデルサイズ、精度が不可欠である。
3次量子化の進化を概観し、既存の3次量子化法との関係について検討する。
論文 参考訳(メタデータ) (2023-03-02T03:38:51Z) - Mixed-Precision Inference Quantization: Radically Towards Faster
inference speed, Lower Storage requirement, and Lower Loss [4.877532217193618]
既存の量子化技術は、経験と「微調整」スキルに大きく依存している。
本研究は,完全精度モデルよりも低損失の混合精密量子化モデルを得るための方法論を提供する。
特に、巨大なアイデンティティマッピングを持つニューラルネットワークが量子化法に耐性があることを実証する。
論文 参考訳(メタデータ) (2022-07-20T10:55:34Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - HPTQ: Hardware-Friendly Post Training Quantization [6.515659231669797]
ハードウェアフレンドリーなポストトレーニング量子化(HPTQ)フレームワークを導入する。
分類,オブジェクト検出,セマンティックセグメンテーション,ポーズ推定の4つのタスクについて大規模な研究を行う。
ハードウェアフレンドリーな制約の下で競争結果が得られることを示す実験を行った。
論文 参考訳(メタデータ) (2021-09-19T12:45:01Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Post-Training Quantization for Vision Transformer [85.57953732941101]
本稿では,視覚変換器のメモリ記憶量と計算コストを削減するための学習後量子化アルゴリズムを提案する。
約8ビット量子化を用いて、ImageNetデータセット上でDeiT-Bモデルを用いて81.29%のトップ-1の精度を得ることができる。
論文 参考訳(メタデータ) (2021-06-27T06:27:22Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - Where Should We Begin? A Low-Level Exploration of Weight Initialization
Impact on Quantized Behaviour of Deep Neural Networks [93.4221402881609]
異なる重みの初期化が重みの最終的な分布と異なるCNNアーキテクチャの活性化に与える影響について、詳細なアブレーション研究を行う。
我々の知る限りでは、ウェイトの初期化とその量子化行動に対する影響について、そのような低レベルで詳細な定量分析を行うのは、私たちは初めてである。
論文 参考訳(メタデータ) (2020-11-30T06:54:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。