論文の概要: Generative Design of Hardware-aware DNNs
- arxiv url: http://arxiv.org/abs/2006.03968v2
- Date: Sun, 12 Jul 2020 23:30:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 21:15:31.808721
- Title: Generative Design of Hardware-aware DNNs
- Title(参考訳): ハードウェア対応DNNの生成設計
- Authors: Sheng-Chun Kao, Arun Ramamurthy, Tushar Krishna
- Abstract要約: 本稿では,自律量子化とHW対応チューニングの新しい手法を提案する。
生成モデルであるAQGANは、目標精度を条件として、一連の量子化構成を生成する。
我々は、ImageNetデータセット上で広く使われている5つの効率的なモデルについて、我々のモデルを評価した。
- 参考スコア(独自算出の注目度): 6.144349819246314
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To efficiently run DNNs on the edge/cloud, many new DNN inference
accelerators are being designed and deployed frequently. To enhance the
resource efficiency of DNNs, model quantization is a widely-used approach.
However, different accelerator/HW has different resources leading to the need
for specialized quantization strategy of each HW. Moreover, using the same
quantization for every layer may be sub-optimal, increasing the designspace of
possible quantization choices. This makes manual-tuning infeasible. Recent work
in automatically determining quantization for each layer is driven by
optimization methods such as reinforcement learning. However, these approaches
need re-training the RL for every new HW platform. We propose a new way for
autonomous quantization and HW-aware tuning. We propose a generative model,
AQGAN, which takes a target accuracy as the condition and generates a suite of
quantization configurations. With the conditional generative model, the user
can autonomously generate different configurations with different targets in
inference time. Moreover, we propose a simplified HW-tuning flow, which uses
the generative model to generate proposals and execute simple selection based
on the HW resource budget, whose process is fast and interactive. We evaluate
our model on five of the widely-used efficient models on the ImageNet dataset.
We compare with existing uniform quantization and state-of-the-art autonomous
quantization methods. Our generative model shows competitive achieved accuracy,
however, with around two degrees less search cost for each design point. Our
generative model shows the generated quantization configuration can lead to
less than 3.5% error across all experiments.
- Abstract(参考訳): エッジ/クラウド上でDNNを効率的に実行するために、多くの新しいDNN推論アクセラレータが設計され、頻繁にデプロイされている。
DNNの資源効率を高めるために、モデル量子化は広く使われているアプローチである。
しかし、異なる加速器/HWは異なるリソースを持ち、それぞれのHWの特殊量子化戦略を必要とする。
さらに、全ての層で同じ量子化を使用することは準最適であり、可能な量子化選択の設計空間を増大させる。
これにより手動チューニングが不可能になる。
強化学習などの最適化手法により,各レイヤの量子化を自動的に決定する最近の研究が進められている。
しかし、これらのアプローチはすべての新しいHWプラットフォームのためにRLを再訓練する必要がある。
自律量子化とhwアウェアチューニングのための新しい手法を提案する。
本稿では,目標精度を条件とし,量子化構成の一組を生成する生成モデル aqgan を提案する。
条件付き生成モデルにより、ユーザは推論時間において異なるターゲットを持つ異なる構成を自律的に生成できる。
さらに,提案手法を用いて提案モデルを作成し,プロセスが高速かつインタラクティブなHWリソース予算に基づいて簡単な選択を行う,簡易なHW調整フローを提案する。
imagenetデータセット上で広く使われている5つの効率的なモデルについて評価した。
既存の均一量子化法と最先端自律量子化法との比較を行った。
しかし,本生成モデルでは,各設計点の探索コストが約2 度削減されている。
生成した量子化構成はすべての実験で3.5%以下の誤差を生じさせる可能性がある。
関連論文リスト
- AdaQAT: Adaptive Bit-Width Quantization-Aware Training [0.873811641236639]
大規模ディープニューラルネットワーク(DNN)は多くのアプリケーションシナリオで大きな成功を収めています。
モデル量子化は、デプロイメントの制約に対処する一般的なアプローチであるが、最適化されたビット幅の探索は困難である。
AdaQAT(Adaptive Bit-Width Quantization Aware Training)は,学習中のビット幅を自動的に最適化し,より効率的な推論を行う学習手法である。
論文 参考訳(メタデータ) (2024-04-22T09:23:56Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - A Model for Every User and Budget: Label-Free and Personalized
Mixed-Precision Quantization [23.818922559567994]
ASRモデルは,対象領域から抽出した少数のサンプルに頼りながら,量子化時にパーソナライズできることを示す。
MyQASRは、微調整なしで任意のメモリ要件の下で、多様なユーザ向けに調整された量子化スキームを生成する。
大規模なASRモデルの結果は、myQASRが特定の性別、言語、話者のパフォーマンスをどのように改善するかを示している。
論文 参考訳(メタデータ) (2023-07-24T10:03:28Z) - AutoQNN: An End-to-End Framework for Automatically Quantizing Neural
Networks [6.495218751128902]
我々は,人的負担を伴わずに,異なるスキームやビット幅を用いて異なるレイヤを自動的に定量化する,AutoQNNというエンドツーエンドフレームワークを提案する。
QPLは、量子化スキームのビット幅を再パラメータ化することで、混合精度ポリシーを学習する最初の方法である。
QAGは、任意のアーキテクチャを手動で介入することなく、対応する量子化アーキテクチャに変換するように設計されている。
論文 参考訳(メタデータ) (2023-04-07T11:14:21Z) - A Framework for Demonstrating Practical Quantum Advantage: Racing
Quantum against Classical Generative Models [62.997667081978825]
生成モデルの一般化性能を評価するためのフレームワークを構築した。
古典的および量子生成モデル間の実用的量子優位性(PQA)に対する最初の比較レースを確立する。
以上の結果から,QCBMは,他の最先端の古典的生成モデルよりも,データ制限方式の方が効率的であることが示唆された。
論文 参考訳(メタデータ) (2023-03-27T22:48:28Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - One Model for All Quantization: A Quantized Network Supporting Hot-Swap
Bit-Width Adjustment [36.75157407486302]
多様なビット幅をサポートする全量子化のためのモデルを訓練する手法を提案する。
重みの多様性を高めるためにウェーブレット分解と再構成を用いる。
同じ精度で訓練された専用モデルに匹敵する精度が得られる。
論文 参考訳(メタデータ) (2021-05-04T08:10:50Z) - Once Quantization-Aware Training: High Performance Extremely Low-bit
Architecture Search [112.05977301976613]
本稿では,ネットワークアーキテクチャ検索手法と量子化手法を組み合わせることで,両者のメリットを享受することを提案する。
まず、多数の量子化モデルを取得するために、共有ステップサイズでアーキテクチャと量子化の合同トレーニングを提案する。
次に、量子化されたモデルを低ビットに転送するためにビット継承方式を導入し、さらに時間コストを削減し、量子化精度を向上させる。
論文 参考訳(メタデータ) (2020-10-09T03:52:16Z) - Conditional Generative Modeling via Learning the Latent Space [54.620761775441046]
マルチモーダル空間における条件生成のための新しい枠組みを提案する。
潜在変数を使って一般化可能な学習パターンをモデル化する。
推論では、潜伏変数は複数の出力モードに対応する最適解を見つけるために最適化される。
論文 参考訳(メタデータ) (2020-10-07T03:11:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。