論文の概要: Mixed-Precision Neural Networks: A Survey
- arxiv url: http://arxiv.org/abs/2208.06064v1
- Date: Thu, 11 Aug 2022 23:04:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-15 13:02:03.720582
- Title: Mixed-Precision Neural Networks: A Survey
- Title(参考訳): 混合精度ニューラルネットワーク:サーベイ
- Authors: Mariam Rakka, Mohammed E. Fouda, Pramod Khargonekar, Fadi Kurdahi
- Abstract要約: 混合精度のDeep Neural Networksは、ハードウェアデプロイメントに必要なエネルギー効率とスループットを実現する。
しかし、精度を保った最適層間ビット精度は見つからない。
有望な精度を達成したいくつかのフレームワークが提案されている。
- 参考スコア(独自算出の注目度): 0.5046831208137847
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mixed-precision Deep Neural Networks achieve the energy efficiency and
throughput needed for hardware deployment, particularly when the resources are
limited, without sacrificing accuracy. However, the optimal per-layer bit
precision that preserves accuracy is not easily found, especially with the
abundance of models, datasets, and quantization techniques that creates an
enormous search space. In order to tackle this difficulty, a body of literature
has emerged recently, and several frameworks that achieved promising accuracy
results have been proposed. In this paper, we start by summarizing the
quantization techniques used generally in literature. Then, we present a
thorough survey of the mixed-precision frameworks, categorized according to
their optimization techniques such as reinforcement learning and quantization
techniques like deterministic rounding. Furthermore, the advantages and
shortcomings of each framework are discussed, where we present a juxtaposition.
We finally give guidelines for future mixed-precision frameworks.
- Abstract(参考訳): 混合精度のDeep Neural Networksは、特にリソースが制限されている場合に、ハードウェアデプロイメントに必要なエネルギー効率とスループットを、精度を犠牲にすることなく達成する。
しかし、特に膨大な探索空間を生成するモデル、データセット、量子化技術が豊富にあるため、精度を保つ最適な層単位のビット精度は見当たらない。
この課題に取り組むために,近年,文献体系が出現し,有望な精度を実現するいくつかの枠組みが提案されている。
本稿では,文献で一般的に用いられる量子化手法の要約から始める。
そこで本研究では,強化学習などの最適化手法と,決定論的丸め法などの量子化手法により分類された混合精度フレームワークの徹底的な調査を行った。
さらに,各フレームワークの長所と短所を議論し,ここではジャクスタポジションを提案する。
最終的には、混合精度フレームワークのガイドラインを提供します。
関連論文リスト
- Saliency Assisted Quantization for Neural Networks [0.0]
本稿では,学習期間中にリアルタイムな説明を提供することにより,深層学習モデルのブラックボックスの性質に対処する。
我々は資源制約に対処するために確立された量子化手法を用いる。
提案手法の有効性を評価するため,量子化が畳み込みニューラルネットワークの解釈可能性や精度に与える影響について検討する。
論文 参考訳(メタデータ) (2024-11-07T05:16:26Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Accurate Neural Network Pruning Requires Rethinking Sparse Optimization [87.90654868505518]
標準コンピュータビジョンと自然言語処理の疎度ベンチマークを用いたモデルトレーニングにおいて,高い疎度が与える影響について述べる。
本稿では,視覚モデルのスパース事前学習と言語モデルのスパース微調整の両面において,この問題を軽減するための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2023-08-03T21:49:14Z) - A Learning-Based Optimal Uncertainty Quantification Method and Its
Application to Ballistic Impact Problems [1.713291434132985]
本稿では、入力(または事前)測度が部分的に不完全であるシステムに対する最適(最大および無限)不確実性境界について述べる。
本研究では,不確実性最適化問題に対する学習基盤の枠組みを実証する。
本手法は,工学的実践における性能証明と安全性のためのマップ構築に有効であることを示す。
論文 参考訳(メタデータ) (2022-12-28T14:30:53Z) - Post-training Quantization for Neural Networks with Provable Guarantees [9.58246628652846]
学習後ニューラルネットワーク量子化手法であるGPFQを,欲求経路追従機構に基づいて修正する。
単層ネットワークを定量化するためには、相対二乗誤差は本質的に重み数で線形に減衰する。
論文 参考訳(メタデータ) (2022-01-26T18:47:38Z) - Squeezing Backbone Feature Distributions to the Max for Efficient
Few-Shot Learning [3.1153758106426603]
ラベル付きサンプルの少ない使用によって生じる不確実性のため、ほとんどショット分類が難しい問題である。
本稿では,特徴ベクトルをガウス分布に近づけるように処理するトランスファーベース手法を提案する。
また,学習中に未学習のサンプルが利用可能となる多段階的数ショット学習では,達成された性能をさらに向上させる最適なトランスポートインスピレーションアルゴリズムも導入する。
論文 参考訳(メタデータ) (2021-10-18T16:29:17Z) - Towards Mixed-Precision Quantization of Neural Networks via Constrained
Optimization [28.76708310896311]
本稿では,混合精度量子化問題を解くための原理的枠組みを提案する。
提案手法は原理的手法で導出され,より計算効率がよいことを示す。
論文 参考訳(メタデータ) (2021-10-13T08:09:26Z) - Cluster-Promoting Quantization with Bit-Drop for Minimizing Network
Quantization Loss [61.26793005355441]
クラスタ・プロモーティング・量子化(CPQ)は、ニューラルネットワークに最適な量子化グリッドを見つける。
DropBitsは、ニューロンの代わりにランダムにビットをドロップする標準のドロップアウト正規化を改訂する新しいビットドロップ技術である。
本手法を様々なベンチマークデータセットとネットワークアーキテクチャ上で実験的に検証する。
論文 参考訳(メタデータ) (2021-09-05T15:15:07Z) - Generalizable Mixed-Precision Quantization via Attribution Rank
Preservation [90.26603048354575]
効率的な推論のための一般化可能な混合精度量子化法(GMPQ)を提案する。
提案手法は,最先端の混合精度ネットワークと比較し,競合精度・複雑度トレードオフを求める。
論文 参考訳(メタデータ) (2021-08-05T16:41:57Z) - Discretization-Aware Architecture Search [81.35557425784026]
本稿では,離散化対応アーキテクチャサーチ(DAtextsuperscript2S)を提案する。
中心となる考え方は、超ネットワークを所望のトポロジの構成に向けることであり、離散化による精度損失がほとんど軽減される。
標準画像分類ベンチマークの実験は、我々のアプローチの優位性を実証している。
論文 参考訳(メタデータ) (2020-07-07T01:18:58Z) - Binary Neural Networks: A Survey [126.67799882857656]
バイナリニューラルネットワークは、リソース制限されたデバイスにディープモデルをデプロイするための有望なテクニックとして機能する。
バイナライゼーションは必然的に深刻な情報損失を引き起こし、さらに悪いことに、その不連続性はディープネットワークの最適化に困難をもたらす。
本稿では,2項化を直接実施するネイティブソリューションと,量子化誤差の最小化,ネットワーク損失関数の改善,勾配誤差の低減といった手法を用いて,これらのアルゴリズムを探索する。
論文 参考訳(メタデータ) (2020-03-31T16:47:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。