論文の概要: SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions
- arxiv url: http://arxiv.org/abs/2311.14114v2
- Date: Mon, 6 May 2024 19:32:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 20:03:52.741421
- Title: SySMOL: Co-designing Algorithms and Hardware for Neural Networks with Heterogeneous Precisions
- Title(参考訳): SySMOL:不均一精度ニューラルネットワークの共設計アルゴリズムとハードウェア
- Authors: Cyrus Zhou, Pedro Savarese, Vaughn Richard, Zack Hassman, Xin Yuan, Michael Maire, Michael DiBrino, Yanjing Li,
- Abstract要約: 最近の量子化技術は、非常に微細な粒度で不均一な精度を実現している。
これらのネットワークは、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度計算機能を提供するために、追加のハードウェアを必要とする。
ネットワークを細粒度の不均一な精度で効率的に実行するためのエンド・ツー・エンド協調設計手法を提案する。
- 参考スコア(独自算出の注目度): 20.241671088121144
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent quantization techniques have enabled heterogeneous precisions at very fine granularity, e.g., each parameter/activation can take on a different precision, resulting in compact neural networks without sacrificing accuracy. However, there is a lack of efficient architectural support for such networks, which require additional hardware to decode the precision settings for individual variables, align the variables, and provide fine-grained mixed-precision compute capabilities. The complexity of these operations introduces high overheads. Thus, the improvements in inference latency/energy of these networks are not commensurate with the compression ratio, and may be inferior to larger quantized networks with uniform precisions. We present an end-to-end co-design approach encompassing computer architecture, training algorithm, and inference optimization to efficiently execute networks with fine-grained heterogeneous precisions. The key to our approach is a novel training algorithm designed to accommodate hardware constraints and inference operation requirements, outputting networks with input-channel-wise heterogeneous precisions and at most three precision levels. Combined with inference optimization techniques, existing architectures with low-cost enhancements can support such networks efficiently, yielding optimized tradeoffs between accuracy, compression ratio and inference latency/energy. We demonstrate the efficacy of our approach across CPU and GPU architectures. For various representative neural networks, our approach achieves >10x improvements in both compression ratio and inference latency, with negligible degradation in accuracy compared to full-precision networks.
- Abstract(参考訳): 最近の量子化技術は、非常に微細な粒度で不均一な精度を実現し、例えば、各パラメータ/アクティベーションは異なる精度で処理できるため、精度を犠牲にすることなく、コンパクトなニューラルネットワークを実現することができる。
しかし、そのようなネットワークに対する効率的なアーキテクチャサポートがないため、個々の変数の精度設定をデコードし、変数を調整し、きめ細かい混合精度の計算機能を提供するために、追加のハードウェアが必要である。
これらの操作の複雑さは高いオーバーヘッドをもたらす。
したがって、これらのネットワークの推論遅延/エネルギーの改善は圧縮比と一致せず、均一な精度の大規模量子化ネットワークに劣る可能性がある。
本稿では,コンピュータアーキテクチャ,トレーニングアルゴリズム,推論最適化を含むエンドツーエンドの協調設計手法を提案する。
提案手法の鍵となるのは,ハードウェアの制約や推論操作要求に適応し,入力チャネルワイドの不均一な精度と,少なくとも3つの精度でネットワークを出力する,新たなトレーニングアルゴリズムである。
推論最適化技術と組み合わせることで、低コストで拡張可能な既存のアーキテクチャは、そのようなネットワークを効率的にサポートし、精度、圧縮比、推論遅延/エネルギーのトレードオフを最適化することができる。
我々は、CPUとGPUアーキテクチャにまたがるアプローチの有効性を実証する。
様々な代表的ニューラルネットワークに対して,本手法は圧縮比と推論遅延の両面で10倍の精度向上を実現し,完全精度のネットワークに比べて精度の劣化は無視できる。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - On-Chip Hardware-Aware Quantization for Mixed Precision Neural Networks [52.97107229149988]
エッジデバイス上でハードウェア対応の混合精度量子化を行うOn-Chipハードウェア・アウェア量子化フレームワークを提案する。
このパイプラインは、量子化プロセスが量子化演算子の実際のハードウェア効率を知覚することを可能にする。
精度測定のために,マルチチップシナリオにおける演算子の精度への影響を効果的に推定するMask-Guided Quantization Estimation技術を提案する。
論文 参考訳(メタデータ) (2023-09-05T04:39:34Z) - Free Bits: Latency Optimization of Mixed-Precision Quantized Neural
Networks on the Edge [17.277918711842457]
混合精度量子化は、モデルサイズ、レイテンシ、統計的精度の間のトレードオフを最適化する機会を提供する。
本稿では,与えられたネットワークに対する混合精度構成の探索空間をナビゲートするハイブリッド探索手法を提案する。
ハードウェアに依存しない差別化検索アルゴリズムと、特定のハードウェアターゲットに対して遅延最適化された混合精度構成を見つけるハードウェア対応最適化で構成されている。
論文 参考訳(メタデータ) (2023-07-06T09:57:48Z) - A Practical Mixed Precision Algorithm for Post-Training Quantization [15.391257986051249]
混合精度量子化は、均一な量子化よりも優れた性能効率トレードオフを見つけるための有望な解である。
簡単な学習後混合精度アルゴリズムを提案する。
我々は,同質のビット幅等価値よりも精度と効率のトレードオフが良い混合精度ネットワークを見つけることができることを示す。
論文 参考訳(メタデータ) (2023-02-10T17:47:54Z) - Efficient and Effective Methods for Mixed Precision Neural Network
Quantization for Faster, Energy-efficient Inference [3.3213055774512648]
ネットワークの精度を下げるための量子化は、ネットワークを単純化する強力な技術である。
混合精度量子化法は,各レイヤの精度を選択的に調整し,タスク性能の最小低下を実現する。
タスク性能に及ぼすレイヤー精度選択の影響を推定するために,2つの方法を紹介した。
EAGLとALPSを用いて4ビット層と2ビット層を混合して完全精度を復元する。
論文 参考訳(メタデータ) (2023-01-30T23:26:33Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - GradFreeBits: Gradient Free Bit Allocation for Dynamic Low Precision
Neural Networks [4.511923587827301]
量子ニューラルネットワーク(QNN)は、低リソースエッジデバイスにディープニューラルネットワークをデプロイするための主要なアプローチのひとつだ。
動的QNNを訓練するための新しい共同最適化スキームであるGradFreeBitsを提案する。
本手法はCIFAR10/100上での最先端の低精度ニューラルネットワークと画像ネットの分類を同等あるいは同等の性能で実現している。
論文 参考訳(メタデータ) (2021-02-18T12:18:09Z) - Widening and Squeezing: Towards Accurate and Efficient QNNs [125.172220129257]
量子化ニューラルネットワーク(QNN)は、非常に安価な計算とストレージオーバーヘッドのため、業界にとって非常に魅力的なものだが、その性能は、完全な精度パラメータを持つネットワークよりも悪い。
既存の手法の多くは、より効果的なトレーニング技術を利用して、特にバイナリニューラルネットワークの性能を高めることを目的としている。
本稿では,従来の完全精度ネットワークで高次元量子化機能に特徴を投影することで,この問題に対処する。
論文 参考訳(メタデータ) (2020-02-03T04:11:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。