論文の概要: SySMOL: A Hardware-software Co-design Framework for Ultra-Low and
Fine-Grained Mixed-Precision Neural Networks
- arxiv url: http://arxiv.org/abs/2311.14114v1
- Date: Thu, 23 Nov 2023 17:20:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 23:08:06.670800
- Title: SySMOL: A Hardware-software Co-design Framework for Ultra-Low and
Fine-Grained Mixed-Precision Neural Networks
- Title(参考訳): SySMOL:超低・微細混合精度ニューラルネットワークのためのハードウェア・ソフトウェア共同設計フレームワーク
- Authors: Cyrus Zhou, Vaughn Richard, Pedro Savarese, Zachary Hassman, Michael
Maire, Michael DiBrino, Yanjing Li
- Abstract要約: 混合精度ニューラルネットワークは、完全精度のニューラルネットワークと同等かそれ以上の精度を達成可能であることを示す。
本研究は,これらのネットワークのためのハードウェア・ソフトウェア共同設計手法を初めて紹介する。
- 参考スコア(独自算出の注目度): 16.94209843907279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in quantization and mixed-precision techniques offer
significant promise for improving the run-time and energy efficiency of neural
networks. In this work, we further showed that neural networks, wherein
individual parameters or activations can take on different precisions ranging
between 1 and 4 bits, can achieve accuracies comparable to or exceeding the
full-precision counterparts. However, the deployment of such networks poses
numerous challenges, stemming from the necessity to manage and control the
compute/communication/storage requirements associated with these extremely
fine-grained mixed precisions for each piece of data. There is a lack of
existing efficient hardware and system-level support tailored to these unique
and challenging requirements. Our research introduces the first novel holistic
hardware-software co-design approach for these networks, which enables a
continuous feedback loop between hardware design, training, and inference to
facilitate systematic design exploration. As a proof-of-concept, we illustrate
this co-design approach by designing new, configurable CPU SIMD architectures
tailored for these networks, tightly integrating the architecture with new
system-aware training and inference techniques. We perform systematic design
space exploration using this framework to analyze various tradeoffs. The design
for mixed-precision networks that achieves optimized tradeoffs corresponds to
an architecture that supports 1, 2, and 4-bit fixed-point operations with four
configurable precision patterns, when coupled with system-aware training and
inference optimization -- networks trained for this design achieve accuracies
that closely match full-precision accuracies, while compressing and improving
run-time efficiency of the neural networks drastically by 10-20x, compared to
full-precision networks.
- Abstract(参考訳): 近年の量子化と混合精度技術の発展は、ニューラルネットワークの実行時間とエネルギー効率を改善するための大きな約束となる。
本研究では,個々のパラメータやアクティベーションが1ビットから4ビットの間で異なる精度を発揮できるニューラルネットワークが,全精度と同等あるいはそれ以上の精度を実現できることを示した。
しかしながら、これらのネットワークの展開は、各データに対する非常に細かい混合精度に関連する計算/通信/ストレージ要件の管理と制御の必要性から、多くの課題を生んでいる。
これらのユニークで困難な要件に合わせて、既存の効率的なハードウェアとシステムレベルのサポートがない。
本研究は,ハードウェア設計,トレーニング,推論間の継続的なフィードバックループを実現し,系統的な設計探索を容易にする,新たなハードウェア・ソフトウェア共同設計手法を提案する。
概念実証として、これらのネットワークに適した新しい構成可能なCPU SIMDアーキテクチャを設計し、アーキテクチャを新しいシステム認識トレーニングと推論技術と密に統合することで、この共同設計のアプローチを説明する。
このフレームワークを用いて,様々なトレードオフを解析するシステム設計空間探索を行う。
The design for mixed-precision networks that achieves optimized tradeoffs corresponds to an architecture that supports 1, 2, and 4-bit fixed-point operations with four configurable precision patterns, when coupled with system-aware training and inference optimization -- networks trained for this design achieve accuracies that closely match full-precision accuracies, while compressing and improving run-time efficiency of the neural networks drastically by 10-20x, compared to full-precision networks.
関連論文リスト
- Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Towards Bi-directional Skip Connections in Encoder-Decoder Architectures
and Beyond [95.46272735589648]
本稿では,デコードされた機能をエンコーダに戻すための後方スキップ接続を提案する。
我々の設計は、任意のエンコーダ・デコーダアーキテクチャにおいて前方スキップ接続と共同で適用することができる。
本稿では,2相ニューラルネットワーク探索(NAS)アルゴリズム,すなわちBiX-NASを提案する。
論文 参考訳(メタデータ) (2022-03-11T01:38:52Z) - A Graph Deep Learning Framework for High-Level Synthesis Design Space
Exploration [11.154086943903696]
High-Level Synthesisは、アプリケーション固有の高速プロトタイピングのためのソリューションである。
本稿では,加速性能とハードウェアコストを共同で予測するグラフニューラルネットワークHLSを提案する。
提案手法は,一般的なシミュレータと同等の精度で予測できることを示す。
論文 参考訳(メタデータ) (2021-11-29T18:17:45Z) - Algorithm and Hardware Co-design for Reconfigurable CNN Accelerator [3.1431240233552007]
ディープニューラルネットワーク(DNN)のためのアルゴリズムハードウェアの共同設計の最近の進歩は、ニューラルネットワークやハードウェア設計を自動設計する可能性を示している。
しかし、高価なトレーニングコストと時間を要するハードウェア実装のため、これは依然として困難な最適化問題である。
本稿では,新しい3相共設計フレームワークを提案する。
ネットワークとハードウェアの構成は精度が2%向上し,レイテンシが2倍26倍,エネルギー効率が8.5倍向上した。
論文 参考訳(メタデータ) (2021-11-24T20:37:50Z) - Multi-Exit Semantic Segmentation Networks [78.44441236864057]
本稿では,最先端セグメンテーションモデルをMESSネットワークに変換するフレームワークを提案する。
パラメトリド早期出口を用いた特別訓練されたCNNは、より簡単なサンプルの推測時に、その深さに沿って保存する。
接続されたセグメンテーションヘッドの数、配置、アーキテクチャとエグジットポリシーを併用して、デバイス機能とアプリケーション固有の要件に適応する。
論文 参考訳(メタデータ) (2021-06-07T11:37:03Z) - Hardware-Centric AutoML for Mixed-Precision Quantization [34.39845532939529]
従来の量子化アルゴリズムは、異なるハードウェアアーキテクチャを無視し、すべてのレイヤを均一に量子化する。
本稿では、強化学習を利用して量子化ポリシーを自動的に決定するハードウェア・アウェア自動量子化(HAQ)フレームワークを紹介する。
本フレームワークは, 固定ビット幅(8ビット)の量子化と比較して, 遅延を1.4-1.95x, エネルギー消費を1.9x削減した。
論文 参考訳(メタデータ) (2020-08-11T17:30:22Z) - Deep Multi-Task Learning for Cooperative NOMA: System Design and
Principles [52.79089414630366]
我々は,近年のディープラーニング(DL)の進歩を反映した,新しいディープ・コラボレーティブなNOMAスキームを開発する。
我々は,システム全体を包括的に最適化できるように,新しいハイブリッドカスケードディープニューラルネットワーク(DNN)アーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-07-27T12:38:37Z) - Fitting the Search Space of Weight-sharing NAS with Graph Convolutional
Networks [100.14670789581811]
サンプルサブネットワークの性能に適合するグラフ畳み込みネットワークを訓練する。
この戦略により、選択された候補集合において、より高いランク相関係数が得られる。
論文 参考訳(メタデータ) (2020-04-17T19:12:39Z) - Exploring the Connection Between Binary and Spiking Neural Networks [1.329054857829016]
両立ニューラルネットワークとスパイクニューラルネットワークの訓練における最近のアルゴリズムの進歩を橋渡しする。
極端量子化システムにおけるスパイキングニューラルネットワークのトレーニングは,大規模データセット上でのほぼ完全な精度向上をもたらすことを示す。
論文 参考訳(メタデータ) (2020-02-24T03:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。