論文の概要: On the Difficulty of Designing Processor Arrays for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2006.14008v1
- Date: Wed, 24 Jun 2020 19:24:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:24:48.004853
- Title: On the Difficulty of Designing Processor Arrays for Deep Neural Networks
- Title(参考訳): ディープニューラルネットワークのためのプロセッサアレイ設計の難しさについて
- Authors: Kevin Stehle and G\"unther Schindler and Holger Fr\"oning
- Abstract要約: カムーイ (Camuy) は、線形代数演算のための重み付き定常シストリックアレイの軽量モデルである。
本稿では,必要サイクル,データ移動コスト,およびシストリックアレイの利用率を推定する方法を説明するために,人気モデルの解析を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Systolic arrays are a promising computing concept which is in particular
inline with CMOS technology trends and linear algebra operations found in the
processing of artificial neural networks. The recent success of such deep
learning methods in a wide set of applications has led to a variety of models,
which albeit conceptual similar as based on convolutions and fully-connected
layers, in detail show a huge diversity in operations due to a large design
space: An operand's dimension varies substantially since it depends on design
principles such as receptive field size, number of features, striding, dilating
and grouping of features. Last, recent networks extent previously plain
feedforward models by various connectivity, such as in ResNet or DenseNet. The
problem of choosing an optimal systolic array configuration cannot be solved
analytically, thus instead methods and tools are required that facilitate a
fast and accurate reasoning about optimality in terms of total cycles,
utilization, and amount of data movements. In this work we introduce Camuy, a
lightweight model of a weight-stationary systolic array for linear algebra
operations that allows quick explorations of different configurations, such as
systolic array dimensions and input/output bitwidths. Camuy aids accelerator
designers in either finding optimal configurations for a particular network
architecture or for robust performance across a variety of network
architectures. It offers simple integration into existing machine learning tool
stacks (e.g TensorFlow) through custom operators. We present an analysis of
popular DNN models to illustrate how it can estimate required cycles, data
movement costs, as well as systolic array utilization, and show how the
progress in network architecture design impacts the efficiency of inference on
accelerators based on systolic arrays.
- Abstract(参考訳): シストリックアレイ(Systolic arrays)は、特に人工ニューラルネットワークの処理で見られるCMOS技術トレンドや線形代数演算と直交する、有望な計算概念である。
このようなディープラーニング手法を広範囲のアプリケーションで最近成功させたことにより、概念的には畳み込みや完全連結層に基づいているが、詳細は大きな設計空間による操作の多様性を示している: オペランドの次元は、受容的フィールドサイズ、特徴数、ストライディング、拡張、特徴のグループ化といった設計原理に依存するため、大きく異なる。
最後に、最近のネットワークは、resnet や densenet のような様々な接続によって、以前の平易なフィードフォワードモデルを拡張している。
最適なシストリックアレイ構成を選択する問題は解析的には解決できず、代わりに、全サイクル、利用、データ移動量の観点から、最適性に関する高速かつ正確な推論を容易にする方法やツールが必要となる。
本稿では,線形代数演算のための重み付き定常なシストリックアレイの軽量モデルであるCamuyを紹介し,シストリックアレイ次元や入出力ビット幅など,異なる構成の迅速な探索を可能にする。
Camuyはアクセラレーターデザイナが特定のネットワークアーキテクチャに最適な構成を見つけるのに役立つか、あるいはさまざまなネットワークアーキテクチャで堅牢なパフォーマンスを実現するのに役立つ。
カスタムオペレータを通じて、既存の機械学習ツールスタック(tensorflowなど)へのシンプルな統合を提供する。
本稿では,要求サイクル,データ移動コスト,およびシストリックアレイの利用率を推定し,ネットワークアーキテクチャ設計の進歩が,シストリックアレイに基づく加速器の推論効率にどのように影響するかを示すために,人気のあるDNNモデルの解析を行う。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - Enhancing Convolutional Neural Networks with Higher-Order Numerical Difference Methods [6.26650196870495]
畳み込みニューラルネットワーク(CNN)は、人間が多くの現実世界の問題を解決するのを助けることができる。
本稿では,CNNの性能向上を目的とした線形多段階法に基づく重ね合わせ手法を提案する。
論文 参考訳(メタデータ) (2024-09-08T05:13:58Z) - Towards Scalable and Versatile Weight Space Learning [51.78426981947659]
本稿では,重み空間学習におけるSANEアプローチを紹介する。
ニューラルネットワーク重みのサブセットの逐次処理に向けて,超表現の概念を拡張した。
論文 参考訳(メタデータ) (2024-06-14T13:12:07Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Visual Prompting Upgrades Neural Network Sparsification: A Data-Model Perspective [64.04617968947697]
より優れた重量空間を実現するために、新しいデータモデル共設計視点を導入する。
具体的には、提案したVPNフレームワークでニューラルネットワークのスパーシフィケーションをアップグレードするために、カスタマイズされたVisual Promptが実装されている。
論文 参考訳(メタデータ) (2023-12-03T13:50:24Z) - NAR-Former: Neural Architecture Representation Learning towards Holistic
Attributes Prediction [37.357949900603295]
本稿では,属性の全体的推定に使用できるニューラルネットワーク表現モデルを提案する。
実験の結果,提案するフレームワークは,セルアーキテクチャとディープニューラルネットワーク全体の遅延特性と精度特性を予測できることがわかった。
論文 参考訳(メタデータ) (2022-11-15T10:15:21Z) - Analysis and Design of Quadratic Neural Networks for Regression,
Classification, and Lyapunov Control of Dynamical Systems [0.0]
本稿では,2次ニューラルネットワークの解析と設計について述べる。
ネットワークにはいくつかの利点があり、最も重要なのはアーキテクチャが設計の副産物であり、アプリオリではないという事実である。
いくつかの例では、アプリケーションにおける二次ニューラルネットワークの有効性を示す。
論文 参考訳(メタデータ) (2022-07-26T18:10:05Z) - A Graph Deep Learning Framework for High-Level Synthesis Design Space
Exploration [11.154086943903696]
High-Level Synthesisは、アプリケーション固有の高速プロトタイピングのためのソリューションである。
本稿では,加速性能とハードウェアコストを共同で予測するグラフニューラルネットワークHLSを提案する。
提案手法は,一般的なシミュレータと同等の精度で予測できることを示す。
論文 参考訳(メタデータ) (2021-11-29T18:17:45Z) - Exploring Flip Flop memories and beyond: training recurrent neural
networks with key insights [0.0]
本研究では,時間処理タスク,特に3ビットフリップフロップメモリの実装について検討する。
得られたネットワークは、可視化および分析ツールの配列によって支援され、ダイナミックスを解明するために慎重に分析される。
論文 参考訳(メタデータ) (2020-10-15T16:25:29Z) - Dynamic Graph: Learning Instance-aware Connectivity for Neural Networks [78.65792427542672]
動的グラフネットワーク(DG-Net)は完全な有向非巡回グラフであり、ノードは畳み込みブロックを表し、エッジは接続経路を表す。
ネットワークの同じパスを使用する代わりに、DG-Netは各ノードの機能を動的に集約する。
論文 参考訳(メタデータ) (2020-10-02T16:50:26Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。