論文の概要: Which scaling rule applies to Artificial Neural Networks
- arxiv url: http://arxiv.org/abs/2005.08942v8
- Date: Tue, 30 Nov 2021 21:08:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:47:34.953375
- Title: Which scaling rule applies to Artificial Neural Networks
- Title(参考訳): スケーリングのルールは ニューラルネットワークに当てはまります
- Authors: J\'anos V\'egh
- Abstract要約: 分離された単一プロセッサからなる協調・通信コンピューティングシステムには、厳しい性能制限があることを示す。
この論文は、フォン・ノイマンのオリジナルのモデルから始まり、処理時間とは別に転送時間を無視することなく、アムダールの法則の適切な解釈と扱いを導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The experience shows that cooperating and communicating computing systems,
comprising segregated single processors, have severe performance limitations.
In his classic "First Draft" von Neumann warned that using a "too fast
processor" vitiates his simple "procedure" (but not his computing model!);
furthermore, that using the classic computing paradigm for imitating neuronal
operations, is unsound. Amdahl added that large machines, comprising many
processors, have an inherent disadvantage. Given that ANN's components are
heavily communicating with each other, they are built from a large number of
components designed/fabricated for use in conventional computing, furthermore
they attempt to mimic biological operation using improper technological
solutions, their achievable payload computing performance is conceptually
modest. The type of workload that AI-based systems generate leads to an
exceptionally low payload computational performance, and their
design/technology limits their size to just above the "toy" level systems: the
scaling of processor-based ANN systems is strongly nonlinear. Given the
proliferation and growing size of ANN systems, we suggest ideas to estimate in
advance the efficiency of the device or application. Through analyzing
published measurements we provide evidence that the role of data transfer time
drastically influences both ANNs performance and feasibility. It is discussed
how some major theoretical limiting factors, ANN's layer structure and their
methods of technical implementation of communication affect their efficiency.
The paper starts from von Neumann's original model, without neglecting the
transfer time apart from processing time; derives an appropriate interpretation
and handling for Amdahl's law. It shows that, in that interpretation, Amdahl's
Law correctly describes ANNs.
- Abstract(参考訳): この経験から、分離された単一プロセッサを含む協調および通信コンピューティングシステムには、厳しい性能制限があることが示された。
古典的な "first draft" においてフォン・ノイマンは、"too fast processor" を用いると、単純な "procedure" が振動する(しかし、彼の計算モデルではない)と警告した。
アムダールは、多くのプロセッサからなる大型マシンは本質的に不利であると付け加えた。
ANNのコンポーネントが互いに頻繁に通信していることを考えると、それらは従来のコンピューティングで使用するために設計・構築された多数のコンポーネントから構築されており、さらに不適切な技術ソリューションを使って生物学的操作を模倣しようとするため、達成可能なペイロード計算性能は概念的に控えめである。
AIベースのシステムが生成するワークロードの種類は、非常に低いペイロード計算性能をもたらし、その設計/技術は、そのサイズを"トイ"レベルのシステムに制限する:プロセッサベースのANNシステムのスケーリングは、非常に非線形である。
ANNシステムの増殖と成長の大きさを考えると、デバイスやアプリケーションの効率を事前に見積もるアイデアを提案する。
データ転送時間の役割がANNのパフォーマンスと実現可能性に大きな影響を及ぼす証拠を提供する。
本稿では,ANNの層構造と通信の技術的実装方法が,理論上の制約要因のいくつかが効率に与える影響について論じる。
この論文はフォン・ノイマンのオリジナルのモデルから始まり、処理時間とは別に転送時間を無視することなく、アムダールの法則の適切な解釈と処理を導出する。
この解釈は、アムダールの法則がANNを正しく記述していることを示している。
関連論文リスト
- Task-Oriented Real-time Visual Inference for IoVT Systems: A Co-design Framework of Neural Networks and Edge Deployment [61.20689382879937]
タスク指向エッジコンピューティングは、データ分析をエッジにシフトすることで、この問題に対処する。
既存の手法は、高いモデル性能と低いリソース消費のバランスをとるのに苦労している。
ニューラルネットワークアーキテクチャを最適化する新しい協調設計フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-29T19:02:54Z) - SLaNC: Static LayerNorm Calibration [1.2016264781280588]
より精度の低いフォーマットへの量子化は、利用可能な値表現の限られた範囲によって引き起こされる多くの課題を自然に引き起こす。
本稿では,推論中のTransformerモデルに容易に適用可能な,計算効率のよいスケーリング手法を提案する。
提案手法は,直近の線形層の静的重みに基づくLayerNorm入力のスケーリング方法を提案する。
論文 参考訳(メタデータ) (2024-10-14T14:32:55Z) - Weight Block Sparsity: Training, Compilation, and AI Engine Accelerators [0.0]
Deep Neural Networks(DNN)が開発、トレーニング、利用され、高度なデバイスと限られたデバイスの両方に負担がかかっている。
私たちのソリューションは、ハードウェアに親しみやすい構造化された空間であるエムの重みブロック間隔を実装することです。
本稿では,Resnet50,Inception V3,VGG16を用いて,AIE2構成セット(AMD Versal FPGA)の正確かつ完全なコード生成による性能評価を行う。
論文 参考訳(メタデータ) (2024-07-12T17:37:49Z) - Slimmable Encoders for Flexible Split DNNs in Bandwidth and Resource
Constrained IoT Systems [12.427821850039448]
本稿では,スリム化可能なアンサンブルエンコーダに基づく分割計算手法を提案する。
私たちの設計の主な利点は、計算負荷と送信データサイズを最小限のオーバーヘッドと時間でリアルタイムで適応できることです。
本モデルでは,圧縮効率や実行時間,特にモバイルデバイスの弱い状況において,既存のソリューションよりも優れています。
論文 参考訳(メタデータ) (2023-06-22T06:33:12Z) - Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。
畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文 参考訳(メタデータ) (2023-06-14T01:24:42Z) - Deep learning applied to computational mechanics: A comprehensive
review, state of the art, and the classics [77.34726150561087]
人工知能,特に深層学習(DL)の最近の進歩を概観する。
ハイブリッドおよび純粋機械学習(ML)の手法について論じる。
AIの歴史と限界は、特に古典の誤解や誤解を指摘し、議論され、議論される。
論文 参考訳(メタデータ) (2022-12-18T02:03:00Z) - Asynchronous Parallel Incremental Block-Coordinate Descent for
Decentralized Machine Learning [55.198301429316125]
機械学習(ML)は、巨大なIoT(Internet of Things)ベースのインテリジェントでユビキタスなコンピューティングのビッグデータ駆動モデリングと分析のための重要なテクニックである。
急成長するアプリケーションやデータ量にとって、分散学習は有望な新興パラダイムである。
本稿では,多くのユーザデバイスに分散した分散システム上でMLモデルをトレーニングする問題について検討する。
論文 参考訳(メタデータ) (2022-02-07T15:04:15Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - A Tensor Compiler for Unified Machine Learning Prediction Serving [8.362773007171118]
企業における機械学習(ML)の採用には、よりシンプルで効率的なソフトウェアインフラが必要である。
モデルのスコアリングは、モデルが一度訓練されるが、何度も使用されるため、インフラストラクチャの複雑さとコストに主要な貢献をする。
本稿では,HUMMINGBIRDを提案する。HUMMINGBIRDは,計算演算子と従来のMLモデルを小さなテンソル演算系にコンパイルする新しいモデルスコアリング手法である。
論文 参考訳(メタデータ) (2020-10-09T21:02:47Z) - How deep the machine learning can be [0.0]
機械学習は、主に従来のコンピューティング(プロセッサ)に基づいている。
本稿では,AIソリューションの計算性能のスケールアップについて,いくつかの問題点を概観する。
論文 参考訳(メタデータ) (2020-05-02T16:06:31Z) - Deep Learning for Ultra-Reliable and Low-Latency Communications in 6G
Networks [84.2155885234293]
まず,データ駆動型教師付き深層学習と深部強化学習をURLLCに適用する方法を概説する。
このようなオープンな問題に対処するために、デバイスインテリジェンス、エッジインテリジェンス、およびURLLCのためのクラウドインテリジェンスを可能にするマルチレベルアーキテクチャを開発した。
論文 参考訳(メタデータ) (2020-02-22T14:38:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。