Fugu-MT 論文翻訳(概要): DLAS: An Exploration and Assessment of the Deep Learning Acceleration Stack

論文の概要: DLAS: An Exploration and Assessment of the Deep Learning Acceleration Stack

arxiv url: http://arxiv.org/abs/2311.08909v1
Date: Wed, 15 Nov 2023 12:26:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-16 16:11:49.878487
Title: DLAS: An Exploration and Assessment of the Deep Learning Acceleration Stack
Title（参考訳）: DLAS: ディープラーニング加速スタックの探索と評価
Authors: Perry Gibson, Jos\'e Cano, Elliot J. Crowley, Amos Storkey, Michael O'Boyle
Abstract要約: 私たちはDeep Learning Acceleration Stack (DLAS)で機械学習とシステム技術を組み合わせています。 2つのデータセット間でDLASのパラメータが異なる場合の精度と推定時間への影響を評価した。全体として、圧縮技術によって提供されるスピードアップは、非常にハードウェアに依存している。
参考スコア（独自算出の注目度）: 3.7873597471903935
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Deep Neural Networks (DNNs) are extremely computationally demanding, which presents a large barrier to their deployment on resource-constrained devices. Since such devices are where many emerging deep learning applications lie (e.g., drones, vision-based medical technology), significant bodies of work from both the machine learning and systems communities have attempted to provide optimizations to accelerate DNNs. To help unify these two perspectives, in this paper we combine machine learning and systems techniques within the Deep Learning Acceleration Stack (DLAS), and demonstrate how these layers can be tightly dependent on each other with an across-stack perturbation study. We evaluate the impact on accuracy and inference time when varying different parameters of DLAS across two datasets, seven popular DNN architectures, four DNN compression techniques, three algorithmic primitives with sparse and dense variants, untuned and auto-scheduled code generation, and four hardware platforms. Our evaluation highlights how perturbations across DLAS parameters can cause significant variation and across-stack interactions. The highest level observation from our evaluation is that the model size, accuracy, and inference time are not guaranteed to be correlated. Overall we make 13 key observations, including that speedups provided by compression techniques are very hardware dependent, and that compiler auto-tuning can significantly alter what the best algorithm to use for a given configuration is. With DLAS, we aim to provide a reference framework to aid machine learning and systems practitioners in reasoning about the context in which their respective DNN acceleration solutions exist in. With our evaluation strongly motivating the need for co-design, we believe that DLAS can be a valuable concept for exploring the next generation of co-designed accelerated deep learning solutions.
Abstract（参考訳）: ディープニューラルネットワーク(DNN)は非常に計算的に要求されているため、リソース制約のあるデバイスへのデプロイメントに大きな障壁が生じる。このようなデバイスは、多くの深層学習アプリケーション(ドローン、ビジョンベースの医療技術など)が存在しているため、マシンラーニングとシステムコミュニティの両方の作業が、dnnを加速するための最適化を提供しようと試みている。本稿では,これら2つの視点を統合するために,Deep Learning Acceleration Stack (DLAS)内の機械学習とシステム技術を組み合わせる。 2つのデータセット,7つのDNNアーキテクチャ,4つのDNN圧縮技術,疎密な3つのアルゴリズムプリミティブ,未チューニングおよび自動スケジューリングコード生成,4つのハードウェアプラットフォームにおいて,DLASのパラメータが異なる場合の精度と推定時間への影響を評価する。評価では,DLASパラメータ間の摂動が,大きな変動やスタック間相互作用を引き起こすかを強調した。評価から得られた最も高いレベルの観測は、モデルのサイズ、精度、推測時間が相関しないことである。全体としては、圧縮技術が提供するスピードアップはハードウェアに依存しており、コンパイラの自動チューニングは、与えられた構成に最適なアルゴリズムが何であるかを著しく変えることができる、など、13の重要な観察を行います。 DLASでは、機械学習やシステム実践者がそれぞれのDNNアクセラレーションソリューションが存在する状況について推論する上で、参照フレームワークを提供することを目指している。我々の評価は共同設計の必要性を強く動機付けており、DLASは次世代の加速学習ソリューションを探求する上で価値のある概念であると考えている。

関連論文リスト

FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45～9.39倍の高速化を実現可能であることを示す。
論文参考訳（メタデータ） (2024-10-16T16:13:19Z)
NNsight and NDIF: Democratizing Access to Open-Weight Foundation Model Internals [58.83169560132308]
NNsightとNDIFを導入し、非常に大きなニューラルネットワークによって学習された表現と計算の科学的研究を可能にする。
論文参考訳（メタデータ） (2024-07-18T17:59:01Z)
Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文参考訳（メタデータ） (2024-07-12T09:24:34Z)
Random resistive memory-based deep extreme point learning machine for unified visual processing [67.51600474104171]
ハードウェア・ソフトウェア共同設計型, ランダム抵抗型メモリベース深部極点学習マシン(DEPLM)を提案する。我々の共同設計システムは,従来のシステムと比較して,エネルギー効率の大幅な向上とトレーニングコストの削減を実現している。
論文参考訳（メタデータ） (2023-12-14T09:46:16Z)
Biologically Plausible Learning on Neuromorphic Hardware Architectures [27.138481022472]
ニューロモルフィックコンピューティング(Neuromorphic Computing)は、アナログメモリの計算によってこの不均衡に直面している新興パラダイムである。この研究は、異なる学習アルゴリズムがCompute-In-Memoryベースのハードウェアに与える影響を初めて比較し、その逆も行った。
論文参考訳（メタデータ） (2022-12-29T15:10:59Z)
Enable Deep Learning on Mobile Devices: Methods, Systems, and Applications [46.97774949613859]
ディープニューラルネットワーク(DNN)は人工知能(AI)分野において前例のない成功を収めたしかし、それらの優れた性能は、計算の複雑さのかなりのコストを伴っている。本稿では,効率的なディープラーニング手法,システム,応用について概説する。
論文参考訳（メタデータ） (2022-04-25T16:52:48Z)
Comparison Analysis of Traditional Machine Learning and Deep Learning Techniques for Data and Image Classification [62.997667081978825]
本研究の目的は、コンピュータビジョン2次元オブジェクト分類タスクに使用される最も一般的な機械学習およびディープラーニング技術を分析し比較することである。まず、視覚語モデルと深部畳み込みニューラルネットワーク(DCNN)の理論的背景を示す。次に、Bag of Visual Wordsモデル、VGG16 CNN Architectureを実装します。
論文参考訳（メタデータ） (2022-04-11T11:34:43Z)
Neurosymbolic hybrid approach to driver collision warning [64.02492460600905]
自律運転システムには2つの主要なアルゴリズムアプローチがある。ディープラーニングだけでは、多くの分野で最先端の結果が得られています。しかし、ディープラーニングモデルが機能しない場合、デバッグが非常に難しい場合もあります。
論文参考訳（メタデータ） (2022-03-28T20:29:50Z)
Accelerating deep neural networks for efficient scene understanding in automotive cyber-physical systems [2.4373900721120285]
自動車のCyber-Physical Systems(ACPS)はここ数十年でかなりの関心を集めている。これらのシステムにおける最も重要な操作の1つは、環境に対する認識である。ディープラーニングと、特にDeep Neural Networks(DNN)の使用は、視覚データから複雑でダイナミックなシーンを分析し、理解するための素晴らしい結果をもたらす。
論文参考訳（メタデータ） (2021-07-19T18:43:17Z)
How to Reach Real-Time AI on Consumer Devices? Solutions for Programmable and Custom Architectures [7.085772863979686]
ディープニューラルネットワーク(DNN)は、オブジェクトや音声認識など、さまざまな人工知能(AI)推論タスクにおいて大きな進歩をもたらした。このようなAIモデルをコモディティデバイスにデプロイすることは、大きな課題に直面している。クロススタック手法によりリアルタイムな性能を実現する手法を提案する。
論文参考訳（メタデータ） (2021-06-21T11:23:12Z)
CLAN: Continuous Learning using Asynchronous Neuroevolution on Commodity Edge Devices [3.812706195714961]
我々は、NeuroEvolutionary(NE)学習と推論を実行するWiFiを介して通信するRaspberry Piのプロトタイプシステムを構築した。本研究では,このような協調システムの性能を評価し,システムの異なる配置の計算/通信特性について詳述する。
論文参考訳（メタデータ） (2020-08-27T01:49:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。