論文の概要: ElasticAI: Creating and Deploying Energy-Efficient Deep Learning Accelerator for Pervasive Computing
- arxiv url: http://arxiv.org/abs/2409.09044v1
- Date: Thu, 29 Aug 2024 12:39:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-22 21:42:00.775048
- Title: ElasticAI: Creating and Deploying Energy-Efficient Deep Learning Accelerator for Pervasive Computing
- Title(参考訳): ElasticAI: 分散コンピューティングのためのエネルギー効率の良いディープラーニングアクセラレータの作成とデプロイ
- Authors: Chao Qian, Tianheng Ling, Gregor Schiele,
- Abstract要約: 組み込みデバイス上でのディープラーニング(DL)は、普及するコンピューティングのホットなトレンドである。
FPGAは組み込みデバイス向けにDLアクセラレータをデプロイするのに適しているが、FPGA上でエネルギー効率の良いDLアクセラレータを開発するのは容易ではない。
本稿では,組込みFPGA上でハードウェアアクセラレータとしてDLモデルを作成,デプロイすることを目的としたElasticAI-Workflowを提案する。
- 参考スコア(独自算出の注目度): 19.835810073852244
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deploying Deep Learning (DL) on embedded end devices is a scorching trend in pervasive computing. Since most Microcontrollers on embedded devices have limited computing power, it is necessary to add a DL accelerator. Embedded Field Programmable Gate Arrays (FPGAs) are suitable for deploying DL accelerators for embedded devices, but developing an energy-efficient DL accelerator on an FPGA is not easy. Therefore, we propose the ElasticAI-Workflow that aims to help DL developers to create and deploy DL models as hardware accelerators on embedded FPGAs. This workflow consists of two key components: the ElasticAI-Creator and the Elastic Node. The former is a toolchain for automatically generating DL accelerators on FPGAs. The latter is a hardware platform for verifying the performance of the generated accelerators. With this combination, the performance of the accelerator can be sufficiently guaranteed. We will demonstrate the potential of our approach through a case study.
- Abstract(参考訳): 組み込みデバイスにディープラーニング(DL)をデプロイすることは、広く普及するコンピューティングの難題である。
組み込みデバイス上のほとんどのマイクロコントローラは、計算能力に制限があるため、DLアクセラレータを追加する必要がある。
組み込みフィールドプログラマブルゲートアレイ(FPGA)は、組み込みデバイス向けにDLアクセラレータをデプロイするのに適しているが、FPGA上でエネルギー効率の良いDLアクセラレータを開発するのは容易ではない。
そこで本研究では,組込みFPGA上でのハードウェアアクセラレーションとしてDLモデルを作成,デプロイすることを目的としたElasticAI-Workflowを提案する。
このワークフローは、ElasticAI-CreatorとElastic Nodeの2つの重要なコンポーネントで構成されている。
前者はFPGA上でDLアクセラレータを自動的に生成するツールチェーンである。
後者は、生成されたアクセラレータのパフォーマンスを検証するためのハードウェアプラットフォームである。
これにより、加速器の性能を十分に保証することができる。
ケーススタディを通じて、我々のアプローチの可能性を実証する。
関連論文リスト
- LLM-Aided Compilation for Tensor Accelerators [6.709490736813537]
我々は,大規模言語モデル(LLM)を用いてハードウェアアクセラレーター用のコンパイラを構築する方法について論じる。
具体的には,GPT-4がGemminiアクセラレータへのコード変換において高いパスレートを達成する能力を示す。
また,LLMを利用してハードウェア最適化コードを生成するための2フェーズワークフローを提案する。
論文 参考訳(メタデータ) (2024-08-06T19:10:25Z) - Designing Efficient LLM Accelerators for Edge Devices [1.4128048241287314]
大きな言語モデル(LLM)は、リソース制約のあるエッジデバイスにデプロイすることで、ネットワーク接続への依存を低減し、よりプライバシーを提供する。
この問題に対処するため、LLM推論のための新しい効率的なエッジアクセラレータを設計することが重要である。
本稿では,効率的なFPGAベースのLCMアクセラレータの設計,統合,展開プロセスの合理化にSECDA手法を用いるSECDA-LLMを提案する。
論文 参考訳(メタデータ) (2024-08-01T11:06:05Z) - Using the Abstract Computer Architecture Description Language to Model
AI Hardware Accelerators [77.89070422157178]
AI統合製品の製造者は、製品のパフォーマンス要件に適合するアクセラレータを選択するという、重大な課題に直面します。
抽象コンピュータアーキテクチャ記述言語(ACADL)は、コンピュータアーキテクチャブロック図の簡潔な形式化である。
本稿では,AIハードウェアアクセラレーションのモデル化にACADLを用いること,DNNのマッピングにACADL記述を使用し,タイミングシミュレーションのセマンティクスを解説し,性能評価結果の収集を行う。
論文 参考訳(メタデータ) (2024-01-30T19:27:16Z) - SATAY: A Streaming Architecture Toolflow for Accelerating YOLO Models on
FPGA Devices [48.47320494918925]
この作業は、超低レイテンシアプリケーションのために、最先端のオブジェクト検出モデルをFPGAデバイスにデプロイする際の課題に対処する。
YOLOアクセラレータにはストリーミングアーキテクチャ設計を採用しており、チップ上で完全なモデルを深くパイプライン化して実装しています。
データフロー方式でYOLOモデルの動作をサポートする新しいハードウェアコンポーネントを導入し、オンチップメモリリソースの制限に対処するために、オフチップメモリバッファリングを導入する。
論文 参考訳(メタデータ) (2023-09-04T13:15:01Z) - A Survey on Deep Learning Hardware Accelerators for Heterogeneous HPC Platforms [9.036774656254375]
この調査は、ディープラーニングアクセラレータの設計における最新の進歩を要約し、分類する。
それは、GPUやTPUベースのアクセラレータだけでなく、設計固有のハードウェアアクセラレータも含む、ディープラーニングアクセラレーションをサポートするための最も高度なアプローチを強調している。
この調査では、新たなメモリ技術とコンピューティングパラダイムに基づいたアクセラレータについても説明している。
論文 参考訳(メタデータ) (2023-06-27T15:24:24Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Harnessing Deep Learning and HPC Kernels via High-Level Loop and Tensor Abstractions on CPU Architectures [67.47328776279204]
この研究は、効率的でポータブルなDeep LearningとHigh Performance Computingカーネルを開発するためのフレームワークを導入している。
1)プロセッシングプリミティブ(TPP)を用いた計算コアの表現と,2)高レベルな宣言的手法でTPPのまわりの論理ループの表現の2つのステップでカーネルの開発を分解する。
我々は、スタンドアロンカーネルと、さまざまなCPUプラットフォームにおける最先端実装よりも優れたエンドツーエンドワークロードを使用して、このアプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-04-25T05:04:44Z) - FPGA-based AI Smart NICs for Scalable Distributed AI Training Systems [62.20308752994373]
我々は、フィールドプログラマブルゲートアレイ(FPGA)を用いた分散AI訓練システムのための新しいスマートネットワークインタフェースカード(NIC)を提案する。
提案するFPGAベースのAIスマートNICは,従来のNICを用いたベースラインシステムと比較して,6ノードで1.6倍,32ノードで2.5倍の性能向上が期待できる。
論文 参考訳(メタデータ) (2022-04-22T21:57:00Z) - Tensor Processing Primitives: A Programming Abstraction for Efficiency
and Portability in Deep Learning Workloads [86.62083829086393]
このプロセスプリミティブ(TPP、Processing Primitives)は、高い生産性を持つDeep Learning-Workloadの効率的でポータブルな実装を目指すプログラミング抽象化である。
TPPは、高次元テンソル上の複素作用素を構成するためにビルディングブロックとして使用できる2Dテンソル作用素(または仮想ISA)のコンパクトで汎用的な集合を定義する。
我々は,スタンドアロンカーネルとTLPで表現されたエンドツーエンドのDLワークロードによるアプローチの有効性を実証し,複数のプラットフォーム上での最先端実装よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-12T18:35:49Z) - Neighbors From Hell: Voltage Attacks Against Deep Learning Accelerators
on Multi-Tenant FPGAs [13.531406531429335]
FPGAベースのディープラーニングアクセラレータの電圧ベースの整合性攻撃に対するセキュリティを評価します。
効果的な電力節約技術であるアグレッシブクロックゲーティングは、現代のFPGAの潜在的なセキュリティ脅威になることを示しています。
DLアクセラレータをオーバークロックし、予測精度を損なうことなく1.18-1.31倍高い推論性能を実現します。
論文 参考訳(メタデータ) (2020-12-14T03:59:08Z) - Optimizing Memory-Access Patterns for Deep Learning Accelerators [6.931196464448543]
ディープラーニング(DL)ワークロードは、高速な処理と低コストのために、アクセラレータへと移行している。
現代のDLアクセラレータは、DLワークロードを支配する大規模な乗算累積操作を扱うのに長けている。
データをソフトウェア管理のスクラッチパッドメモリで適切に実行する必要があるため、アクセルの計算能力を完全に活用することは困難である。
本稿では,多面体モデルを用いてDLモデルのすべての演算子を解析し,メモリアクセス数を最小化する手法を提案する。
論文 参考訳(メタデータ) (2020-02-27T05:06:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。