論文の概要: FlexNN: A Dataflow-aware Flexible Deep Learning Accelerator for Energy-Efficient Edge Devices
- arxiv url: http://arxiv.org/abs/2403.09026v2
- Date: Thu, 11 Apr 2024 23:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 17:13:45.628727
- Title: FlexNN: A Dataflow-aware Flexible Deep Learning Accelerator for Energy-Efficient Edge Devices
- Title(参考訳): FlexNN: エネルギー効率の良いエッジデバイスのためのデータフロー対応フレキシブルディープラーニングアクセラレータ
- Authors: Arnab Raha, Deepak A. Mathaikutty, Soumendu K. Ghosh, Shamik Kundu,
- Abstract要約: 本稿では,アジャイル設計の原則を取り入れたFlexNNを紹介する。
私たちの設計は、ソフトウェア記述子を通じてあらゆるタイプの適応可能なデータフローを可能にすることで革新的です。
スループットをさらに向上し、エネルギー消費を削減するために、スポーシティベースの新しい加速ロジックを提案する。
- 参考スコア(独自算出の注目度): 0.6892601897291335
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper introduces FlexNN, a Flexible Neural Network accelerator, which adopts agile design principles to enable versatile dataflows, enhancing energy efficiency. Unlike conventional convolutional neural network accelerator architectures that adhere to fixed dataflows (such as input, weight, output, or row stationary) for transferring activations and weights between storage and compute units, our design revolutionizes by enabling adaptable dataflows of any type through software configurable descriptors. Considering that data movement costs considerably outweigh compute costs from an energy perspective, the flexibility in dataflow allows us to optimize the movement per layer for minimal data transfer and energy consumption, a capability unattainable in fixed dataflow architectures. To further enhance throughput and reduce energy consumption in the FlexNN architecture, we propose a novel sparsity-based acceleration logic that utilizes fine-grained sparsity in both the activation and weight tensors to bypass redundant computations, thus optimizing the convolution engine within the hardware accelerator. Extensive experimental results underscore a significant enhancement in the performance and energy efficiency of FlexNN relative to existing DNN accelerators.
- Abstract(参考訳): 本稿では,フレキシブルニューラルネットワークアクセラレータであるFlexNNを紹介し,汎用データフローの実現とエネルギー効率の向上にアジャイル設計の原則を適用した。
入力、重み、出力、行定常などの固定データフローに固執する従来の畳み込みニューラルネットワークアクセラレータアーキテクチャとは異なり、ソフトウェア構成可能な記述子を通じて任意のタイプの適応可能なデータフローを有効にすることで、ストレージと計算ユニット間のアクティベーションと重みを転送する。
データ移動コストは、エネルギーの観点から計算コストを大幅に上回るので、データフローの柔軟性により、固定されたデータフローアーキテクチャでは達成不可能な、データ転送とエネルギー消費の最小化のために、レイヤごとの移動を最適化することができます。
本稿では,FlexNNアーキテクチャにおけるスループットの向上とエネルギー消費の削減を目的として,アクティベーションとウェイトテンソルの両方の粒度スペーサを利用して冗長な計算を回避し,ハードウェアアクセラレーション内の畳み込みエンジンを最適化する新しいスペーサベース加速ロジックを提案する。
既存のDNNアクセラレータと比較して,FlexNNの性能とエネルギー効率は大幅に向上した。
関連論文リスト
- Flex-TPU: A Flexible TPU with Runtime Reconfigurable Dataflow Architecture [0.0]
この作業はFlex-TPUと呼ばれる再構成可能なデータフローTPUの開発で構成されており、実行時に層ごとのデータフローを動的に変更することができる。
その結果,Flex-TPUの設計は従来のTPUに比べて2.75倍の大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2024-07-11T17:33:38Z) - HASS: Hardware-Aware Sparsity Search for Dataflow DNN Accelerator [47.66463010685586]
本稿では,ソフトウェアとハードウェアの共同最適化を用いて,非構造的ウェイトとデータフローアクセラレーターの疎結合性を利用した新しい手法を提案する。
我々は既存のスパース設計と比較して1.3$times$から4.2$times$までの効率改善を実現している。
論文 参考訳(メタデータ) (2024-06-05T09:25:18Z) - Efflex: Efficient and Flexible Pipeline for Spatio-Temporal Trajectory Graph Modeling and Representation Learning [8.690298376643959]
グラフモデリングと大規模時間軌道の学習のための包括的パイプラインであるEfflexを紹介する。
Efflexは、グラフ構築のための特徴融合を伴う多体積ケストニア隣人(KNN)アルゴリズムの組み入れを先駆している。
グラウンディンググラフ構築機構と高性能軽量GCNは、埋め込み抽出速度を最大36倍高速化する。
論文 参考訳(メタデータ) (2024-04-15T05:36:27Z) - A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical
Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。
MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文 参考訳(メタデータ) (2023-09-02T11:01:16Z) - Reconfigurable Distributed FPGA Cluster Design for Deep Learning
Accelerators [59.11160990637615]
エッジコンピューティングアプリケーション用に設計された低消費電力組み込みFPGAに基づく分散システムを提案する。
提案システムは,様々なニューラルネットワーク(NN)モデルを同時に実行し,パイプライン構造にグラフを配置し,NNグラフの最も計算集約的な層により大きなリソースを手動で割り当てる。
論文 参考訳(メタデータ) (2023-05-24T16:08:55Z) - Energy-efficient Task Adaptation for NLP Edge Inference Leveraging
Heterogeneous Memory Architectures [68.91874045918112]
Adapter-ALBERTは、様々なタスクにわたる最大データ再利用のための効率的なモデル最適化である。
検証されたNLPエッジアクセラレータ上でシミュレーションを行うことにより、モデルを不均一なオンチップメモリアーキテクチャにマッピングする利点を実証する。
論文 参考訳(メタデータ) (2023-03-25T14:40:59Z) - FedDUAP: Federated Learning with Dynamic Update and Adaptive Pruning
Using Shared Data on the Server [64.94942635929284]
フェデレーテッド・ラーニング(FL)は2つの重要な課題、すなわち限られた計算資源と訓練効率の低下に悩まされている。
本稿では,サーバ上の不感なデータとエッジデバイスの分散データを利用する新しいFLフレームワークであるFedDUAPを提案する。
提案するFLモデルであるFedDUAPは,2つの元の手法を統合することで,精度(最大4.8%),効率(最大2.8倍),計算コスト(最大61.9%)において,ベースラインアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2022-04-25T10:00:00Z) - EF-Train: Enable Efficient On-device CNN Training on FPGA Through Data
Reshaping for Online Adaptation or Personalization [11.44696439060875]
EF-Trainは、チャネルレベルの並列性に基づく畳み込みカーネルを統一した、効率的なDNNトレーニングアクセラレータである。
リソース制限された低消費電力エッジレベルFPGAのエンドツーエンドトレーニングを実現することができる。
我々の設計ではスループットとエネルギー効率の点で46.99GFLOPSと6.09GFLOPS/Wを実現している。
論文 参考訳(メタデータ) (2022-02-18T18:27:42Z) - Learning to Solve the AC-OPF using Sensitivity-Informed Deep Neural
Networks [52.32646357164739]
最適な電力フロー(ACOPF)のソリューションを解決するために、ディープニューラルネットワーク(DNN)を提案します。
提案されたSIDNNは、幅広いOPFスキームと互換性がある。
他のLearning-to-OPFスキームとシームレスに統合できる。
論文 参考訳(メタデータ) (2021-03-27T00:45:23Z) - DRACO: Co-Optimizing Hardware Utilization, and Performance of DNNs on
Systolic Accelerator [5.65116500037191]
協調最適化(DRACO)を考慮したデータ再利用計算を提案する。
DRACOは、データフロー/マイクロアーキテクチャの変更を必要とせずに、メモリバウンドDNNのPE利用を改善する。
従来の最適化手法とは異なり、DRACOは性能とエネルギー効率を最大化するだけでなく、DNNの予測性能も向上する。
論文 参考訳(メタデータ) (2020-06-26T17:06:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。