論文の概要: E-BATCH: Energy-Efficient and High-Throughput RNN Batching
- arxiv url: http://arxiv.org/abs/2009.10656v1
- Date: Tue, 22 Sep 2020 16:22:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 23:27:25.156952
- Title: E-BATCH: Energy-Efficient and High-Throughput RNN Batching
- Title(参考訳): E-BATCH:エネルギー効率・高速RNNバッチ
- Authors: Franyell Silfa, Jose Maria Arnau, and Antonio Gonzalez
- Abstract要約: Recurrent Network(RNN)は、複数の要求にまたがる厳密なデータ利用のために、ハードウェア依存度が低い。
RNNは、バッチ化された入力長が時間ステップで大きく異なる可能性があるため、大量のパディングを必要とする。
本稿では,RNNアクセラレーターに対して,バッチ毎の低スパンかつエネルギー効率なシーケンス推論スキームであるE-BATCHを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recurrent Neural Network (RNN) inference exhibits low hardware utilization
due to the strict data dependencies across time-steps. Batching multiple
requests can increase throughput. However, RNN batching requires a large amount
of padding since the batched input sequences may largely differ in length.
Schemes that dynamically update the batch every few time-steps avoid padding.
However, they require executing different RNN layers in a short timespan,
decreasing energy efficiency. Hence, we propose E-BATCH, a low-latency and
energy-efficient batching scheme tailored to RNN accelerators. It consists of a
runtime system and effective hardware support. The runtime concatenates
multiple sequences to create large batches, resulting in substantial energy
savings. Furthermore, the accelerator notifies it when the evaluation of a
sequence is done, so that a new sequence can be immediately added to a batch,
thus largely reducing the amount of padding. E-BATCH dynamically controls the
number of time-steps evaluated per batch to achieve the best trade-off between
latency and energy efficiency for the given hardware platform. We evaluate
E-BATCH on top of E-PUR and TPU. In E-PUR, E-BATCH improves throughput by 1.8x
and energy-efficiency by 3.6x, whereas in TPU, it improves throughput by 2.1x
and energy-efficiency by 1.6x, over the state-of-the-art.
- Abstract(参考訳): リカレントニューラルネットワーク(RNN)推論は、時間ステップ間の厳密なデータ依存関係のため、ハードウェア使用率の低下を示す。
複数のリクエストをバッチすることでスループットが向上する。
しかし、rnnのバッチ化は、バッチ化された入力シーケンスの長さが大きく異なる可能性があるため、大量のパディングを必要とする。
バッチを数ステップ毎に動的に更新するスキームはパディングを避ける。
しかし、異なるrnn層を短時間で実行し、エネルギー効率を低下させる必要がある。
そこで我々は,RNN加速器に適した低レイテンシかつエネルギー効率のバッチ方式であるE-BATCHを提案する。
ランタイムシステムと効果的なハードウェアサポートで構成される。
ランタイムは複数のシーケンスを結合して大きなバッチを生成する。
さらに、アクセルは、シーケンスの評価が完了したときにそれを通知することで、新しいシーケンスを即座にバッチに追加することができるため、パディングの量を大幅に削減できる。
E-BATCHは、バッチ毎に評価された時間ステップ数を動的に制御し、与えられたハードウェアプラットフォームにおけるレイテンシとエネルギー効率の最良のトレードオフを達成する。
E-PURとTPUを用いたE-BATCHの評価を行った。
E-PURでは、E-BATCHはスループットを1.8倍、エネルギー効率を3.6倍、TPUではスループットを2.1倍、エネルギー効率を1.6倍改善する。
関連論文リスト
- Accelerating PoT Quantization on Edge Devices [0.9558392439655012]
パワー・オブ・ツー(PoT)量子化のような一様でない量子化は、一様量子化よりもデータ分布によく一致する。
エッジデバイス上でPoT量子化されたDeep Neural Networkを高速化するための既存のパイプラインは、オープンソースではない。
本稿では,リソース制約のあるエッジデバイス上でのPoT量子化DNNのエンドツーエンド高速化のための,オープンソースのパイプラインであるPoTAccを提案する。
論文 参考訳(メタデータ) (2024-09-30T15:33:47Z) - Energy-Efficient Spiking Recurrent Neural Network for Gesture Recognition on Embedded GPUs [1.37621344207686]
本研究では,スピーキングリカレントニューラルネットワーク(SRNN)と液体時間定数ニューロンを併用したジェスチャー認識システムについて検討した。
NVIDIA Jetson Nano組み込みGPUプラットフォームにおけるエネルギー効率と計算効率に着目した。
論文 参考訳(メタデータ) (2024-08-23T10:50:29Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation [93.88170217725805]
本稿では,高画質なセグメンテーションマスクと,パラメータ,計算コスト,推論速度の両面での効率性を提供するUNETR++という3次元医用画像セグメンテーション手法を提案する。
我々の設計の核となるのは、空間的およびチャネル的な識別的特徴を効率的に学習する、新しい効率的な対注意ブロック(EPA)の導入である。
Synapse, BTCV, ACDC, BRaTs, Decathlon-Lungの5つのベンチマークで評価した結果, 効率と精度の両面で, コントリビューションの有効性が示された。
論文 参考訳(メタデータ) (2022-12-08T18:59:57Z) - Adaptable Butterfly Accelerator for Attention-based NNs via Hardware and
Algorithm Co-design [66.39546326221176]
多くのAIタスクにおいて、注意に基づくニューラルネットワークが普及している。
注意機構とフィードフォワードネットワーク(FFN)の使用は、過剰な計算とメモリ資源を必要とする。
本稿では,注目機構とFFNの両方を近似するために,バタフライの分散パターンを統一したハードウェアフレンドリーな変種を提案する。
論文 参考訳(メタデータ) (2022-09-20T09:28:26Z) - Braille Letter Reading: A Benchmark for Spatio-Temporal Pattern
Recognition on Neuromorphic Hardware [50.380319968947035]
近年の深層学習手法は,そのようなタスクにおいて精度が向上しているが,従来の組込みソリューションへの実装は依然として計算量が非常に高く,エネルギーコストも高い。
文字読み込みによるエッジにおける触覚パターン認識のための新しいベンチマークを提案する。
フィードフォワードとリカレントスパイキングニューラルネットワーク(SNN)を、サロゲート勾配の時間によるバックプロパゲーションを用いてオフラインでトレーニングし比較し、効率的な推論のためにIntel Loihimorphicチップにデプロイした。
LSTMは14%の精度で繰り返しSNNより優れており、Loihi上での繰り返しSNNは237倍のエネルギーである。
論文 参考訳(メタデータ) (2022-05-30T14:30:45Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - BRDS: An FPGA-based LSTM Accelerator with Row-Balanced Dual-Ratio
Sparsification [3.3711251611130337]
エネルギー消費を低減し、Long Short-Term Memory (LSTM) ニューラルネットワークアクセラレータの速度を改善するためのハードウェアフレンドリーなプランニングアルゴリズムを提示する。
その結果、提案された加速器は最大272%の有効GOPS/Wを提供することができ、パープレキシティエラーはPTBデータセットの1.4%まで低減される。
論文 参考訳(メタデータ) (2021-01-07T18:23:48Z) - EdgeBERT: Sentence-Level Energy Optimizations for Latency-Aware
Multi-Task NLP Inference [82.1584439276834]
BERTのようなトランスフォーマーベースの言語モデルでは、自然言語処理(NLP)タスクの精度が大幅に向上する。
We present EdgeBERT, a in-deepth algorithm- hardware co-design for latency-aware energy optimization for multi-task NLP。
論文 参考訳(メタデータ) (2020-11-28T19:21:47Z) - TIMELY: Pushing Data Movements and Interfaces in PIM Accelerators
Towards Local and in Time Domain [27.66305184703716]
抵抗ランダムアクセスメモリ(ReRAM)ベースのプロセッシングインメモリ(R$2$PIM)アクセラレータは、Thingデバイスの制約されたリソースとConvolutional/Deep Neural Networks(CNNs/DNNs)の禁制的なエネルギーコストとのギャップを埋めることを約束している。
我々はR$2$PIMアクセラレーターにおける3つの省エネ機会を識別する:アナログデータ局所性、時間領域のインターフェイス、入力アクセスの削減、そして、TIMELYと呼ばれる革新的なR$2$PIMアクセラレーターを提案する。
論文 参考訳(メタデータ) (2020-05-03T23:27:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。