Fugu-MT 論文翻訳(概要): Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference

論文の概要: Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference

arxiv url: http://arxiv.org/abs/2202.07462v1
Date: Mon, 14 Feb 2022 09:21:16 GMT
ステータス: 翻訳完了
システム内更新日: 2022-02-16 14:19:31.345365
Title: Vau da muntanialas: Energy-efficient multi-die scalable acceleration of RNN inference
Title（参考訳）: Vau da muntanialas: RNN推論のエネルギー効率の良い多次元拡張加速
Authors: Gianna Paulin, Francesco Conti, Lukas Cavigelli, Luca Benini
Abstract要約: LSTM推論のためのRNN加速器アーキテクチャであるMuntanialaを3.25ドルTOP/s/W$のシリコン測定エネルギー効率で紹介する。 Muntaniala のスケーラブルな設計により,複数のタイルをサイストリック配列に組み合わせることで,大規模な RNN モデルの実行が可能になる。 3L-384NH-123NI LSTMネットワーク上での浮動小数点(FP)に対する音素誤り率(PER)の約3%の低下を示す。
参考スコア（独自算出の注目度）: 18.50014427283814
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recurrent neural networks such as Long Short-Term Memories (LSTMs) learn temporal dependencies by keeping an internal state, making them ideal for time-series problems such as speech recognition. However, the output-to-input feedback creates distinctive memory bandwidth and scalability challenges in designing accelerators for RNNs. We present Muntaniala, an RNN accelerator architecture for LSTM inference with a silicon-measured energy-efficiency of 3.25$TOP/s/W$ and performance of 30.53$GOP/s$ in UMC 65 $nm$ technology. The scalable design of Muntaniala allows running large RNN models by combining multiple tiles in a systolic array. We keep all parameters stationary on every die in the array, drastically reducing the I/O communication to only loading new features and sharing partial results with other dies. For quantifying the overall system power, including I/O power, we built Vau da Muntanialas, to the best of our knowledge, the first demonstration of a systolic multi-chip-on-PCB array of RNN accelerator. Our multi-die prototype performs LSTM inference with 192 hidden states in 330$\mu s$ with a total system power of 9.0$mW$ at 10$MHz$ consuming 2.95$\mu J$. Targeting the 8/16-bit quantization implemented in Muntaniala, we show a phoneme error rate (PER) drop of approximately 3% with respect to floating-point (FP) on a 3L-384NH-123NI LSTM network on the TIMIT dataset.
Abstract（参考訳）: LSTM(Long Short-Term Memories)のようなリカレントニューラルネットワークは、内部状態を保ちながら時間依存を学習し、音声認識のような時系列問題に最適である。しかし、出力から入力までのフィードバックは、RNNのアクセラレータを設計する際のメモリ帯域幅とスケーラビリティの難しさを生み出している。 LSTM推論のためのRNN加速器アーキテクチャであるMuntanialaについて,3.25$TOP/s/W$と30.53$GOP/s$の性能をUMC 65$nm$で測定した。 Muntaniala のスケーラブルな設計により,複数のタイルをサイストリック配列に組み合わせることで,大規模な RNN モデルの実行が可能になる。すべてのパラメータを配列内のダイごとに定常に保つことで、i/o通信を劇的に削減し、新機能をロードし、部分的な結果を他のダイと共有します。 I/Oパワーを含むシステムパワーの定量化のために、私たちはVau da Muntanialasを私たちの知る限り、RNNアクセラレータのシストリックマルチチップオンPCBアレイの最初のデモとして構築しました。我々の多次元プロトタイプはLSTM推論を行い、330$\mu s$の192の隠れ状態と総システムパワーが9.0$mW$の10$MHz$の2.95$\mu J$を消費する。ムンタナーラで実装された8/16ビット量子化を目標とし,TIMITデータセット上の3L-384NH-123NI LSTMネットワーク上での浮動小数点(FP)に対する音素誤り率(PER)の約3%の低下を示す。

関連論文リスト

GhostRNN: Reducing State Redundancy in RNN with Cheap Operations [66.14054138609355]
本稿では,効率的なRNNアーキテクチャであるGhostRNNを提案する。 KWSとSEタスクの実験により、提案されたGhostRNNはメモリ使用量(40%)と計算コストを大幅に削減し、性能は類似している。
論文参考訳（メタデータ） (2024-11-20T11:37:14Z)
Scalable Mechanistic Neural Networks for Differential Equations and Machine Learning [52.28945097811129]
長い時間的シーケンスを含む科学機械学習応用のための拡張ニューラルネットワークフレームワークを提案する。計算時間と空間複雑度はそれぞれ、列長に関して立方体と二次体から線形へと減少する。大規模な実験により、S-MNNは元のMNNと精度で一致し、計算資源を大幅に削減した。
論文参考訳（メタデータ） (2024-10-08T14:27:28Z)
Efficient k-Nearest-Neighbor Machine Translation with Dynamic Retrieval [49.825549809652436]
$k$NN-MTはドメイン固有の翻訳知識を保持するために外部データストアを構築する。適応検索(k$NN-MT-AR)は、$lambda$を動的に推定し、$lambda$が固定しきい値以下であれば$k$NN検索をスキップする。本稿では,バニラ$k$NN-MTを大幅に拡張した動的検索(k$NN-MT-DR)を提案する。
論文参考訳（メタデータ） (2024-06-10T07:36:55Z)
ApproxDARTS: Differentiable Neural Architecture Search with Approximate Multipliers [0.24578723416255746]
本稿では、DARTSと呼ばれる一般的な微分可能なニューラルアーキテクチャ探索手法を応用し、近似乗算器を活用可能なニューラルアーキテクチャ探索(NAS)手法であるApproxDARTSを提案する。 ApproxDARTSは10ドル未満のGPU時間で完全なアーキテクチャ検索を実行でき、畳み込み層に近似乗算器を含む競合畳み込みニューラルネットワーク(CNN)を生成する。
論文参考訳（メタデータ） (2024-04-08T09:54:57Z)
Stochastic Spiking Attention: Accelerating Attention with Stochastic Computing in Spiking Networks [33.51445486269896]
スパイキングニューラルネットワーク(SNN)は、計算要求の削減と電力効率の向上のため、最近Transformerアーキテクチャに統合されている。我々は,SNNベースのトランスフォーマーのドット積アテンションを効果的に実行するために,計算(SC)を活用する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-02-14T11:47:19Z)
Shared Memory-contention-aware Concurrent DNN Execution for Diversely Heterogeneous System-on-Chips [0.32634122554914]
HaX-CoNNは、推論ワークロードの同時実行においてレイヤを特徴付け、マップする新しいスキームである。 NVIDIA Orin,NVIDIA Xavier,Qualcomm Snapdragon 865 SOC上でHaX-CoNNを評価した。
論文参考訳（メタデータ） (2023-08-10T22:47:40Z)
Fully $1\times1$ Convolutional Network for Lightweight Image Super-Resolution [79.04007257606862]
ディープモデルは、シングルイメージ超解像(SISR)タスク、特に大きなカーネルを持つ大きなモデル(3時間3ドル以上)において重要なプロセスを持つ。 $1times1$の畳み込みは計算効率を大幅に向上させるが、局所的な空間表現の集約に苦労する。我々は、Shift-Conv-based Network (SCNet) という、シンプルで効果的な1時間1ドルの畳み込みネットワークを提案する。
論文参考訳（メタデータ） (2023-07-30T06:24:03Z)
Accurate, Low-latency, Efficient SAR Automatic Target Recognition on FPGA [3.251765107970636]
合成開口レーダ(SAR)自動目標認識(ATR)はリモートセンシング画像認識の鍵となる技術である。 SAR ATRのための最先端の畳み込みニューラルネットワーク(CNN)は、エンハンハイ計算コストとエンハンラージメモリフットプリントに悩まされている。本稿では,これらの問題に対処するため,FPGA 上でモデルアーキテクチャを包括的に設計する手法を提案する。
論文参考訳（メタデータ） (2023-01-04T05:35:30Z)
Bayesian Neural Network Language Modeling for Speech Recognition [59.681758762712754]
長期記憶リカレントニューラルネットワーク(LSTM-RNN)とトランスフォーマーで表される最先端のニューラルネットワーク言語モデル(NNLM)は非常に複雑になりつつある。本稿では,LSTM-RNN と Transformer LM の基盤となる不確実性を考慮するために,ベイズ学習フレームワークの全体構造を提案する。
論文参考訳（メタデータ） (2022-08-28T17:50:19Z)
Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization [35.198615417316056]
我々は、リカレントニューラルネットワークトランスデューサ(RNN-T)の推論を大幅に高速化するアグレッシブ量子化戦略について報告する。重みとアクティベーションの両方に4ビット整数表現を使用し、完全なモデルをトレーニングするために量子化アウェアトレーニング(QAT)を適用します。ネットワークのローカルな特性に合わせてカスタマイズされた量子化方式は、優れた性能を実現するために不可欠であることを示す。
論文参考訳（メタデータ） (2022-06-16T02:17:49Z)
ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文参考訳（メタデータ） (2021-05-07T11:39:05Z)
SmartExchange: Trading Higher-cost Memory Storage/Access for Lower-cost Computation [97.78417228445883]
We present SmartExchange, a algorithm- hardware co-design framework for energy- efficient inference of Deep Neural Network (DNNs)。そこで我々は,非零要素がすべてパワー・オブ・ツーである小さな基底行列と大きなスパース係数行列の積として,各重み行列を格納できる,特別に好ましいDNN重み構造を強制する新しいアルゴリズムを開発した。さらに、SmartExchange強化重量をフル活用し、エネルギー効率と遅延性能の両方を改善するための専用のアクセラレータを設計する。
論文参考訳（メタデータ） (2020-05-07T12:12:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。