論文の概要: On the Impact of Partial Sums on Interconnect Bandwidth and Memory
Accesses in a DNN Accelerator
- arxiv url: http://arxiv.org/abs/2011.00850v1
- Date: Mon, 2 Nov 2020 09:44:50 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-30 13:10:00.564501
- Title: On the Impact of Partial Sums on Interconnect Bandwidth and Memory
Accesses in a DNN Accelerator
- Title(参考訳): DNN加速器の相互接続帯域幅とメモリアクセスに対する部分和の影響について
- Authors: Mahesh Chandra
- Abstract要約: 専用アクセラレータは、ディープニューラルネットワーク(DNN)アプリケーションの巨大なリソース要件に対処するために設計されています。
本稿では,帯域幅の最適化のために特徴マップを分割する一次解析手法を提案する。
最適パーティショニングとアクティブメモリコントローラは最大40%の帯域幅削減を実現することができる。
- 参考スコア(独自算出の注目度): 5.429955391775968
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dedicated accelerators are being designed to address the huge resource
requirement of the deep neural network (DNN) applications. The power,
performance and area (PPA) constraints limit the number of MACs available in
these accelerators. The convolution layers which require huge number of MACs
are often partitioned into multiple iterative sub-tasks. This puts huge
pressure on the available system resources such as interconnect and memory
bandwidth. The optimal partitioning of the feature maps for these sub-tasks can
reduce the bandwidth requirement substantially. Some accelerators avoid
off-chip or interconnect transfers by implementing local memories; however, the
memory accesses are still performed and a reduced bandwidth can help in saving
power in such architectures. In this paper, we propose a first order analytical
method to partition the feature maps for optimal bandwidth and evaluate the
impact of such partitioning on the bandwidth. This bandwidth can be saved by
designing an active memory controller which can perform basic arithmetic
operations. It is shown that the optimal partitioning and active memory
controller can achieve up to 40% bandwidth reduction.
- Abstract(参考訳): 専用アクセラレータは、ディープニューラルネットワーク(DNN)アプリケーションの巨大なリソース要件に対応するように設計されている。
PPA(Power, Performance and Area)制約は、これらのアクセラレータで利用可能なMACの数を制限する。
多くのMACを必要とする畳み込み層は、しばしば複数の反復的なサブタスクに分割される。
これにより、インターコネクトやメモリ帯域幅といった利用可能なシステムリソースに大きなプレッシャーがかかる。
これらのサブタスクに対する特徴マップの最適分割は、帯域幅の要求を大幅に削減することができる。
一部のアクセラレータはローカルメモリを実装することでオフチップやインターコネクト転送を回避しているが、メモリアクセスはまだ実行されており、帯域幅の削減はそのようなアーキテクチャの電力節約に役立つ。
本稿では,帯域幅に最適な特徴マップを分割し,その分割が帯域幅に与える影響を評価するための第1次解析手法を提案する。
この帯域幅は、基本演算を実行できるアクティブメモリコントローラを設計することで節約できる。
最適なパーティショニングとアクティブメモリコントローラは最大40%の帯域幅削減を達成できることが示されている。
関連論文リスト
- vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Fast Matrix Multiplications for Lookup Table-Quantized LLMs [58.11584672945781]
FLUTEはLUT量子化LLM用のフレキシブルなルックアップテーブルエンジンである。
バッチサイズ32と量子化グループサイズ128では、FLUTEカーネルは既存のGEMMカーネルよりも2〜4倍高速である。
論文 参考訳(メタデータ) (2024-07-15T17:55:42Z) - A Configurable and Efficient Memory Hierarchy for Neural Network Hardware Accelerator [0.6242215470795112]
ディープニューラルネットワーク(DNN)の層ごとの適応型メモリアクセスパターンに適したメモリ階層化フレームワークを提案する。
目的は、必要なメモリ容量を最小化することと、高いアクセラレータ性能を維持することのバランスを最適化することである。
論文 参考訳(メタデータ) (2024-04-24T11:57:37Z) - RAMAN: A Re-configurable and Sparse tinyML Accelerator for Inference on
Edge [1.8293684411977293]
エッジでのDeep Neural Network(DNN)ベースの推論は、これらの計算およびデータ集約アルゴリズムを低コストで低消費電力で実装する必要があるため、難しい。
エッジ上のInfereNce用のRe-configurableおよびspArse smallML AcceleratorであるRAMANを紹介します。
論文 参考訳(メタデータ) (2023-06-10T17:25:58Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Programmable FPGA-based Memory Controller [9.013666207570749]
本稿では,利用可能なハードウェアリソース上の異なるターゲットアプリケーションに対して,モジュール型でプログラム可能なメモリコントローラを提案する。
提案したメモリコントローラは、キャッシュラインアクセスとバルクメモリ転送を効率的にサポートする。
商用メモリコントローラIPと比較して,CNNおよびGCNワークロードのメモリアクセス時間は最大58%向上した。
論文 参考訳(メタデータ) (2021-08-21T23:53:12Z) - MAFAT: Memory-Aware Fusing and Tiling of Neural Networks for Accelerated
Edge Inference [1.7894377200944507]
機械学習ネットワークは、利用可能なメモリを容易に越えることができ、OSの過度なスワップによってレイテンシが増加する。
本稿では,メモリ使用量予測器と探索アルゴリズムを組み合わせることで,最適化されたファジングとタイリングの構成を提供する。
その結果、我々のアプローチはメモリの半分以下で実行でき、メモリの厳しい制約下では最大2.78の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-14T19:45:49Z) - ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文 参考訳(メタデータ) (2021-07-13T22:23:40Z) - Adaptive Subcarrier, Parameter, and Power Allocation for Partitioned
Edge Learning Over Broadband Channels [69.18343801164741]
パーティショニングエッジ学習(PARTEL)は、無線ネットワークにおいてよく知られた分散学習手法であるパラメータサーバトレーニングを実装している。
本稿では、いくつかの補助変数を導入してParticleELを用いてトレーニングできるディープニューラルネットワーク(DNN)モデルについて考察する。
論文 参考訳(メタデータ) (2020-10-08T15:27:50Z) - Caching Placement and Resource Allocation for Cache-Enabling UAV NOMA
Networks [87.6031308969681]
本稿では,非直交多重アクセス(NOMA)をサポートした大規模アクセス機能を有する無人航空機(UAV)セルネットワークについて検討する。
コンテンツ配信遅延最小化のための長期キャッシュ配置と資源配分最適化問題をマルコフ決定プロセス(MDP)として定式化する。
そこで我々は,UAVがemphsoft $varepsilon$-greedy戦略を用いて行動の学習と選択を行い,行動と状態の最適な一致を探索する,Qラーニングに基づくキャッシュ配置とリソース割り当てアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-08-12T08:33:51Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。