論文の概要: Optimizing Memory-Access Patterns for Deep Learning Accelerators
- arxiv url: http://arxiv.org/abs/2002.12798v1
- Date: Thu, 27 Feb 2020 05:06:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-28 09:09:24.270803
- Title: Optimizing Memory-Access Patterns for Deep Learning Accelerators
- Title(参考訳): ディープラーニングアクセラレータのためのメモリアクセスパターンの最適化
- Authors: Hongbin Zheng, Sejong Oh, Huiqing Wang, Preston Briggs, Jiading Gai,
Animesh Jain, Yizhi Liu, Rich Heaton, Randy Huang, Yida Wang
- Abstract要約: ディープラーニング(DL)ワークロードは、高速な処理と低コストのために、アクセラレータへと移行している。
現代のDLアクセラレータは、DLワークロードを支配する大規模な乗算累積操作を扱うのに長けている。
データをソフトウェア管理のスクラッチパッドメモリで適切に実行する必要があるため、アクセルの計算能力を完全に活用することは困難である。
本稿では,多面体モデルを用いてDLモデルのすべての演算子を解析し,メモリアクセス数を最小化する手法を提案する。
- 参考スコア(独自算出の注目度): 6.931196464448543
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning (DL) workloads are moving towards accelerators for faster
processing and lower cost. Modern DL accelerators are good at handling the
large-scale multiply-accumulate operations that dominate DL workloads; however,
it is challenging to make full use of the compute power of an accelerator since
the data must be properly staged in a software-managed scratchpad memory.
Failing to do so can result in significant performance loss. This paper
proposes a systematic approach which leverages the polyhedral model to analyze
all operators of a DL model together to minimize the number of memory accesses.
Experiments show that our approach can substantially reduce the impact of
memory accesses required by common neural-network models on a homegrown AWS
machine-learning inference chip named Inferentia, which is available through
Amazon EC2 Inf1 instances.
- Abstract(参考訳): ディープラーニング(DL)ワークロードは、高速な処理と低コストのために、アクセラレータに向かっている。
現代のDLアクセラレータは、DLワークロードを支配する大規模な乗算累積演算を扱うのに長けているが、ソフトウェア管理スクラッチパッドメモリでデータを適切に実行しなければならないため、アクセラレータの計算能力を完全に活用することは困難である。
失敗するとパフォーマンスが大幅に低下する可能性がある。
本稿では,多面体モデルを用いてDLモデルのすべての演算子を解析し,メモリアクセス数を最小化する手法を提案する。
実験の結果,Amazon EC2 Inf1インスタンスを通じて利用可能な,自家製のAWS機械学習推論チップであるInferentiaに対する,一般的なニューラルネットワークモデルに必要なメモリアクセスの影響を大幅に低減できることがわかった。
関連論文リスト
- SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators [11.496631244103773]
Tiny Shared Block (TSB)"は、小さな共有1x1畳み込みブロックをDeep Neural Networkアーキテクチャに統合する。
TSBは、20倍以上の推論精度ギャップの改善、5倍以上のトレーニングスピードアップ、デバイス間マッピングコストの削減を実現している。
論文 参考訳(メタデータ) (2024-05-08T20:53:38Z) - CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device
Learning [8.339901980070616]
リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスの大幅な増加により、大きな課題となる。
過渡学習データのための一次記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。
我々は,eDRAMをプライマリオンチップメモリとして活用する,TextitCAMELという,高効率なオンデバイストレーニングエンジンを提案する。
論文 参考訳(メタデータ) (2023-05-04T20:57:01Z) - ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。
高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。
評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文 参考訳(メタデータ) (2021-07-13T22:23:40Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and
Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。
We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。
SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文 参考訳(メタデータ) (2021-01-04T18:54:07Z) - Scaling Distributed Deep Learning Workloads beyond the Memory Capacity
with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。
最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。
我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文 参考訳(メタデータ) (2020-08-26T07:24:34Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of
Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。
本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文 参考訳(メタデータ) (2020-03-10T05:52:15Z) - Model-Driven Beamforming Neural Networks [47.754731555563836]
本稿では、一般データおよびモデル駆動ビームフォーミングニューラルネットワーク(BNN)を紹介する。
様々な学習戦略を示し、DLベースのBNNの複雑さの低減についても論じている。
また、BNNの汎用性を向上させるため、トレーニングセットの強化や伝達学習などの強化手法も提供する。
論文 参考訳(メタデータ) (2020-01-15T12:50:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。