Fugu-MT 論文翻訳(概要): Optimizing Memory-Access Patterns for Deep Learning Accelerators

論文の概要: Optimizing Memory-Access Patterns for Deep Learning Accelerators

arxiv url: http://arxiv.org/abs/2002.12798v1
Date: Thu, 27 Feb 2020 05:06:19 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-28 09:09:24.270803
Title: Optimizing Memory-Access Patterns for Deep Learning Accelerators
Title（参考訳）: ディープラーニングアクセラレータのためのメモリアクセスパターンの最適化
Authors: Hongbin Zheng, Sejong Oh, Huiqing Wang, Preston Briggs, Jiading Gai, Animesh Jain, Yizhi Liu, Rich Heaton, Randy Huang, Yida Wang
Abstract要約: ディープラーニング(DL)ワークロードは、高速な処理と低コストのために、アクセラレータへと移行している。現代のDLアクセラレータは、DLワークロードを支配する大規模な乗算累積操作を扱うのに長けている。データをソフトウェア管理のスクラッチパッドメモリで適切に実行する必要があるため、アクセルの計算能力を完全に活用することは困難である。本稿では,多面体モデルを用いてDLモデルのすべての演算子を解析し,メモリアクセス数を最小化する手法を提案する。
参考スコア（独自算出の注目度）: 6.931196464448543
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Deep learning (DL) workloads are moving towards accelerators for faster processing and lower cost. Modern DL accelerators are good at handling the large-scale multiply-accumulate operations that dominate DL workloads; however, it is challenging to make full use of the compute power of an accelerator since the data must be properly staged in a software-managed scratchpad memory. Failing to do so can result in significant performance loss. This paper proposes a systematic approach which leverages the polyhedral model to analyze all operators of a DL model together to minimize the number of memory accesses. Experiments show that our approach can substantially reduce the impact of memory accesses required by common neural-network models on a homegrown AWS machine-learning inference chip named Inferentia, which is available through Amazon EC2 Inf1 instances.
Abstract（参考訳）: ディープラーニング(DL)ワークロードは、高速な処理と低コストのために、アクセラレータに向かっている。現代のDLアクセラレータは、DLワークロードを支配する大規模な乗算累積演算を扱うのに長けているが、ソフトウェア管理スクラッチパッドメモリでデータを適切に実行しなければならないため、アクセラレータの計算能力を完全に活用することは困難である。失敗するとパフォーマンスが大幅に低下する可能性がある。本稿では,多面体モデルを用いてDLモデルのすべての演算子を解析し,メモリアクセス数を最小化する手法を提案する。実験の結果,Amazon EC2 Inf1インスタンスを通じて利用可能な,自家製のAWS機械学習推論チップであるInferentiaに対する,一般的なニューラルネットワークモデルに必要なメモリアクセスの影響を大幅に低減できることがわかった。

関連論文リスト

Efficient Machine Unlearning via Influence Approximation [75.31015485113993]
インフルエンサーベースのアンラーニングは、個別のトレーニングサンプルがモデルパラメータに与える影響を再トレーニングせずに推定する顕著なアプローチとして現れてきた。本稿では,暗記(増分学習)と忘れ(未学習)の理論的関連性を確立する。本稿では、インフルエンス近似アンラーニングアルゴリズムを導入し、インクリメンタルな視点から効率的なマシンアンラーニングを行う。
論文参考訳（メタデータ） (2025-07-31T05:34:27Z)
DAF: An Efficient End-to-End Dynamic Activation Framework for on-Device DNN Training [41.09085549544767]
システムレベルの最適化を通じて、スケーラブルで効率的なデバイス上でのトレーニングを可能にする動的アクティベーションフレームワーク(DAF)を導入する。 DAFは、主要なシステムのボトルネックに対処することで、メモリと時間効率の動的量子化トレーニングを実現する。組み込みプラットフォームとモバイルプラットフォームにわたるさまざまなディープラーニングモデルの評価によると、メモリ使用量の削減に22.9倍、スピードアップに32倍の3.2倍となる。
論文参考訳（メタデータ） (2025-07-09T08:59:30Z)
Flexiffusion: Training-Free Segment-Wise Neural Architecture Search for Efficient Diffusion Models [50.260693393896716]
拡散モデル(DM)は高忠実度画像を生成できる強力な生成モデルであるが、高い計算コストで制約される。我々は、事前訓練されたパラメータを変更することなく、生成スケジュールとモデルアーキテクチャを協調的に最適化する、トレーニング不要なNASフレームワークFlexiffusionを提案する。我々の研究は、品質を犠牲にすることなく高速DMを検索するための資源効率の良いパラダイムを開拓した。
論文参考訳（メタデータ） (2025-06-03T06:02:50Z)
SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。初期経路では、中間出力は反冗長動作によって統合される。遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文参考訳（メタデータ） (2024-07-10T10:22:35Z)
TSB: Tiny Shared Block for Efficient DNN Deployment on NVCIM Accelerators [11.496631244103773]
Tiny Shared Block (TSB)"は、小さな共有1x1畳み込みブロックをDeep Neural Networkアーキテクチャに統合する。 TSBは、20倍以上の推論精度ギャップの改善、5倍以上のトレーニングスピードアップ、デバイス間マッピングコストの削減を実現している。
論文参考訳（メタデータ） (2024-05-08T20:53:38Z)
CAMEL: Co-Designing AI Models and Embedded DRAMs for Efficient On-Device Learning [8.339901980070616]
リソース制限されたデバイスでのAIのトレーニングは、コンピューティングワークロードの要求と、ディープニューラルネットワーク(DNN)が必要とするメモリ消費とデータアクセスの大幅な増加により、大きな課題となる。過渡学習データのための一次記憶媒体として,組込み動的ランダムアクセスメモリ(eDRAM)を提案する。我々は,eDRAMをプライマリオンチップメモリとして活用する,TextitCAMELという,高効率なオンデバイストレーニングエンジンを提案する。
論文参考訳（メタデータ） (2023-05-04T20:57:01Z)
ATTACC the Quadratic Bottleneck of Attention Layers [3.2741800634280245]
本稿では、ディープニューラルネットワーク(DNN)アクセラレーターのための新しいアテンション調整データフローであるFLATを紹介する。高帯域幅で低容量のオンチップバッファを効率的に利用することで、効果的なメモリ帯域幅を増大させる。評価では,ATTACCは最先端エッジやクラウドアクセラレータと比較して1.94倍,1.76倍,49%,42%のエネルギー削減を達成した。
論文参考訳（メタデータ） (2021-07-13T22:23:40Z)
Improving Computational Efficiency in Visual Reinforcement Learning via Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。 SEERは、既存の非政治深層強化学習方法の簡単な修正です。計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文参考訳（メタデータ） (2021-03-04T08:14:10Z)
SmartDeal: Re-Modeling Deep Network Weights for Efficient Inference and Training [82.35376405568975]
ディープニューラルネットワーク(DNN)は重いパラメータ化を伴い、ストレージ用の外部動的ランダムアクセスメモリ(DRAM)につながります。 We present SmartDeal (SD), a algorithm framework to trade high-cost memory storage/ access for lower-cost compute。 SDは貯蔵および訓練エネルギーの10.56xそして4.48x減少、最先端の訓練のベースラインと比較される無視可能な正確さの損失をもたらすことを示します。
論文参考訳（メタデータ） (2021-01-04T18:54:07Z)
Scaling Distributed Deep Learning Workloads beyond the Memory Capacity with KARMA [58.040931661693925]
冗長な再計算とアウト・オブ・コアの手法を組み合わせた戦略を提案する。最先端のアウト・オブ・コア手法を用いて,6種類のモデルで平均1.22倍の高速化を実現した。我々のデータ並列化ソリューションは,Megatron-LMやTurning-NLGといった大規模モデルのトレーニングにおいて,複雑なハイブリッドモデル並列性よりも優れる。
論文参考訳（メタデータ） (2020-08-26T07:24:34Z)
Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文参考訳（メタデータ） (2020-07-21T15:59:09Z)
Joint Parameter-and-Bandwidth Allocation for Improving the Efficiency of Partitioned Edge Learning [73.82875010696849]
機械学習アルゴリズムは、人工知能(AI)モデルをトレーニングするために、ネットワークエッジにデプロイされる。本稿では,パラメータ(計算負荷)割り当てと帯域幅割り当ての新しい共同設計に焦点を当てる。
論文参考訳（メタデータ） (2020-03-10T05:52:15Z)
Model-Driven Beamforming Neural Networks [47.754731555563836]
本稿では、一般データおよびモデル駆動ビームフォーミングニューラルネットワーク(BNN)を紹介する。様々な学習戦略を示し、DLベースのBNNの複雑さの低減についても論じている。また、BNNの汎用性を向上させるため、トレーニングセットの強化や伝達学習などの強化手法も提供する。
論文参考訳（メタデータ） (2020-01-15T12:50:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。