論文の概要: Memory Planning for Deep Neural Networks
- arxiv url: http://arxiv.org/abs/2203.00448v1
- Date: Wed, 23 Feb 2022 05:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-06 13:39:12.329476
- Title: Memory Planning for Deep Neural Networks
- Title(参考訳): 深層ニューラルネットワークのメモリ計画
- Authors: Maksim Levental
- Abstract要約: 推論中のDNNのメモリ割り当てパターンについて検討する。
このようなtexttmutex競合による遅延は、ユーザ向けサービスにおいて望ましくないボトルネックを生み出します。
PyTorchディープラーニングフレームワークにおける textttMemoMalloc の実装について述べる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study memory allocation patterns in DNNs during inference, in the context
of large-scale systems. We observe that such memory allocation patterns, in the
context of multi-threading, are subject to high latencies, due to
\texttt{mutex} contention in the system memory allocator. Latencies incurred
due to such \texttt{mutex} contention produce undesirable bottlenecks in
user-facing services. Thus, we propose a "memorization" based technique,
\texttt{MemoMalloc}, for optimizing overall latency, with only moderate
increases in peak memory usage. Specifically, our technique consists of a
runtime component, which captures all allocations and uniquely associates them
with their high-level source operation, and a static analysis component, which
constructs an efficient allocation "plan". We present an implementation of
\texttt{MemoMalloc} in the PyTorch deep learning framework and evaluate memory
consumption and execution performance on a wide range of DNN architectures. We
find that \texttt{MemoMalloc} outperforms state-of-the-art general purpose
memory allocators, with respect to DNN inference latency, by as much as 40\%.
- Abstract(参考訳): 大規模システムのコンテキストにおいて,DNNにおけるメモリ割り当てパターンについて検討する。
このようなメモリ割り当てパターンは、マルチスレッディングの文脈において、システムメモリアロケータにおける \texttt{mutex} 競合のため、高いレイテンシーにさらされる。
このような‘texttt{mutex}競合による遅延は、ユーザ対応サービスにおいて望ましくないボトルネックを生み出します。
そこで,本研究では,メモリ使用量を適度に増加させることなく,全体のレイテンシを最適化する「記憶」ベースの手法である \texttt{memomalloc} を提案する。
具体的には,すべてのアロケーションをキャプチャし,その高レベルのソース操作と一意に関連付けるランタイムコンポーネントと,効率的なアロケーション"プラン"を構築する静的分析コンポーネントで構成される。
PyTorchディープラーニングフレームワークに \texttt{MemoMalloc} を実装し,幅広いDNNアーキテクチャ上でのメモリ消費と実行性能を評価する。
DNNの推論遅延に関して、‘texttt{MemoMalloc} は最先端の汎用メモリアロケータよりも40%も優れています。
関連論文リスト
- Host-Based Allocators for Device Memory [1.2289361708127877]
割り当てアルゴリズムはホストメモリ上で実行されるが、デバイスメモリを割り当てるので、アロケータはアロケータが割り当てているメモリを読み取ることができない。
これはつまり,ほぼすべてのアロケーションアルゴリズムにおいて,ユビキタスな概念である境界タグを使用できない,ということです。
本稿では,この制約を回避するための代替アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-11T19:28:37Z) - Topology-aware Embedding Memory for Continual Learning on Expanding Networks [63.35819388164267]
本稿では,メモリリプレイ技術を用いて,メモリ爆発問題に対処する枠組みを提案する。
Topology-aware Embedding Memory (TEM) を用いたPDGNNは最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-01-24T03:03:17Z) - What Do You Mean by Memory? When Engineers Are Lost in the Maze of
Complexity [0.0]
アプリケーションのメモリ使用量を減らすための慣例は、メモリ割り当ての量と頻度を減らすことである。
業界は、特定のオペレーティングシステム(OS)とプログラミング言語タイプをターゲットにしたメモリ使用量の最適化のための詳細なガイドラインを必要としている。
論文 参考訳(メタデータ) (2023-12-20T22:26:15Z) - Constant Memory Attention Block [74.38724530521277]
Constant Memory Attention Block (CMAB) は、新しい汎用アテンションブロックであり、その出力を一定メモリで計算し、一定計算で更新を実行する。
提案手法は,メモリ効率を著しく向上しつつ,最先端技術と競合する結果が得られることを示す。
論文 参考訳(メタデータ) (2023-06-21T22:41:58Z) - Robust and Efficient Memory Network for Video Object Segmentation [6.7995672846437305]
本稿では,半教師付きビデオオブジェクトセグメンテーション(VOS)研究のためのロバストかつ効率的なメモリネットワーク(REMN)を提案する。
我々は,前景の物体の特徴を前景のマスクで高めることにより,背景の乱れに対処する局所的な注意機構を導入する。
実験によると、我々のREMNはDAVIS 2017で最先端の結果を達成しており、$mathcalJ&F$スコアは86.3%、YouTube-VOS 2018では$mathcalG$平均85.5%である。
論文 参考訳(メタデータ) (2023-04-24T06:19:21Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Rethinking Space-Time Networks with Improved Memory Coverage for
Efficient Video Object Segmentation [68.45737688496654]
各オブジェクトのマスク特徴を再エンコードすることなく,フレーム間の直接対応性を確立する。
対応によって、現在のクエリフレーム内の全てのノードは、過去の特徴を連想的に集約することによって推測される。
すべてのメモリノードにコントリビュートする機会があることを検証し、そのような多彩な投票がメモリ効率と推論精度の両方に有益であることを示した。
論文 参考訳(メタデータ) (2021-06-09T16:50:57Z) - Pinpointing the Memory Behaviors of DNN Training [37.78973307051419]
ディープニューラルネットワーク(DNN)のトレーニングは通常、アクセラレータのデバイスメモリ容量が制限されているため、メモリ不足である。
本研究では,ランタイムシステムのメモリアロケータを計測することにより,トレーニング中のGPUの各デバイスメモリブロックのメモリ挙動をピンポイント化する。
論文 参考訳(メタデータ) (2021-04-01T05:30:03Z) - Efficient Regional Memory Network for Video Object Segmentation [56.587541750729045]
半教師付きVOS(Regional Memory Network, RMNet)のための新しいローカル-ローカルマッチングソリューションを提案する。
提案するrmnetは、メモリとクエリフレームの両方における類似オブジェクトのあいまいさを効果的に緩和する。
実験結果から,提案したRMNetは,DAVISおよびYouTube-VOSデータセットの最先端手法に対して良好に動作することが示された。
論文 参考訳(メタデータ) (2021-03-24T02:08:46Z) - Kanerva++: extending The Kanerva Machine with differentiable, locally
block allocated latent memory [75.65949969000596]
エピソディックメモリとセマンティックメモリは、人間のメモリモデルの重要なコンポーネントです。
我々は、エピソードメモリとセマンティックメモリのギャップを埋める新しい原理ベイズメモリ割り当てスキームを開発しました。
この割り当て方式がメモリ条件画像生成の性能を向上させることを実証する。
論文 参考訳(メタデータ) (2021-02-20T18:40:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。