論文の概要: Demand Layering for Real-Time DNN Inference with Minimized Memory Usage
- arxiv url: http://arxiv.org/abs/2210.04024v1
- Date: Sat, 8 Oct 2022 13:38:48 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 18:32:22.768103
- Title: Demand Layering for Real-Time DNN Inference with Minimized Memory Usage
- Title(参考訳): メモリ使用量最小化によるリアルタイムDNN推論のためのデマンド層化
- Authors: Mingoo Ji, Saehanseul Yi, Changjin Koo, Sol Ahn, Dongjoo Seo, Nikil
Dutt, Jong-Chan Kim
- Abstract要約: ディープニューラルネットワーク(DNN)モデルパラメータは、実行前にGPUメモリにロードされる。
本稿では,DNNの層間実行を利用したDemand Layeringを提案する。
私たちの実装では、96.5%のメモリ削減と、平均14.8%の遅延オーバーヘッドが示されています。
- 参考スコア(独自算出の注目度): 2.5768647103950357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When executing a deep neural network (DNN), its model parameters are loaded
into GPU memory before execution, incurring a significant GPU memory burden.
There are studies that reduce GPU memory usage by exploiting CPU memory as a
swap device. However, this approach is not applicable in most embedded systems
with integrated GPUs where CPU and GPU share a common memory. In this regard,
we present Demand Layering, which employs a fast solid-state drive (SSD) as a
co-running partner of a GPU and exploits the layer-by-layer execution of DNNs.
In our approach, a DNN is loaded and executed in a layer-by-layer manner,
minimizing the memory usage to the order of a single layer. Also, we developed
a pipeline architecture that hides most additional delays caused by the
interleaved parameter loadings alongside layer executions. Our implementation
shows a 96.5% memory reduction with just 14.8% delay overhead on average for
representative DNNs. Furthermore, by exploiting the memory-delay tradeoff,
near-zero delay overhead (under 1 ms) can be achieved with a slightly increased
memory usage (still an 88.4% reduction), showing the great potential of Demand
Layering.
- Abstract(参考訳): ディープニューラルネットワーク(dnn)を実行すると、そのモデルパラメータが実行前にgpuメモリにロードされ、gpuメモリの負荷が大幅に増大する。
スワップデバイスとしてCPUメモリを活用することにより、GPUメモリ使用量を削減する研究がある。
しかし、このアプローチは、CPUとGPUが共通のメモリを共有する統合GPUを持つほとんどの組み込みシステムでは適用できない。
本稿では,gpuの共同実行パートナーとして高速ソリッドステートドライブ(ssd)を採用し,dnnの層別実行を活用した需要階層化について述べる。
本手法では,DNNを層単位でロード・実行し,メモリ使用量を単一層の順に最小化する。
また,層実行に伴うインターリーブされたパラメータローディングによる遅延のほとんどを隠蔽するパイプラインアーキテクチャも開発した。
我々の実装では、96.5%のメモリ削減と、代表的DNNの平均遅延オーバーヘッドが14.8%であった。
さらに、メモリ遅延トレードオフを利用することで、若干のメモリ使用量の増加(88.4%削減されたまま)で、ほぼゼロの遅延オーバーヘッド(1ミリ秒未満)を実現できる。
関連論文リスト
- Accelerating Sampling and Aggregation Operations in GNN Frameworks with
GPU Initiated Direct Storage Accesses [9.773813896475264]
グラフニューラルネットワーク(GNN)は、グラフ構造化データから学習するための強力なツールとして登場している。
大規模グラフ上でのGNNのトレーニングは、効率的なデータアクセスとデータ移動方法が欠如しているため、依然として大きな課題である。
大規模グラフに対するGPU指向GNNトレーニングを実現するために,GPU Initiated Direct Storage Access (GIDS) データローダを提案する。
論文 参考訳(メタデータ) (2023-06-28T17:22:15Z) - XMem: Long-Term Video Object Segmentation with an Atkinson-Shiffrin
Memory Model [137.50614198301733]
機能記憶を統一した長ビデオのためのビデオオブジェクトセグメンテーションアーキテクチャであるXMemを提案する。
独立して深く接続された複数の機能記憶を組み込んだアーキテクチャを開発する。
XMemは、ロングビデオデータセットにおける最先端のパフォーマンスを大幅に上回る。
論文 参考訳(メタデータ) (2022-07-14T17:59:37Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [70.29404271727155]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - AxoNN: An asynchronous, message-driven parallel framework for
extreme-scale deep learning [1.5301777464637454]
AxoNNは並列ディープラーニングフレームワークで、非同期とメッセージ駆動の実行を利用して、各GPU上でのニューラルネットワーク操作をスケジュールする。
トレーニング中に定期的にデータをオフロードするスクラッチスペースとしてCPUメモリを使用することで、AxoNNはGPUメモリ使用量を4倍削減することができる。
論文 参考訳(メタデータ) (2021-10-25T14:43:36Z) - PIM-DRAM:Accelerating Machine Learning Workloads using Processing in
Memory based on DRAM Technology [2.6168147530506958]
MLワークロードにおける行列ベクトル演算を高速化する処理インメモリ(PIM)プリミティブを提案する。
提案したアーキテクチャ,マッピング,データフローは,GPUよりも最大で23倍,6.5倍のメリットが得られることを示す。
論文 参考訳(メタデータ) (2021-05-08T16:39:24Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - DistGNN: Scalable Distributed Training for Large-Scale Graph Neural
Networks [58.48833325238537]
大規模グラフの構造を学ぶためにGNN(Graph Neural Networks)のフルバッチトレーニングは、実現可能な数百の計算ノードにスケールする必要がある重要な問題です。
本稿では,CPUクラスタ上でのフルバッチトレーニングのためのDGL(Deep Graph Library)を最適化したGNNについて述べる。
4つの一般的なGNNベンチマークデータセットの結果は、1つのCPUソケットを使用して最大3.7倍のスピードアップ、128のCPUソケットを使用して最大97倍のスピードアップを示す。
論文 参考訳(メタデータ) (2021-04-14T08:46:35Z) - Improving Computational Efficiency in Visual Reinforcement Learning via
Stored Embeddings [89.63764845984076]
効率的な強化学習のためのストアド埋め込み(SEER)について紹介します。
SEERは、既存の非政治深層強化学習方法の簡単な修正です。
計算とメモリを大幅に節約しながら、SEERがRLizableエージェントのパフォーマンスを低下させないことを示します。
論文 参考訳(メタデータ) (2021-03-04T08:14:10Z) - Distributed Hierarchical GPU Parameter Server for Massive Scale Deep
Learning Ads Systems [18.8634762028544]
本稿では,大規模ディープラーニング広告システムのための分散GPU階層型パラメータサーバを提案する。
4ノードの階層型GPUパラメータサーバは、MPIクラスタ内の150ノードのインメモリ分散パラメータサーバよりも2倍以上高速にモデルをトレーニングすることができる。
提案方式の価格-性能比は,MPIクラスタソリューションの4-9倍である。
論文 参考訳(メタデータ) (2020-03-12T05:15:48Z) - TFApprox: Towards a Fast Emulation of DNN Approximate Hardware
Accelerators on GPU [0.4817429789586127]
近似演算回路を導入することにより、ディープニューラルネットワーク(DNN)のハードウェアアクセラレータのエネルギー効率を向上させることができる。
DNNアクセラレータのソフトウェアエミュレーションは通常、CPUまたはGPU上で実行される。
このエミュレーションは通常、ソフトウェアDNN実装のエミュレーションよりも2~3桁遅い。
論文 参考訳(メタデータ) (2020-02-21T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。