論文の概要: Memory Optimization for Deep Networks
- arxiv url: http://arxiv.org/abs/2010.14501v3
- Date: Sat, 3 Apr 2021 00:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:41:10.159881
- Title: Memory Optimization for Deep Networks
- Title(参考訳): ディープネットワークのためのメモリ最適化
- Authors: Aashaka Shah, Chao-Yuan Wu, Jayashree Mohan, Vijay Chidambaram,
Philipp Kr\"ahenb\"uhl
- Abstract要約: 我々は、ディープネットワークのメモリフットプリントと計算オーバーヘッドを最小化する自動フレームワークMONeTを提案する。
MoneTは、様々なPyTorchモデルのメモリ要求を3倍に減らし、計算のオーバーヘッドは9-16%である。
同じ計算コストで、MONeTは現在の最先端の自動チェックポイントフレームワークよりも1.2-1.8倍少ないメモリを必要とする。
- 参考スコア(独自算出の注目度): 10.519610439720909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning is slowly, but steadily, hitting a memory bottleneck. While the
tensor computation in top-of-the-line GPUs increased by 32x over the last five
years, the total available memory only grew by 2.5x. This prevents researchers
from exploring larger architectures, as training large networks requires more
memory for storing intermediate outputs. In this paper, we present MONeT, an
automatic framework that minimizes both the memory footprint and computational
overhead of deep networks. MONeT jointly optimizes the checkpointing schedule
and the implementation of various operators. MONeT is able to outperform all
prior hand-tuned operations as well as automated checkpointing. MONeT reduces
the overall memory requirement by 3x for various PyTorch models, with a 9-16%
overhead in computation. For the same computation cost, MONeT requires 1.2-1.8x
less memory than current state-of-the-art automated checkpointing frameworks.
Our code is available at https://github.com/utsaslab/MONeT.
- Abstract(参考訳): ディープラーニングはゆっくりと、しかし着実に、メモリボトルネックにぶつかる。
トップ・オブ・ザ・ラインGPUのテンソル計算は過去5年間で32倍に増加したが、利用可能なメモリは2.5倍にしか成長しなかった。
これにより、大規模ネットワークのトレーニングには中間出力を保存するためにより多くのメモリが必要になるため、研究者はより大きなアーキテクチャを探索できない。
本稿では,ディープネットワークのメモリフットプリントと計算オーバーヘッドを最小化する自動フレームワークmonetを提案する。
MONeTはチェックポイントスケジュールと各種演算子の実装を共同で最適化する。
MONeTは、すべての手動操作と自動チェックポイントを上回ります。
MONeTは、様々なPyTorchモデルのメモリ要求を3倍に減らし、計算のオーバーヘッドは9-16%である。
同じ計算コストで、MONeTは現在の最先端の自動チェックポイントフレームワークよりも1.2-1.8倍少ないメモリを必要とする。
私たちのコードはhttps://github.com/utsaslab/MONeT.comで利用可能です。
関連論文リスト
- ROAM: memory-efficient large DNN training via optimized operator
ordering and memory layout [8.99065455675796]
本稿では,演算子順序とテンソルメモリレイアウトを最適化したメモリ効率の高い実行計画の導出のために,グラフレベルで動作するROAMを提案する。
実験の結果、ROAMはPytorchと2つの最先端手法と比較して35.7%、13.3%、27.2%の大幅なメモリ削減を実現し、53.7倍の高速化を実現している。
論文 参考訳(メタデータ) (2023-10-30T06:29:21Z) - INR-Arch: A Dataflow Architecture and Compiler for Arbitrary-Order
Gradient Computations in Implicit Neural Representation Processing [66.00729477511219]
計算グラフとして表される関数を考えると、従来のアーキテクチャはn階勾配を効率的に計算する上で困難に直面している。
InR-Archは,n階勾配の計算グラフをハードウェア最適化データフローアーキテクチャに変換するフレームワークである。
1.8-4.8x と 1.5-3.6x の高速化を CPU と GPU のベースラインと比較した結果を示す。
論文 参考訳(メタデータ) (2023-08-11T04:24:39Z) - GLEAM: Greedy Learning for Large-Scale Accelerated MRI Reconstruction [50.248694764703714]
アンロールされたニューラルネットワークは、最近最先端の加速MRI再構成を達成した。
これらのネットワークは、物理ベースの一貫性とニューラルネットワークベースの正規化を交互に組み合わせることで、反復最適化アルゴリズムをアンロールする。
我々は,高次元画像設定のための効率的なトレーニング戦略である加速度MRI再構成のためのグレディ・ラーニングを提案する。
論文 参考訳(メタデータ) (2022-07-18T06:01:29Z) - NumS: Scalable Array Programming for the Cloud [82.827921577004]
タスクベース分散システム上でNumPyのような表現を最適化する配列プログラミングライブラリであるNumSを提案する。
これはLoad Simulated Hierarchical Scheduling (LSHS)と呼ばれる新しいスケジューラによって実現される。
LSHSは、ネットワーク負荷を2倍減らし、メモリを4倍減らし、ロジスティック回帰問題において実行時間を10倍減らし、Rayの性能を向上させる。
論文 参考訳(メタデータ) (2022-06-28T20:13:40Z) - Mesa: A Memory-saving Training Framework for Transformers [58.78933015299703]
本稿では,トランスフォーマーのためのメモリ節約トレーニングフレームワークであるMesaを紹介する。
Mesaは、フォワードパス中に正確なアクティベーションを使用し、低精度のアクティベーションを格納することで、トレーニング中のメモリ消費を減らす。
ImageNet、CIFAR-100、ADE20Kの実験は、Mesaがトレーニング中にメモリフットプリントの半分を削減できることを示した。
論文 参考訳(メタデータ) (2021-11-22T11:23:01Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [70.29404271727155]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Out-of-core Training for Extremely Large-Scale Neural Networks With
Adaptive Window-Based Scheduling [4.903820815918411]
本稿では,GPUメモリよりも大容量の超大規模ニューラルネットワークを高速にトレーニングする,新しいアウトオブコアアルゴリズムを提案する。
我々は、コア外実行によるニューラルネットワークのトレーニングに、OSで一般的に実行される仮想アドレッシング技術を適用した。
ResNet-50を1440バッチサイズでトレーニングし、トレーニング速度を55%に保ちました。
論文 参考訳(メタデータ) (2020-10-27T07:40:04Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。