論文の概要: Memory Optimization for Deep Networks
- arxiv url: http://arxiv.org/abs/2010.14501v3
- Date: Sat, 3 Apr 2021 00:32:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 11:41:10.159881
- Title: Memory Optimization for Deep Networks
- Title(参考訳): ディープネットワークのためのメモリ最適化
- Authors: Aashaka Shah, Chao-Yuan Wu, Jayashree Mohan, Vijay Chidambaram,
Philipp Kr\"ahenb\"uhl
- Abstract要約: 我々は、ディープネットワークのメモリフットプリントと計算オーバーヘッドを最小化する自動フレームワークMONeTを提案する。
MoneTは、様々なPyTorchモデルのメモリ要求を3倍に減らし、計算のオーバーヘッドは9-16%である。
同じ計算コストで、MONeTは現在の最先端の自動チェックポイントフレームワークよりも1.2-1.8倍少ないメモリを必要とする。
- 参考スコア(独自算出の注目度): 10.519610439720909
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning is slowly, but steadily, hitting a memory bottleneck. While the
tensor computation in top-of-the-line GPUs increased by 32x over the last five
years, the total available memory only grew by 2.5x. This prevents researchers
from exploring larger architectures, as training large networks requires more
memory for storing intermediate outputs. In this paper, we present MONeT, an
automatic framework that minimizes both the memory footprint and computational
overhead of deep networks. MONeT jointly optimizes the checkpointing schedule
and the implementation of various operators. MONeT is able to outperform all
prior hand-tuned operations as well as automated checkpointing. MONeT reduces
the overall memory requirement by 3x for various PyTorch models, with a 9-16%
overhead in computation. For the same computation cost, MONeT requires 1.2-1.8x
less memory than current state-of-the-art automated checkpointing frameworks.
Our code is available at https://github.com/utsaslab/MONeT.
- Abstract(参考訳): ディープラーニングはゆっくりと、しかし着実に、メモリボトルネックにぶつかる。
トップ・オブ・ザ・ラインGPUのテンソル計算は過去5年間で32倍に増加したが、利用可能なメモリは2.5倍にしか成長しなかった。
これにより、大規模ネットワークのトレーニングには中間出力を保存するためにより多くのメモリが必要になるため、研究者はより大きなアーキテクチャを探索できない。
本稿では,ディープネットワークのメモリフットプリントと計算オーバーヘッドを最小化する自動フレームワークmonetを提案する。
MONeTはチェックポイントスケジュールと各種演算子の実装を共同で最適化する。
MONeTは、すべての手動操作と自動チェックポイントを上回ります。
MONeTは、様々なPyTorchモデルのメモリ要求を3倍に減らし、計算のオーバーヘッドは9-16%である。
同じ計算コストで、MONeTは現在の最先端の自動チェックポイントフレームワークよりも1.2-1.8倍少ないメモリを必要とする。
私たちのコードはhttps://github.com/utsaslab/MONeT.comで利用可能です。
関連論文リスト
- Cut Your Losses in Large-Vocabulary Language Models [102.6981011879656]
我々は,全トークンのロジットをグローバルメモリに実体化することなく,クロスエントロピー損失を計算する手法であるカットクロスエントロピー(CCE)を提案する。
CCEはロスのメモリフットプリントを24GBから1MBに減らし、ヘッドのトレーニング時間のメモリ消費を28GBから1GBに短縮する。
論文 参考訳(メタデータ) (2024-11-13T20:30:15Z) - Less Memory Means smaller GPUs: Backpropagation with Compressed Activations [1.7065506903618906]
深層ニューラルネットワーク(DNN)の規模は、計算リソースの要件が等しく急速に増大している。
最近の多くのアーキテクチャ、特にLarge Language Modelsは、何千ものアクセラレーターを持つスーパーコンピュータを使って訓練されなければならない。
このアプローチにより、より長いトレーニングスケジュールのコストで、ピークメモリ使用量を29%削減することが可能になります。
論文 参考訳(メタデータ) (2024-09-18T11:57:05Z) - vTensor: Flexible Virtual Tensor Management for Efficient LLM Serving [53.972175896814505]
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
大規模言語モデル(LLM)は様々なドメインで広く使われ、数百万の日次要求を処理する。
論文 参考訳(メタデータ) (2024-07-22T14:37:58Z) - Compute Better Spent: Replacing Dense Layers with Structured Matrices [77.61728033234233]
画像領域における畳み込みネットワークの成功が示すように、高密度行列に対するより効率的な代替手段を同定する。
異なる構造は、しばしばパフォーマンスに不可欠な、非常に異なる初期化尺度と学習率を必要とする。
本稿では,モナール行列を含む新しい行列族Block-Trainを提案する。
論文 参考訳(メタデータ) (2024-06-10T13:25:43Z) - AI and Memory Wall [81.06494558184049]
メモリ帯域幅がデコーダモデルの主要なボトルネックとなることを示す。
私たちは、このメモリ制限を克服するためのモデルアーキテクチャ、トレーニング、デプロイメント戦略の再設計を主張します。
論文 参考訳(メタデータ) (2024-03-21T04:31:59Z) - MCUNetV2: Memory-Efficient Patch-based Inference for Tiny Deep Learning [72.80896338009579]
メモリボトルネックは畳み込みニューラルネットワーク(CNN)の設計における不均衡なメモリ分布に起因する。
本稿では,ピークメモリを大幅に削減するパッチ・バイ・パッチ・推論スケジューリングを提案する。
ニューラルアーキテクチャサーチによるプロセスを自動化し、ニューラルアーキテクチャと推論スケジューリングを共同で最適化し、MCUNetV2に導いた。
論文 参考訳(メタデータ) (2021-10-28T17:58:45Z) - Efficient and Generic 1D Dilated Convolution Layer for Deep Learning [52.899995651639436]
幅広いパラメータをカバーする汎用的な1D畳み込み層の効率的な実装を紹介します。
特にIntel AVX-512とAVX-512 BFloat16命令を含むアーキテクチャ向けに最適化されている。
本稿では,最適化された1次元畳み込み層の性能を,実際のゲノミクスデータセットを用いたエンドツーエンドニューラルネットワークトレーニングで実証する。
論文 参考訳(メタデータ) (2021-04-16T09:54:30Z) - Out-of-core Training for Extremely Large-Scale Neural Networks With
Adaptive Window-Based Scheduling [4.903820815918411]
本稿では,GPUメモリよりも大容量の超大規模ニューラルネットワークを高速にトレーニングする,新しいアウトオブコアアルゴリズムを提案する。
我々は、コア外実行によるニューラルネットワークのトレーニングに、OSで一般的に実行される仮想アドレッシング技術を適用した。
ResNet-50を1440バッチサイズでトレーニングし、トレーニング速度を55%に保ちました。
論文 参考訳(メタデータ) (2020-10-27T07:40:04Z) - Improving compute efficacy frontiers with SliceOut [31.864949424541344]
SliceOut - 最終テスト精度に影響を与えることなく、ディープラーニングモデルを高速にトレーニングするためのドロップアウトインスパイアされたスキームだ。
テスト時に、SliceOutをオフにすると、テストの正確性を保持する一連のアーキテクチャに暗黙のアンサンブルが実行される。
これにより、大規模な計算ワークロード全体の処理が高速化され、結果として生じるエネルギー消費とCO2エミッションが大幅に削減される。
論文 参考訳(メタデータ) (2020-07-21T15:59:09Z) - Efficient Neural Network Deployment for Microcontroller [0.0]
本稿では,マイクロコントローラのための畳み込みニューラルネットワークの展開を探索し,一般化する。
メモリの節約と性能は、ARM Cortex-M CPU用に開発されたCMSIS-NNフレームワークと比較される。
最終的な目的は、トレーニングされたネットワーク重みを持つPyTorchモデルを消費するツールを開発することであり、低メモリ(キロバイトレベル)と限られた計算能力を持つマイクロコントローラのためにC/C++で最適化された推論エンジンとなる。
論文 参考訳(メタデータ) (2020-07-02T19:21:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。