論文の概要: Benchmarking Resource Usage for Efficient Distributed Deep Learning
- arxiv url: http://arxiv.org/abs/2201.12423v1
- Date: Fri, 28 Jan 2022 21:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 11:36:10.794227
- Title: Benchmarking Resource Usage for Efficient Distributed Deep Learning
- Title(参考訳): 効率的な分散ディープラーニングのためのリソース利用ベンチマーク
- Authors: Nathan C. Frey, Baolin Li, Joseph McDonald, Dan Zhao, Michael Jones,
David Bestor, Devesh Tiwari, Vijay Gadepally, Siddharth Samsi
- Abstract要約: さまざまなドメイン/タスクを表すディープネットワークの配列をトレーニングする3,400以上の実験を行います。
私たちは、トレーニング時間が利用可能な計算リソースとエネルギー制約とどのようにスケールするかを記述するパワーローモデルに適合します。
- 参考スコア(独自算出の注目度): 10.869092085691687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) workflows demand an ever-increasing budget of compute and
energy in order to achieve outsized gains. Neural architecture searches,
hyperparameter sweeps, and rapid prototyping consume immense resources that can
prevent resource-constrained researchers from experimenting with large models
and carry considerable environmental impact. As such, it becomes essential to
understand how different deep neural networks (DNNs) and training leverage
increasing compute and energy resources -- especially specialized
computationally-intensive models across different domains and applications.
In this paper, we conduct over 3,400 experiments training an array of deep
networks representing various domains/tasks -- natural language processing,
computer vision, and chemistry -- on up to 424 graphics processing units
(GPUs). During training, our experiments systematically vary compute resource
characteristics and energy-saving mechanisms such as power utilization and GPU
clock rate limits to capture and illustrate the different trade-offs and
scaling behaviors each representative model exhibits under various resource and
energy-constrained regimes. We fit power law models that describe how training
time scales with available compute resources and energy constraints. We
anticipate that these findings will help inform and guide high-performance
computing providers in optimizing resource utilization, by selectively reducing
energy consumption for different deep learning tasks/workflows with minimal
impact on training.
- Abstract(参考訳): ディープラーニング(DL)ワークフローは、はるかに大きな利益を達成するために、計算とエネルギーの予算を継続的に増やすことを要求する。
ニューラルネットワークの検索、ハイパーパラメータスイープ、ラピッドプロトタイピングは大量のリソースを消費し、リソース制約のある研究者が大規模なモデルの実験を行なわず、環境への影響も大きい。
そのため、ディープニューラルネットワーク(DNN)とトレーニングの違いが、計算資源とエネルギー資源の増大をどのように活用するかを理解することが不可欠である。
本稿では,最大424のグラフィックス処理ユニット(GPU)上で,さまざまなドメイン/タスク(自然言語処理,コンピュータビジョン,化学)を表すディープネットワークの配列を3,400以上の実験を行った。
実験では,計算資源特性と電力利用やgpuクロックレート制限などの省エネ機構を系統的に変化させ,各代表モデルが様々な資源・エネルギー制約条件下で提示するトレードオフやスケーリング行動の把握と説明を行う。
トレーニング時間が利用可能な計算資源とエネルギー制約によってどのようにスケールするかを記述する、パワーローモデルに適合します。
これらの知見は,各種ディープラーニングタスク/ワークフローのエネルギー消費を,トレーニングへの影響を最小限に抑えて選択的に削減し,資源利用の最適化において,高性能コンピューティングプロバイダに情報提供と指導を支援することを期待する。
関連論文リスト
- ssProp: Energy-Efficient Training for Convolutional Neural Networks with Scheduled Sparse Back Propagation [4.77407121905745]
バックプロパゲーション(BP)は、ディープラーニングモデルをトレーニングする際の計算コストの主要な源泉である。
ディープラーニングアーキテクチャにシームレスに統合できる汎用的でエネルギー効率の良い畳み込みモジュールを提案する。
論文 参考訳(メタデータ) (2024-08-22T17:22:59Z) - Resource Allocation and Workload Scheduling for Large-Scale Distributed Deep Learning: A Survey [48.06362354403557]
本調査は,大規模分散DLの効率的な資源配分とワークロードスケジューリング戦略について,主に2019年から2024年までの文献を概説する。
トピックごとに重要な課題を強調し、既存の技術に関する重要な洞察について議論する。
この調査は、コンピュータ科学、人工知能、通信研究者が最近の進歩を理解することを奨励することを目的としている。
論文 参考訳(メタデータ) (2024-06-12T11:51:44Z) - Investigation of Energy-efficient AI Model Architectures and Compression Techniques for "Green" Fetal Brain Segmentation [42.52549987351643]
医療画像における胎児脳のセグメンテーションは、胎児の脳の大きさが小さく、高速な2次元配列の画質が制限されているため困難である。
ディープニューラルネットワークはこの課題を克服するための有望な方法だ。
本研究の目的は,エネルギー効率を高めるモデルアーキテクチャと圧縮技術を検討することである。
論文 参考訳(メタデータ) (2024-04-03T15:11:53Z) - Mechanistic Neural Networks for Scientific Machine Learning [58.99592521721158]
我々は、科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークを提案する。
新しいメカニスティックブロックを標準アーキテクチャに組み込んで、微分方程式を表現として明示的に学習する。
我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、新しい線形計画解法(NeuRLP)である。
論文 参考訳(メタデータ) (2024-02-20T15:23:24Z) - The Power of Training: How Different Neural Network Setups Influence the Energy Demand [5.526611783155303]
この研究は、機械学習のトレーニング体制と学習パラダイムのバリエーションがコンピューティングのエネルギー消費に与える影響、特にライフサイクルを考慮したHPCハードウェアに与える影響を評価する。
論文 参考訳(メタデータ) (2024-01-03T17:44:17Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - Learnability with Time-Sharing Computational Resource Concerns [65.268245109828]
本稿では,学習理論における計算資源の影響を考慮した理論的枠組みを提案する。
このフレームワークは、入ってくるデータストリームが潜在的に無限であるようなストリーム学習に自然に適用できる。
これはまた、インテリジェントなスーパーコンピュータオペレーティングシステムの設計に対する理論的視点を提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-03T15:54:23Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Resource-Efficient Neural Networks for Embedded Systems [23.532396005466627]
本稿では,機械学習技術の現状について概説する。
私たちは、過去10年で主要な機械学習モデルであるディープニューラルネットワーク(DNN)に基づく、リソース効率の高い推論に焦点を当てています。
我々は、圧縮技術を用いて、よく知られたベンチマークデータセットの実験で議論を裏付ける。
論文 参考訳(メタデータ) (2020-01-07T14:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。