論文の概要: Benchmarking Resource Usage for Efficient Distributed Deep Learning
- arxiv url: http://arxiv.org/abs/2201.12423v1
- Date: Fri, 28 Jan 2022 21:24:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-04 11:36:10.794227
- Title: Benchmarking Resource Usage for Efficient Distributed Deep Learning
- Title(参考訳): 効率的な分散ディープラーニングのためのリソース利用ベンチマーク
- Authors: Nathan C. Frey, Baolin Li, Joseph McDonald, Dan Zhao, Michael Jones,
David Bestor, Devesh Tiwari, Vijay Gadepally, Siddharth Samsi
- Abstract要約: さまざまなドメイン/タスクを表すディープネットワークの配列をトレーニングする3,400以上の実験を行います。
私たちは、トレーニング時間が利用可能な計算リソースとエネルギー制約とどのようにスケールするかを記述するパワーローモデルに適合します。
- 参考スコア(独自算出の注目度): 10.869092085691687
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning (DL) workflows demand an ever-increasing budget of compute and
energy in order to achieve outsized gains. Neural architecture searches,
hyperparameter sweeps, and rapid prototyping consume immense resources that can
prevent resource-constrained researchers from experimenting with large models
and carry considerable environmental impact. As such, it becomes essential to
understand how different deep neural networks (DNNs) and training leverage
increasing compute and energy resources -- especially specialized
computationally-intensive models across different domains and applications.
In this paper, we conduct over 3,400 experiments training an array of deep
networks representing various domains/tasks -- natural language processing,
computer vision, and chemistry -- on up to 424 graphics processing units
(GPUs). During training, our experiments systematically vary compute resource
characteristics and energy-saving mechanisms such as power utilization and GPU
clock rate limits to capture and illustrate the different trade-offs and
scaling behaviors each representative model exhibits under various resource and
energy-constrained regimes. We fit power law models that describe how training
time scales with available compute resources and energy constraints. We
anticipate that these findings will help inform and guide high-performance
computing providers in optimizing resource utilization, by selectively reducing
energy consumption for different deep learning tasks/workflows with minimal
impact on training.
- Abstract(参考訳): ディープラーニング(DL)ワークフローは、はるかに大きな利益を達成するために、計算とエネルギーの予算を継続的に増やすことを要求する。
ニューラルネットワークの検索、ハイパーパラメータスイープ、ラピッドプロトタイピングは大量のリソースを消費し、リソース制約のある研究者が大規模なモデルの実験を行なわず、環境への影響も大きい。
そのため、ディープニューラルネットワーク(DNN)とトレーニングの違いが、計算資源とエネルギー資源の増大をどのように活用するかを理解することが不可欠である。
本稿では,最大424のグラフィックス処理ユニット(GPU)上で,さまざまなドメイン/タスク(自然言語処理,コンピュータビジョン,化学)を表すディープネットワークの配列を3,400以上の実験を行った。
実験では,計算資源特性と電力利用やgpuクロックレート制限などの省エネ機構を系統的に変化させ,各代表モデルが様々な資源・エネルギー制約条件下で提示するトレードオフやスケーリング行動の把握と説明を行う。
トレーニング時間が利用可能な計算資源とエネルギー制約によってどのようにスケールするかを記述する、パワーローモデルに適合します。
これらの知見は,各種ディープラーニングタスク/ワークフローのエネルギー消費を,トレーニングへの影響を最小限に抑えて選択的に削減し,資源利用の最適化において,高性能コンピューティングプロバイダに情報提供と指導を支援することを期待する。
関連論文リスト
- Mechanistic Neural Networks for Scientific Machine Learning [58.99592521721158]
我々は、科学における機械学習応用のためのニューラルネットワーク設計であるメカニスティックニューラルネットワークを提案する。
新しいメカニスティックブロックを標準アーキテクチャに組み込んで、微分方程式を表現として明示的に学習する。
我々のアプローチの中心は、線形プログラムを解くために線形ODEを解く技術に着想を得た、新しい線形計画解法(NeuRLP)である。
論文 参考訳(メタデータ) (2024-02-20T15:23:24Z) - A Review of Deep Reinforcement Learning in Serverless Computing:
Function Scheduling and Resource Auto-Scaling [2.0722667822370386]
本稿では、サーバーレスコンピューティングにおけるDeep Reinforcement Learning(DRL)技術の適用について、包括的なレビューを行う。
DRLをサーバレスコンピューティングに適用する最近の研究の体系的なレビューが、さまざまなアルゴリズム、モデル、パフォーマンスについて紹介されている。
分析の結果,DRLは環境から学習・適応する能力を有しており,機能スケジューリングと資源スケーリングの効率化に期待できる結果が得られた。
論文 参考訳(メタデータ) (2023-10-05T09:26:04Z) - Computation-efficient Deep Learning for Computer Vision: A Survey [121.84121397440337]
ディープラーニングモデルは、さまざまな視覚的知覚タスクにおいて、人間レベルのパフォーマンスに到達または超えた。
ディープラーニングモデルは通常、重要な計算資源を必要とし、現実のシナリオでは非現実的な電力消費、遅延、または二酸化炭素排出量につながる。
新しい研究の焦点は計算効率のよいディープラーニングであり、推論時の計算コストを最小限に抑えつつ、良好な性能を達成することを目指している。
論文 参考訳(メタデータ) (2023-08-27T03:55:28Z) - A Theoretical Perspective of Machine Learning with Computational
Resource Concerns [65.268245109828]
本稿では,学習理論における計算資源の影響を考慮した理論的枠組みを提案する。
ストリーム学習には自然に適用でき、受信したデータストリームは、圧倒的なサイズで無限に終了する可能性がある。
これはまた、インテリジェントなスーパーコンピュータオペレーティングシステムの設計に対する理論的視点を提供するかもしれない。
論文 参考訳(メタデータ) (2023-05-03T15:54:23Z) - Sustainable AIGC Workload Scheduling of Geo-Distributed Data Centers: A
Multi-Agent Reinforcement Learning Approach [48.18355658448509]
生成的人工知能の最近の進歩は、機械学習トレーニングの需要が急増し、エネルギー消費の大幅な増加によるコスト負担と環境問題を引き起こしている。
地理的に分散したクラウドデータセンタ間でのトレーニングジョブのスケジューリングは、安価で低炭素エネルギーのコンピューティング能力の使用を最適化する機会を浮き彫りにする。
本研究では,実生活におけるワークロードパターン,エネルギー価格,炭素強度を組み込んだクラウドシステムと対話することで,マルチエージェント強化学習とアクタクリティカルな手法に基づく最適協調スケジューリング戦略の学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-04-17T02:12:30Z) - Operating critical machine learning models in resource constrained
regimes [0.18416014644193066]
本研究では,資源消費とディープラーニングモデルの性能のトレードオフについて検討する。
ディープラーニングモデルは、クリニックのようなクリティカルな環境で使用される。
論文 参考訳(メタデータ) (2023-03-17T12:02:08Z) - Energy Efficiency of Training Neural Network Architectures: An Empirical
Study [11.325530936177493]
ディープラーニングモデルの評価は、伝統的に精度、F1スコア、関連する指標などの基準に焦点を当ててきた。
このようなモデルを訓練するために必要な計算は、大きな炭素フットプリントを必要とする。
本研究では, DLモデルアーキテクチャと環境影響との関係を, エネルギー消費の観点から検討した。
論文 参考訳(メタデータ) (2023-02-02T09:20:54Z) - Power Modeling for Effective Datacenter Planning and Compute Management [53.41102502425513]
我々は,すべてのハードウェア構成とワークロードに適用可能な,正確でシンプルで解釈可能な統計パワーモデルの設計と検証の2つのクラスについて論じる。
提案された統計的モデリング手法は, 単純かつスケーラブルでありながら, 4つの特徴のみを用いて, 95% 以上の多様な配電ユニット (2000 以上) に対して, 5% 未満の絶対パーセンテージエラー (MAPE) で電力を予測できることを実証した。
論文 参考訳(メタデータ) (2021-03-22T21:22:51Z) - Sparsity in Deep Learning: Pruning and growth for efficient inference
and training in neural networks [78.47459801017959]
Sparsityは、モバイル機器に適合する通常のネットワークのメモリフットプリントを減らすことができる。
ニューラルネットワークの要素を除去および追加するためのアプローチ、モデルの疎性を達成するための異なるトレーニング戦略、実際に疎性を利用するメカニズムについて説明する。
論文 参考訳(メタデータ) (2021-01-31T22:48:50Z) - Resource-Efficient Neural Networks for Embedded Systems [33.378784455191756]
私たちは、過去10年で主要な機械学習モデルであるディープニューラルネットワーク(DNN)に注目しています。
i) 量子化されたニューラルネットワーク, (ii) ネットワークプルーニング, (iii) 構造効率の3つの非相互排他的なカテゴリに分けることができる。
資源制約された組込みシステムに対する圧縮技術(量子化, プルーニング)を用いて、よく知られたベンチマークデータセットの実験により、我々の議論を裏付ける。
論文 参考訳(メタデータ) (2020-01-07T14:17:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。