論文の概要: Clairvoyant Prefetching for Distributed Machine Learning I/O
- arxiv url: http://arxiv.org/abs/2101.08734v1
- Date: Thu, 21 Jan 2021 17:21:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-21 07:48:06.067863
- Title: Clairvoyant Prefetching for Distributed Machine Learning I/O
- Title(参考訳): Clairvoyant Prefetching for Distributed Machine Learning I/O
- Authors: Roman B\"ohringer, Nikoli Dryden, Tal Ben-Nun, Torsten Hoefler
- Abstract要約: I/Oは、特にクラウドやスーパーコンピュータのような分散環境において、機械学習トレーニングの大きなボトルネックとして現れています。
我々は、新しい機械学習I/O、HDMLPを作成し、I/Oボトルネックに取り組む。
HDMLPは、最先端のアプローチよりも優れたパフォーマンスを提供する、使いやすい、柔軟でスケーラブルなソリューションを提供します。
- 参考スコア(独自算出の注目度): 9.490118207943192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: I/O is emerging as a major bottleneck for machine learning training,
especially in distributed environments such as clouds and supercomputers.
Optimal data ingestion pipelines differ between systems, and increasing
efficiency requires a delicate balance between access to local storage,
external filesystems, and remote workers; yet existing frameworks fail to
efficiently utilize such resources. We observe that, given the seed generating
the random access pattern for training with SGD, we have clairvoyance and can
exactly predict when a given sample will be accessed. We combine this with a
theoretical analysis of access patterns in training and performance modeling to
produce a novel machine learning I/O middleware, HDMLP, to tackle the I/O
bottleneck. HDMLP provides an easy-to-use, flexible, and scalable solution that
delivers better performance than state-of-the-art approaches while requiring
very few changes to existing codebases and supporting a broad range of
environments.
- Abstract(参考訳): I/Oは、特にクラウドやスーパーコンピュータのような分散環境において、機械学習トレーニングの大きなボトルネックとして現れています。
最適なデータ取り込みパイプラインはシステムによって異なり、効率の向上にはローカルストレージ、外部ファイルシステム、リモートワーカーへのアクセスの微妙なバランスが必要となるが、既存のフレームワークではそのようなリソースを効率的に利用できない。
種子がsgdでトレーニングするためのランダムアクセスパターンを生成すると、我々は透視能力を持ち、与えられたサンプルがいつアクセスされるかを正確に予測できる。
トレーニングおよびパフォーマンスモデリングにおけるアクセスパターンの理論的分析と組み合わせて、新しい機械学習I/OミドルウェアであるHDMLPを作成し、I/Oボトルネックに取り組む。
HDMLPは使いやすく、フレキシブルでスケーラブルなソリューションを提供し、最先端のアプローチよりも優れたパフォーマンスを提供すると同時に、既存のコードベースにわずかな変更を必要とせず、幅広い環境をサポートする。
関連論文リスト
- TDML -- A Trustworthy Distributed Machine Learning Framework [7.302091381583343]
大規模モデル(LM)の急速な進歩は、計算資源の需要を増大させた。
この需要は、サプライチェーンの遅延と大手テック企業による独占的な買収により、可用性の限界によって悪化している。
本稿では、リモートトレーナーのコーディネートとワークロードの検証にガイダンスを活用する、テキスト信頼に値する分散機械学習(TDML)フレームワークを提案する。
論文 参考訳(メタデータ) (2024-07-10T03:22:28Z) - REFT: Resource-Efficient Federated Training Framework for Heterogeneous
and Resource-Constrained Environments [2.117841684082203]
分散システムでは、フェデレートラーニング(FL)が重要な役割を果たす。
FLは、機械学習のプライバシ強化サブドメインとして出現する。
我々は「不均一・資源制約環境のための資源効率の良いフェデレーション・トレーニング・フレームワーク」を提案する。
論文 参考訳(メタデータ) (2023-08-25T20:33:30Z) - In Situ Framework for Coupling Simulation and Machine Learning with
Application to CFD [51.04126395480625]
近年、流体力学計算を容易にする機械学習(ML)の多くの成功例が報告されている。
シミュレーションが大きくなるにつれて、従来のオフライン学習のための新しいトレーニングデータセットの生成は、I/Oとストレージのボトルネックを生み出します。
この作業は、この結合を単純化し、異種クラスタでのその場トレーニングと推論を可能にするソリューションを提供する。
論文 参考訳(メタデータ) (2023-06-22T14:07:54Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - SOLIS -- The MLOps journey from data acquisition to actionable insights [62.997667081978825]
本稿では,基本的なクロスプラットフォームテンソルフレームワークとスクリプト言語エンジンを使用しながら,すべての要件をサポートする統合デプロイメントパイプラインとフリー・ツー・オペレートアプローチを提案する。
しかし、このアプローチは、実際のプロダクショングレードシステムに機械学習機能を実際にデプロイするために必要な手順やパイプラインを提供していない。
論文 参考訳(メタデータ) (2021-12-22T14:45:37Z) - Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。
コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。
提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-11T08:05:11Z) - Automated Machine Learning Techniques for Data Streams [91.3755431537592]
本稿では、最先端のオープンソースAutoMLツールを調査し、ストリームから収集したデータに適用し、時間とともにパフォーマンスがどのように変化するかを測定する。
この結果から,既製のAutoMLツールで十分な結果が得られることが示されたが,概念ドリフトや検出,適応といった手法が適用されれば,予測精度を時間とともに維持することが可能になる。
論文 参考訳(メタデータ) (2021-06-14T11:42:46Z) - Edge-assisted Democratized Learning Towards Federated Analytics [67.44078999945722]
本稿では,エッジ支援型民主化学習機構であるEdge-DemLearnの階層的学習構造を示す。
また、Edge-DemLearnを柔軟なモデルトレーニングメカニズムとして検証し、リージョンに分散制御と集約の方法論を構築する。
論文 参考訳(メタデータ) (2020-12-01T11:46:03Z) - Deep Generative Models that Solve PDEs: Distributed Computing for
Training Large Data-Free Models [25.33147292369218]
科学機械学習(SciML)の最近の進歩は、複雑な偏微分方程式(PDE)を解く新しいニューラルネットワークアーキテクチャを訓練する可能性を開く。
本稿では、これらの大規模SciMLモデルをトレーニングする2つの課題を解決するために、データ並列分散ディープラーニングのためのソフトウェアフレームワークについて報告する。
私たちのフレームワークは、(a)プロセス数に依存しない損失整合性、(b)同期バッチ正規化、(c)分散高階最適化方法など、いくつかのアウトオブボックス機能を提供します。
論文 参考訳(メタデータ) (2020-07-24T22:42:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。