論文の概要: Baechi: Fast Device Placement of Machine Learning Graphs
- arxiv url: http://arxiv.org/abs/2301.08695v1
- Date: Fri, 20 Jan 2023 17:26:37 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-23 12:55:12.215855
- Title: Baechi: Fast Device Placement of Machine Learning Graphs
- Title(参考訳): Baechi: マシンラーニンググラフの高速デバイス配置
- Authors: Beomyeol Jeon, Linda Cai, Chirag Shetty, Pallavi Srivastava, Jintao
Jiang, Xiaolan Ke, Yitao Meng, Cong Xie, Indranil Gupta
- Abstract要約: Baechiは、メモリ制限されたデバイスの小さなクラスタ上で機械学習トレーニンググラフを実行する際の配置問題に対するアルゴリズム的なアプローチである。
我々は,Baechiが最先端の学習ベースアプローチよりも高速な配置計画654~206Kを生成することを示す。
- 参考スコア(独自算出の注目度): 9.84070412468401
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Machine Learning graphs (or models) can be challenging or impossible to train
when either devices have limited memory, or models are large. To split the
model across devices, learning-based approaches are still popular. While these
result in model placements that train fast on data (i.e., low step times),
learning-based model-parallelism is time-consuming, taking many hours or days
to create a placement plan of operators on devices. We present the Baechi
system, the first to adopt an algorithmic approach to the placement problem for
running machine learning training graphs on small clusters of
memory-constrained devices. We integrate our implementation of Baechi into two
popular open-source learning frameworks: TensorFlow and PyTorch. Our
experimental results using GPUs show that: (i) Baechi generates placement plans
654 X - 206K X faster than state-of-the-art learning-based approaches, and (ii)
Baechi-placed model's step (training) time is comparable to expert placements
in PyTorch, and only up to 6.2% worse than expert placements in TensorFlow. We
prove mathematically that our two algorithms are within a constant factor of
the optimal. Our work shows that compared to learning-based approaches,
algorithmic approaches can face different challenges for adaptation to Machine
learning systems, but also they offer proven bounds, and significant
performance benefits.
- Abstract(参考訳): マシンラーニンググラフ(あるいはモデル)は、メモリが限られているデバイスやモデルが大きい場合、トレーニングが困難あるいは不可能になる可能性がある。
モデルをデバイスに分割するために、学習ベースのアプローチは依然として人気がある。
これらは、データ(例えば、低ステップ時間)で高速にトレーニングするモデル配置をもたらすが、学習ベースのモデル並列処理は時間がかかり、デバイス上のオペレーターの配置計画を作成するのに何時間、数日もかかる。
本稿では,メモリ制約の小さなデバイスクラスタ上で機械学習学習グラフを実行するための配置問題に対するアルゴリズム的アプローチを最初に導入したBaechiシステムを提案する。
Baechiの実装を、TensorFlowとPyTorchという2つの人気のあるオープンソースの学習フレームワークに統合しています。
gpuを用いた実験結果はこう示しています
(i)Baechiは、最先端の学習ベースアプローチよりも高速な配置計画654X-206KXを生成し、
(ii) baechi-placed modelのステップ(トレーニング)時間はpytorchのエキスパート配置に匹敵する。
2つのアルゴリズムが最適の定数係数内にあることを数学的に証明する。
私たちの研究は、学習ベースのアプローチと比較して、アルゴリズム的アプローチは機械学習システムに適応するためのさまざまな課題に直面することができることを示しています。
関連論文リスト
- Structured Cooperative Learning with Graphical Model Priors [98.53322192624594]
ローカルデータに制限のある分散デバイス上で、さまざまなタスクに対してパーソナライズされたモデルをトレーニングする方法を研究する。
本稿では,デバイス間の協調グラフをグラフィカルモデルにより生成する「構造化協調学習(SCooL)」を提案する。
SCooLを評価し,既存の分散学習手法と比較した。
論文 参考訳(メタデータ) (2023-06-16T02:41:31Z) - Performance and Energy Consumption of Parallel Machine Learning
Algorithms [0.0]
機械学習モデルは、様々な現実世界のアプリケーションで顕著な成功を収めた。
機械学習のモデルトレーニングには、大規模データセットと複数のイテレーションが必要である。
トレーニングアルゴリズムの並列化は、トレーニングのプロセスを高速化するための一般的な戦略である。
論文 参考訳(メタデータ) (2023-05-01T13:04:39Z) - Partitioning Distributed Compute Jobs with Reinforcement Learning and
Graph Neural Networks [58.720142291102135]
大規模な機械学習モデルは、幅広い分野に進歩をもたらしている。
これらのモデルの多くは、単一のマシンでトレーニングするには大きすぎるため、複数のデバイスに分散する必要がある。
スループットやブロッキングレートといったユーザクリティカルな指標に対して,並列化の最大化が準最適であることを示す。
論文 参考訳(メタデータ) (2023-01-31T17:41:07Z) - EfficientTrain: Exploring Generalized Curriculum Learning for Training
Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。
オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文 参考訳(メタデータ) (2022-11-17T17:38:55Z) - Learning to Optimize Permutation Flow Shop Scheduling via Graph-based
Imitation Learning [70.65666982566655]
置換フローショップスケジューリング(PFSS)は製造業で広く使われている。
我々は,より安定かつ正確に収束を加速する専門家主導の模倣学習を通じてモデルを訓練することを提案する。
我々のモデルのネットワークパラメータはわずか37%に減少し、エキスパートソリューションに対する我々のモデルの解のギャップは平均6.8%から1.3%に減少する。
論文 参考訳(メタデータ) (2022-10-31T09:46:26Z) - Benchmarking Learning Efficiency in Deep Reservoir Computing [23.753943709362794]
我々は、機械学習モデルがトレーニングデータからいかに早く学習するかを測定するために、データ効率の指標とともに、ますます困難なタスクのベンチマークを導入する。
我々は、RNN、LSTM、Transformersなどの確立された逐次教師付きモデルの学習速度を、貯水池計算に基づく比較的知られていない代替モデルと比較する。
論文 参考訳(メタデータ) (2022-09-29T08:16:52Z) - FastHebb: Scaling Hebbian Training of Deep Neural Networks to ImageNet
Level [7.410940271545853]
我々は、Hebbian学習のための効率的でスケーラブルなソリューションであるFastHebbを紹介する。
FastHebbはトレーニングのスピードで、これまでのソリューションを最大50倍のパフォーマンスで上回っている。
私たちは初めて、HebbianアルゴリズムをImageNetスケールに持ち込むことができます。
論文 参考訳(メタデータ) (2022-07-07T09:04:55Z) - Accelerating Machine Learning Training Time for Limit Order Book
Prediction [0.0]
金融機関は、金融機械学習を含む特定のアルゴリズムが利益を上げられるかどうかを知るためのシミュレーションに興味を持っている。
このタスクでは、ハードウェアアクセラレーションにより、ファイナンシャル機械学習研究者が結果を得るのに必要な時間を短縮することが期待されている。
株式市場の方向性を予測するためのリミットオーダーブックアルゴリズムが我々の課題であり、機械学習のトレーニングプロセスは時間を要する可能性がある。
調査された構成では、これによりトレーニング時間が大幅に短縮され、より効率的で広範なモデル開発が可能になる。
論文 参考訳(メタデータ) (2022-06-17T22:52:56Z) - Building a Performance Model for Deep Learning Recommendation Model
Training on GPUs [6.05245376098191]
我々は、ディープラーニング勧告モデル(DLRM)のGPUトレーニングのためのパフォーマンスモデルを作成する。
デバイスアクティブ時間(カーネルランタイムの総和)とデバイスアイドル時間の両方が、デバイスタイム全体の重要なコンポーネントであることを示す。
本稿では,その実行グラフをトラバースすることで,DLRMのバッチごとのトレーニング時間を予測できるクリティカルパスベースのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-01-19T19:05:42Z) - Efficient Device Scheduling with Multi-Job Federated Learning [64.21733164243781]
本稿では,複数のジョブの並列学習プロセスを実現するための,新しいマルチジョブフェデレーション学習フレームワークを提案する。
コストを最小化しつつ、複数のジョブに対してデバイスをスケジュールする強化学習法とベイズ最適化法を提案する。
提案手法は,トレーニング時間(最大8.67倍高速)と精度(最大44.6%高)において,ベースラインアプローチよりも有意に優れていた。
論文 参考訳(メタデータ) (2021-12-11T08:05:11Z) - Rethinking Few-Shot Image Classification: a Good Embedding Is All You
Need? [72.00712736992618]
メタトレーニングセット上で教師付きあるいは自己教師型表現を学習する単純なベースラインが、最先端の数ショット学習方法より優れていることを示す。
追加の増量は自己蒸留によって達成できる。
我々は,この発見が,画像分類ベンチマークとメタ学習アルゴリズムの役割を再考する動機となっていると考えている。
論文 参考訳(メタデータ) (2020-03-25T17:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。