論文の概要: Distributed Training and Optimization Of Neural Networks
- arxiv url: http://arxiv.org/abs/2012.01839v2
- Date: Fri, 15 Jan 2021 14:24:22 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-23 22:48:11.980464
- Title: Distributed Training and Optimization Of Neural Networks
- Title(参考訳): ニューラルネットワークの分散トレーニングと最適化
- Authors: Jean-Roch Vlimant, Junqi Yin
- Abstract要約: ディープラーニングモデルは、複数の要因のおかげで、ますますパフォーマンスが向上しています。
成功させるために、モデルは多数のパラメータや複雑なアーキテクチャを持ち、大きなデータセットでトレーニングされる。
これにより、コンピューティングリソースに対する大きな要求が生まれ、時間を振り返ることになります。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep learning models are yielding increasingly better performances thanks to
multiple factors. To be successful, model may have large number of parameters
or complex architectures and be trained on large dataset. This leads to large
requirements on computing resource and turn around time, even more so when
hyper-parameter optimization is done (e.g search over model architectures).
While this is a challenge that goes beyond particle physics, we review the
various ways to do the necessary computations in parallel, and put it in the
context of high energy physics.
- Abstract(参考訳): ディープラーニングモデルは、複数の要因のおかげで、パフォーマンスがますます向上しています。
成功させるために、モデルは多数のパラメータや複雑なアーキテクチャを持ち、大きなデータセットでトレーニングされる。
これにより、計算リソースの要求が大きくなり、さらにハイパーパラメータ最適化を行う場合(例えばモデルアーキテクチャを探索する)に時間を反転させる。
これは粒子物理学を超えた課題であるが、必要な計算を並列に行うための様々な方法をレビューし、それを高エネルギー物理学の文脈に配置する。
関連論文リスト
- Exploring the design space of deep-learning-based weather forecasting systems [56.129148006412855]
本稿では,異なる設計選択がディープラーニングに基づく天気予報システムに与える影響を系統的に分析する。
UNet、完全畳み込みアーキテクチャ、トランスフォーマーベースモデルなどの固定グリッドアーキテクチャについて検討する。
固定グリッドモデルの強靭な性能とグリッド不変アーキテクチャの柔軟性を組み合わせたハイブリッドシステムを提案する。
論文 参考訳(メタデータ) (2024-10-09T22:25:50Z) - Inference Optimization of Foundation Models on AI Accelerators [68.24450520773688]
トランスフォーマーアーキテクチャを備えた大規模言語モデル(LLM)を含む強力な基礎モデルは、ジェネレーティブAIの新たな時代を支えている。
モデルパラメータの数が数十億に達すると、実際のシナリオにおける推論コストと高いレイテンシーが排除される。
このチュートリアルでは、AIアクセラレータを用いた補完推論最適化テクニックに関する包括的な議論を行っている。
論文 参考訳(メタデータ) (2024-07-12T09:24:34Z) - On Optimizing Hyperparameters for Quantum Neural Networks [0.5999777817331317]
現在の最先端の機械学習モデルは、トレーニングに数週間を要する。
量子コンピューティング、特に量子機械学習(QML)は、理論的なスピードアップと強化されたパワーを提供する。
論文 参考訳(メタデータ) (2024-03-27T13:59:09Z) - Principled Architecture-aware Scaling of Hyperparameters [69.98414153320894]
高品質のディープニューラルネットワークをトレーニングするには、非自明で高価なプロセスである適切なハイパーパラメータを選択する必要がある。
本研究では,ネットワークアーキテクチャにおける初期化と最大学習率の依存性を正確に評価する。
ネットワークランキングは、ベンチマークのトレーニングネットワークにより容易に変更可能であることを実証する。
論文 参考訳(メタデータ) (2024-02-27T11:52:49Z) - Optimizing Dense Feed-Forward Neural Networks [0.0]
本稿では,プルーニングと移動学習に基づくフィードフォワードニューラルネットワークの構築手法を提案する。
提案手法では,パラメータ数を70%以上圧縮できる。
また、ニューラルネットワークをスクラッチからトレーニングしたモデルと元のモデルを比較し、トランスファー学習レベルを評価した。
論文 参考訳(メタデータ) (2023-12-16T23:23:16Z) - Gradual Optimization Learning for Conformational Energy Minimization [69.36925478047682]
ニューラルネットワークによるエネルギー最小化のためのGradual Optimization Learning Framework(GOLF)は、必要な追加データを大幅に削減する。
GOLFでトレーニングしたニューラルネットワークは,種々の薬物様分子のベンチマークにおいて,オラクルと同等に動作することを示す。
論文 参考訳(メタデータ) (2023-11-05T11:48:08Z) - Scaling Studies for Efficient Parameter Search and Parallelism for Large
Language Model Pre-training [2.875838666718042]
並列および分散機械学習アルゴリズムの開発,特に5個のエンコーダデコーダLLMのデータの処理と事前学習の最適化に着目する。
我々は3つのMLメソッド間の関係を定量化するための詳細な研究を行い、特にMicrosoft DeepSpeed Zero Redundancyのステージを探索した。
論文 参考訳(メタデータ) (2023-10-09T02:22:00Z) - Training Deep Surrogate Models with Large Scale Online Learning [48.7576911714538]
ディープラーニングアルゴリズムは、PDEの高速解を得るための有効な代替手段として登場した。
モデルは通常、ソルバによって生成された合成データに基づいてトレーニングされ、ディスクに格納され、トレーニングのために読み返される。
ディープサロゲートモデルのためのオープンソースのオンライントレーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-28T12:02:27Z) - Hyperparameter Tuning for Deep Reinforcement Learning Applications [0.3553493344868413]
本稿では,分散可変長遺伝的アルゴリズムを用いて,様々なRLアプリケーションに対してハイパーパラメータをチューニングする手法を提案する。
以上の結果から, より世代を要し, トレーニングエピソードが少なく, 計算コストも安価で, デプロイの堅牢性も高い最適解が得られた。
論文 参考訳(メタデータ) (2022-01-26T20:43:13Z) - Large-Scale Gradient-Free Deep Learning with Recursive Local
Representation Alignment [84.57874289554839]
大規模データセット上でディープニューラルネットワークをトレーニングするには、重要なハードウェアリソースが必要である。
これらのネットワークをトレーニングするためのワークホースであるバックプロパゲーションは、本質的に並列化が難しいシーケンシャルなプロセスである。
本稿では、深層ネットワークのトレーニングに使用できるバックプロップに代わる、神経生物学的に有望な代替手段を提案する。
論文 参考訳(メタデータ) (2020-02-10T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。