Fugu-MT 論文翻訳(概要): A Dynamic Weighting Strategy to Mitigate Worker Node Failure in Distributed Deep Learning

論文の概要: A Dynamic Weighting Strategy to Mitigate Worker Node Failure in Distributed Deep Learning

arxiv url: http://arxiv.org/abs/2409.09242v1
Date: Sat, 14 Sep 2024 00:46:51 GMT
ステータス: 翻訳完了
システム内更新日: 2024-09-17 21:49:17.236477
Title: A Dynamic Weighting Strategy to Mitigate Worker Node Failure in Distributed Deep Learning
Title（参考訳）: 分散ディープラーニングにおける作業ノード障害軽減のための動的重み付け戦略
Authors: Yuesheng Xu, Arielle Carr,
Abstract要約: 本稿では分散ディープラーニングにおける様々な最適化手法について検討する。本稿では,障害によるトラグラーノードの問題を軽減するための動的重み付け手法を提案する。
参考スコア（独自算出の注目度）: 3.0468273116892752
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The increasing complexity of deep learning models and the demand for processing vast amounts of data make the utilization of large-scale distributed systems for efficient training essential. These systems, however, face significant challenges such as communication overhead, hardware limitations, and node failure. This paper investigates various optimization techniques in distributed deep learning, including Elastic Averaging SGD (EASGD) and the second-order method AdaHessian. We propose a dynamic weighting strategy to mitigate the problem of straggler nodes due to failure, enhancing the performance and efficiency of the overall training process. We conduct experiments with different numbers of workers and communication periods to demonstrate improved convergence rates and test performance using our strategy.
Abstract（参考訳）: ディープラーニングモデルの複雑さの増大と大量のデータ処理の需要により、大規模分散システムを効率的なトレーニングに活用することが不可欠である。しかし、これらのシステムは通信のオーバーヘッド、ハードウェアの制限、ノードの障害といった重大な課題に直面している。本稿では,AdaHessian法とAESGD(Elastic Averaging SGD)を含む分散ディープラーニングにおける最適化手法について検討する。本稿では,トラグラーノードの故障による問題を軽減するための動的重み付け手法を提案する。我々は,作業者数とコミュニケーション期間の異なる実験を行い,コンバージェンス率の向上と,我々の戦略を用いたテスト性能の実証を行った。

関連論文リスト

Rethinking the Role of Dynamic Sparse Training for Scalable Deep Reinforcement Learning [58.533203990515034]
ニューラルネットワークのスケーリングは機械学習における画期的な進歩をもたらしたが、このパラダイムは深層強化学習(DRL)では失敗している。我々は、動的スパーストレーニング戦略が、アーキテクチャの改善によって確立された主要なスケーラビリティ基盤を補完するモジュール固有の利点を提供することを示す。アーキテクチャ改善の利点を生かした実践的なフレームワークであるModule-Specific Training (MST) にこれらの知見を精査し、アルゴリズムの修正なしに様々なRLアルゴリズムをまたいだ大幅なスケーラビリティ向上を示す。
論文参考訳（メタデータ） (2025-10-14T03:03:08Z)
Distributed Deep Learning using Stochastic Gradient Staleness [4.254099382808598]
高性能ディープニューラルネットワーク(DNN)は、ますます深くなり、広範なトレーニングデータセットを必要とする傾向にある。本稿では,データ並列性と完全に分離された並列バックプロパゲーションアルゴリズムを統合する分散トレーニング手法を提案する。
論文参考訳（メタデータ） (2025-09-06T11:05:40Z)
Scaling DRL for Decision Making: A Survey on Data, Network, and Training Budget Strategies [66.83950068218033]
スケーリング法則は、モデルのパラメータとトレーニングデータによって学習のパフォーマンスが向上することを示している。性能向上の可能性にもかかわらず、スケーリング法則を深層強化学習に統合することは、完全には実現されていない。本稿では,データ,ネットワーク,トレーニング予算という3次元のスケーリング戦略を体系的に分析することによって,このギャップに対処する。
論文参考訳（メタデータ） (2025-08-05T08:03:12Z)
Dynamic Loss-Based Sample Reweighting for Improved Large Language Model Pretraining [55.262510814326035]
既存のリウェイト戦略は主にグループレベルのデータの重要性に焦点を当てている。動的・インスタンスレベルのデータ再重み付けのための新しいアルゴリズムを提案する。当社のフレームワークでは,冗長データや非形式データを優先的に再重み付けする戦略を考案することが可能です。
論文参考訳（メタデータ） (2025-02-10T17:57:15Z)
A Survey on Inference Optimization Techniques for Mixture of Experts Models [50.40325411764262]
大規模Mixture of Experts(MoE)モデルは、条件計算によるモデル容量と計算効率の向上を提供する。これらのモデル上で推論をデプロイし実行することは、計算資源、レイテンシ、エネルギー効率において大きな課題を示す。本調査では,システムスタック全体にわたるMoEモデルの最適化手法について分析する。
論文参考訳（メタデータ） (2024-12-18T14:11:15Z)
Adversarial Learning for Neural PDE Solvers with Sparse Data [4.226449585713182]
本研究では,ロバストトレーニングのためのシステムモデル拡張(Systematic Model Augmentation for Robust Training)という,ニューラルネットワークPDEの普遍的学習戦略を紹介する。モデルの弱点に挑戦し改善することに集中することにより、SMARTはデータスカース条件下でのトレーニング中の一般化エラーを低減する。
論文参考訳（メタデータ） (2024-09-04T04:18:25Z)
Contrastive-Adversarial and Diffusion: Exploring pre-training and fine-tuning strategies for sulcal identification [3.0398616939692777]
対人学習、コントラスト学習、拡散認知学習、通常の再構成学習といった技術が標準となっている。この研究は、ニューラルネットワークの学習プロセスを強化するために、事前学習技術と微調整戦略の利点を解明することを目的としている。
論文参考訳（メタデータ） (2024-05-29T15:44:51Z)
Overcoming Catastrophic Forgetting by Exemplar Selection in Task-oriented Dialogue System [34.1424535903384]
知的タスク指向対話システム(ToD)における忘れ課題の克服を目指す。本稿では, 周期的再学習に有効な経験則を抽出する手法(HESIT)を提案する。実験結果から,HESITは異常な選択によって破滅的な忘れを効果的に軽減し,ToDsの最大のCLベンチマークで最先端の性能を達成することが示された。
論文参考訳（メタデータ） (2024-05-16T10:54:46Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
Diffusion-Based Neural Network Weights Generation [80.89706112736353]
D2NWGは拡散に基づくニューラルネットワーク重み生成技術であり、転送学習のために高性能な重みを効率よく生成する。本稿では,ニューラルネットワーク重み生成のための遅延拡散パラダイムを再放送するために,生成的ハイパー表現学習を拡張した。我々のアプローチは大規模言語モデル(LLM)のような大規模アーキテクチャにスケーラブルであり、現在のパラメータ生成技術の限界を克服しています。
論文参考訳（メタデータ） (2024-02-28T08:34:23Z)
Dynamic Sparse Learning: A Novel Paradigm for Efficient Recommendation [20.851925464903804]
本稿では,リコメンデーションモデルに適した新しい学習パラダイムであるDynamic Sparse Learningを紹介する。 DSLは革新的に、スクラッチから軽量スパースモデルをトレーニングし、各ウェイトの重要性を定期的に評価し、動的に調整する。実験結果は、DSLの有効性を裏付け、トレーニングと推論のコストを大幅に削減し、同等のレコメンデーションパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-02-05T10:16:20Z)
A Multi-Head Ensemble Multi-Task Learning Approach for Dynamical Computation Offloading [62.34538208323411]
共有バックボーンと複数の予測ヘッド(PH)を組み合わせたマルチヘッドマルチタスク学習(MEMTL)手法を提案する。 MEMTLは、追加のトレーニングデータを必要とせず、推測精度と平均平方誤差の両方でベンチマーク手法より優れている。
論文参考訳（メタデータ） (2023-09-02T11:01:16Z)
Solving Large-scale Spatial Problems with Convolutional Neural Networks [88.31876586547848]
大規模空間問題に対する学習効率を向上させるために移動学習を用いる。畳み込みニューラルネットワーク (CNN) は, 信号の小さな窓で訓練できるが, 性能劣化の少ない任意の大信号で評価できる。
論文参考訳（メタデータ） (2023-06-14T01:24:42Z)
Implicit Stochastic Gradient Descent for Training Physics-informed Neural Networks [51.92362217307946]
物理インフォームドニューラルネットワーク(PINN)は、前方および逆微分方程式問題の解法として効果的に実証されている。 PINNは、近似すべきターゲット関数が高周波またはマルチスケールの特徴を示す場合、トレーニング障害に閉じ込められる。本稿では,暗黙的勾配降下法(ISGD)を用いてPINNを訓練し,トレーニングプロセスの安定性を向上させることを提案する。
論文参考訳（メタデータ） (2023-03-03T08:17:47Z)
Hybrid Learning for Orchestrating Deep Learning Inference in Multi-user Edge-cloud Networks [3.7630209350186807]
ディープラーニングのためのコラボレーション型のエッジクラウドコンピューティングは、さまざまなパフォーマンスと効率を提供する。ディープラーニング推論オーケストレーション戦略では、最適なオーケストレーションポリシを見つけるために強化学習を採用している。我々は、最先端のRLベースの推論オーケストレーションを実験的に比較することで、HL戦略の有効性を実証する。
論文参考訳（メタデータ） (2022-02-21T21:50:50Z)
Quasi-Global Momentum: Accelerating Decentralized Deep Learning on Heterogeneous Data [77.88594632644347]
ディープラーニングモデルの分散トレーニングは、ネットワーク上でデータプライバシとデバイス上での学習を可能にする重要な要素である。現実的な学習シナリオでは、異なるクライアントのローカルデータセットに異質性が存在することが最適化の課題となる。本稿では,この分散学習の難しさを軽減するために,運動量に基づく新しい手法を提案する。
論文参考訳（メタデータ） (2021-02-09T11:27:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。