論文の概要: Training Through Failure: Effects of Data Consistency in Parallel Machine Learning Training
- arxiv url: http://arxiv.org/abs/2406.05546v1
- Date: Sat, 8 Jun 2024 18:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 19:16:08.529546
- Title: Training Through Failure: Effects of Data Consistency in Parallel Machine Learning Training
- Title(参考訳): 失敗によるトレーニング:並列機械学習トレーニングにおけるデータ一貫性の効果
- Authors: Ray Cao, Sherry Luo, Steve Gan, Sujeeth Jinesh,
- Abstract要約: 本研究では,障害時の並列機械学習トレーニングにおけるデータ一貫性の緩和の影響について検討する。
私たちの障害復旧戦略には、従来のチェックポイント、チェーンレプリケーション、新しいステートレスパラメータサーバアプローチが含まれています。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this study, we explore the impact of relaxing data consistency in parallel machine learning training during a failure using various parameter server configurations. Our failure recovery strategies include traditional checkpointing, chain replication (which ensures a backup server takes over in case of failure), and a novel stateless parameter server approach. In the stateless approach, workers continue generating gradient updates even if the parameter server is down, applying these updates once the server is back online. We compare these techniques to a standard checkpointing approach, where the training job is resumed from the latest checkpoint. To assess the resilience and performance of each configuration, we intentionally killed the parameter server during training for each experiment. Our experiment results indicate that the stateless parameter server approach continues to train towards convergence and improves accuracy as much as 10\% in the face of a failure despite using stale weights and gradients. The chain replication and checkpointing techniques demonstrate convergence but suffer from setbacks in accuracy due to restarting from old checkpoints. These results suggest that allowing workers to continue generating updates during server downtime and applying these updates later can effectively improve hardware utilization. Furthermore, despite higher resource usage, the stateless parameter server method incurs similar monetary costs in terms of hardware usage compared to standard checkpointing methods due to the pricing structure of common cloud providers.
- Abstract(参考訳): 本研究では,各種パラメータサーバ構成を用いた並列機械学習学習におけるデータ一貫性の緩和効果について検討する。
私たちの障害復旧戦略には、従来のチェックポイント、チェーンレプリケーション(障害時にバックアップサーバが引き継がれるようにする)、新しいステートレスパラメータサーバアプローチが含まれています。
ステートレスなアプローチでは、パラメータサーバがダウンしても、ワーカーはグラデーションアップデートを生成し続け、サーバがオンラインに戻れば、これらの更新を適用します。
これらの手法を,最新のチェックポイントからトレーニングジョブを再開する標準的なチェックポイント手法と比較する。
各構成のレジリエンスと性能を評価するため、各実験のトレーニング中にパラメータサーバを故意に破壊した。
実験結果から,ステートレスパラメータサーバのアプローチは,安定した重みと勾配を用いても,故障時に最大10倍の精度で収束を訓練し,精度を向上させることが示唆された。
チェーンの複製とチェックポイント技術は収束を示すが、古いチェックポイントからの再開による精度の低下に悩まされる。
これらの結果は、ワーカがサーバのダウンタイム中に更新を継続し、後から更新を適用することで、ハードウェアの利用を効果的に改善できることを示唆している。
さらに、リソース使用量が多いにもかかわらず、ステートレスパラメータサーバ方式は、一般的なクラウドプロバイダの価格構造による標準的なチェックポイント方式と比較して、ハードウェア使用量でも同様の金銭的コストを発生させる。
関連論文リスト
- Blockchain-enabled Trustworthy Federated Unlearning [50.01101423318312]
フェデレートアンラーニング(Federated Unlearning)は、分散クライアントのデータオーナシップを保護するための、有望なパラダイムである。
既存の作業では、分散クライアントからの履歴モデルパラメータを保持するために、中央サーバが必要である。
本稿では,ブロックチェーンによる信頼性の高いフェデレーションアンラーニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-01-29T07:04:48Z) - Enhancing Consistency and Mitigating Bias: A Data Replay Approach for
Incremental Learning [100.7407460674153]
ディープラーニングシステムは、一連のタスクから学ぶとき、破滅的な忘れがちだ。
問題を緩和するため、新しいタスクを学ぶ際に経験豊富なタスクのデータを再生する手法が提案されている。
しかし、メモリ制約やデータプライバシーの問題を考慮すると、実際には期待できない。
代替として、分類モデルからサンプルを反転させることにより、データフリーなデータ再生法を提案する。
論文 参考訳(メタデータ) (2024-01-12T12:51:12Z) - Better Generative Replay for Continual Federated Learning [20.57194599280318]
フェデレートラーニング(Federated Learning)とは、分散クライアントからコミュニケーションを通じて学習する集中型サーバを実現する技術である。
本稿では,クライアントが新たなタスクを段階的に学習し,履歴データを格納できない連続的フェデレーション学習の問題を紹介する。
我々は,モデル統合と整合性強化という,シンプルだが効果的な2つの解を用いたFedCILモデルを提案する。
論文 参考訳(メタデータ) (2023-02-25T06:26:56Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Improving the Robustness of Federated Learning for Severely Imbalanced
Datasets [11.498089180181365]
この分散学習を実現するための2つの一般的なアプローチは、同期と非同期の重み更新である。
ワーカノードの増加に伴い、パフォーマンスが大幅に低下することがわかった。
この効果は、極端な不均衡な分類の文脈で研究されている。
論文 参考訳(メタデータ) (2022-04-28T11:23:42Z) - Acceleration of Federated Learning with Alleviated Forgetting in Local
Training [61.231021417674235]
フェデレートラーニング(FL)は、プライバシを保護しながら機械学習モデルの分散最適化を可能にする。
我々は,FedRegを提案する。FedRegは,局所的な訓練段階において,知識を忘れることなくFLを加速するアルゴリズムである。
我々の実験は、FedRegはFLの収束率を著しく改善するだけでなく、特にニューラルネットワークアーキテクチャが深い場合にも改善することを示した。
論文 参考訳(メタデータ) (2022-03-05T02:31:32Z) - Byzantine-robust Federated Learning through Spatial-temporal Analysis of
Local Model Updates [6.758334200305236]
フェデレートラーニング(FL)は、複数の分散クライアント(モバイルデバイスなど)が、クライアントにローカルにトレーニングデータを保持しながら、協調的に集中的なモデルをトレーニングすることを可能にする。
本稿では,これらの障害と攻撃を空間的・時間的観点から緩和することを提案する。
具体的には、パラメータ空間におけるそれらの幾何学的性質を活用することにより、不正な更新を検出し、排除するためにクラスタリングに基づく手法を用いる。
論文 参考訳(メタデータ) (2021-07-03T18:48:11Z) - Federated Learning with Unreliable Clients: Performance Analysis and
Mechanism Design [76.29738151117583]
Federated Learning(FL)は、分散クライアント間で効果的な機械学習モデルをトレーニングするための有望なツールとなっている。
しかし、低品質のモデルは信頼性の低いクライアントによってアグリゲータサーバにアップロードすることができ、劣化やトレーニングの崩壊につながる。
クライアントの信頼できない振る舞いをモデル化し、このようなセキュリティリスクを軽減するための防御メカニズムを提案する。
論文 参考訳(メタデータ) (2021-05-10T08:02:27Z) - Dynamic Parameter Allocation in Parameter Servers [74.250687861348]
本稿では,パラメータサーバに動的パラメータ割り当てを組み込んで,Lapse と呼ばれるパラメータサーバの効率的な実装を提案する。
Lapseはニアリニアなスケーリングを提供しており、既存のパラメータサーバよりも桁違いに高速であることがわかった。
論文 参考訳(メタデータ) (2020-02-03T11:37:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。