論文の概要: A Comprehensive Study of Bugs in Modern Distributed Deep Learning Systems
- arxiv url: http://arxiv.org/abs/2512.20345v1
- Date: Tue, 23 Dec 2025 13:27:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.884564
- Title: A Comprehensive Study of Bugs in Modern Distributed Deep Learning Systems
- Title(参考訳): 現代分散ディープラーニングシステムにおけるバグの包括的研究
- Authors: Xiaoxue Ma, Wanwei Zhan, Jiale Chen, Yishu Li, Jacky Keung, Federica Sarro,
- Abstract要約: 本研究は,専用の分散フレームワークにおける実践者の課題について,大規模な実証分析を行った最初の事例である。
我々は,DeepSpeed,Megatron-LM,Colossal-AIの実世界の849の問題を調査し,34のバグ症状,28の根本原因,6つの修正パターンの分類法を構築した。
その結果、45.1%のバグ症状が分散フレームワークに特有のものであり、セットアップ障害、メモリ問題、パフォーマンス異常が最も多いことが判明した。
- 参考スコア(独自算出の注目度): 7.767904938990508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In today's data-driven era, deep learning is vital for processing massive datasets, yet single-device training is constrained by computational and memory limits. Distributed deep learning overcomes these challenges by leveraging multiple GPUs or machines in parallel. While general-purpose frameworks (e.g., TensorFlow and PyTorch) provide distributed capabilities, these are often add-on features that demand significant manual effort for advanced parallelism, underscoring the need for specialized frameworks. This study conducts the first large-scale empirical analysis of practitioner challenges in dedicated distributed frameworks. We examine 849 real-world issues from DeepSpeed, Megatron-LM, and Colossal-AI and construct a taxonomy of 34 bug symptoms, 28 root causes, and 6 fix patterns. Crucially, we establish explicit mappings between symptoms, causes, and fixes across distributed training stages, enabling a systematic understanding of how issues emerge and are resolved. Our results show that 45.1\% of bug symptoms are unique to distributed frameworks, with setup failures, memory issues, and performance anomalies being the most prevalent. Moreover, 95\% of issues in the communication setup stage occur exclusively in distributed contexts. We also find over 60\% of cases can be resolved through version and dependency management, and distributed feature, API, and communication tuning. Based on these findings, we provide actionable implications.
- Abstract(参考訳): 今日のデータ駆動の時代では、ディープラーニングは大量のデータセットを処理する上で不可欠だが、シングルデバイストレーニングは計算とメモリ制限によって制約される。
分散ディープラーニングは、複数のGPUやマシンを並列に活用することで、これらの課題を克服する。
汎用フレームワーク(TensorFlowやPyTorchなど)は分散機能を提供するが、これらは多くの場合、高度な並列処理のために重要な手作業を必要とするアドオン機能であり、特殊なフレームワークの必要性を強調している。
本研究は,専用の分散フレームワークにおける実践者の課題について,大規模な実証分析を行った最初の事例である。
我々は,DeepSpeed,Megatron-LM,Colossal-AIの実世界の849の問題を調査し,34のバグ症状,28の根本原因,6つの修正パターンの分類法を構築した。
重要なことは、我々は、分散トレーニング段階における症状、原因、修正の明確なマッピングを確立し、問題の発生と解決方法の体系的な理解を可能にします。
その結果、45.1\%のバグ症状が分散フレームワークに特有のものであり、セットアップ障害、メモリ問題、パフォーマンス異常が最も多いことが判明した。
さらに、通信設定段階における95%の問題は、分散環境でのみ発生します。
また、バージョン管理や依存性管理、分散機能、API、通信チューニングを通じて解決できるケースの60\%を超えています。
これらの知見に基づき,本研究の意義について考察する。
関連論文リスト
- Context-Specific Causal Graph Discovery with Unobserved Contexts: Non-Stationarity, Regimes and Spatio-Temporal Patterns [8.121462458089143]
因果グラフの変化に符号化された情報を,安定性を念頭に検討する。
組み込みのモジュール化により、サブプロブレムの配列全体を体系的に理解し、改善することができる。
論文 参考訳(メタデータ) (2025-11-26T16:06:36Z) - Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models [7.486731499255164]
本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。
本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
論文 参考訳(メタデータ) (2025-06-12T07:24:59Z) - A Comprehensive Library for Benchmarking Multi-class Visual Anomaly Detection [89.92916473403108]
本稿では,新しい手法のモジュラーフレームワークであるADerの総合的な視覚異常検出ベンチマークを提案する。
このベンチマークには、産業ドメインと医療ドメインからの複数のデータセットが含まれており、15の最先端メソッドと9つの包括的なメトリクスを実装している。
我々は,異なる手法の長所と短所を客観的に明らかにし,多クラス視覚異常検出の課題と今後の方向性について考察する。
論文 参考訳(メタデータ) (2024-06-05T13:40:07Z) - A Survey of Deep Long-Tail Classification Advancements [1.6233132273470656]
実世界の多くのデータ分布は、ほとんど均一ではない。代わりに、様々な種類の歪んだ、長い尾の分布がよく見られる。
これは機械学習にとって興味深い問題であり、ほとんどのアルゴリズムが均一に分散されたデータを想定したり、うまく機能する。
この問題は、大量のトレーニングデータを必要とする現在の最先端のディープラーニングモデルによってさらに悪化している。
論文 参考訳(メタデータ) (2024-04-24T01:59:02Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Leveraging Frequency Domain Learning in 3D Vessel Segmentation [50.54833091336862]
本研究では,Fourier領域学習を3次元階層分割モデルにおけるマルチスケール畳み込みカーネルの代用として活用する。
管状血管分割作業において,新しいネットワークは顕著なサイス性能(ASACA500が84.37%,ImageCASが80.32%)を示した。
論文 参考訳(メタデータ) (2024-01-11T19:07:58Z) - The PetShop Dataset -- Finding Causes of Performance Issues across Microservices [3.87228935312714]
本稿では,マイクロサービスベースのアプリケーションにおける根本原因分析を評価するためのデータセットを提案する。
データセットは、分散アプリケーションから5分間隔で出力されるレイテンシ、リクエスト、可用性メトリクスを含んでいる。
通常の運用メトリクスに加えて、データセットには68のインジェクトされたパフォーマンス問題が含まれており、レイテンシが増加し、システム全体の可用性が低下する。
論文 参考訳(メタデータ) (2023-11-08T16:30:12Z) - Leveraging Ensembles and Self-Supervised Learning for Fully-Unsupervised
Person Re-Identification and Text Authorship Attribution [77.85461690214551]
完全ラベル付きデータからの学習は、Person Re-IdentificationやText Authorship Attributionなどのマルチメディアフォレスト問題において困難である。
近年の自己教師型学習法は,基礎となるクラスに意味的差異が有る場合に,完全ラベル付きデータを扱う際に有効であることが示されている。
本研究では,異なるクラスからのサンプルが顕著に多様性を持っていない場合でも,ラベルのないデータから学習できるようにすることにより,個人再認識とテキストオーサシップの属性に対処する戦略を提案する。
論文 参考訳(メタデータ) (2022-02-07T13:08:11Z) - A neural anisotropic view of underspecification in deep learning [60.119023683371736]
ニューラルネットが問題の未特定化を扱う方法が,データ表現に大きく依存していることを示す。
深層学習におけるアーキテクチャ的インダクティブバイアスの理解は,これらのシステムの公平性,堅牢性,一般化に対処する上で基本的であることを強調した。
論文 参考訳(メタデータ) (2021-04-29T14:31:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。