論文の概要: Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models
- arxiv url: http://arxiv.org/abs/2506.10426v1
- Date: Thu, 12 Jun 2025 07:24:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.628938
- Title: Towards Understanding Bugs in Distributed Training and Inference Frameworks for Large Language Models
- Title(参考訳): 大規模言語モデルのための分散トレーニングと推論フレームワークにおけるバグの理解に向けて
- Authors: Xiao Yu, Haoxuan Chen, Feifei Niu, Xing Hu, Jacky Wai Keung, Xin Xia,
- Abstract要約: 本稿では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象に,308の固定バグの大規模解析を行った。
本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
- 参考スコア(独自算出の注目度): 7.486731499255164
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the rapid development of large language models (LLMs), distributed training and inference frameworks like DeepSpeed have become essential for scaling model training and inference across multiple GPUs or nodes. However, the increasing complexity of these frameworks brings non-trivial software bugs, which may degrade training performance, cause unexpected failures, and result in significant resource waste. Understanding framework bugs' characteristics is fundamental for quality assurance, allowing the design of more effective debugging and repair methods. Thus, our paper conducts the first large-scale empirical analysis of 308 fixed bugs across three popular distributed training/inference frameworks: DeepSpeed, Megatron-LM, and Colossal-AI. We examine bug symptoms, root causes, bug identification and fixing efforts, and common low-effort fixing strategies. Additionally, the distributed nature of these frameworks introduces unique bug root causes, such as allocation strategy error and distributed communication error. Diagnosing and fixing complex bugs remains challenging due to factors like the disconnect between symptoms and root causes, high bug reproduction costs, and low-level or cross-component interactions. Interestingly, we observe that 48% of bug fixes require minimal code changes (<=10 LOC) and follow simple strategies such as conditional logic optimization, parameter handling enhancement, or version compatibility handling, indicating potential for automation. Based on these insights, we offer several implications for improving the reliability of both distributed training and inference frameworks and their dependent LLM projects, while also identifying opportunities to leverage LLM-based tools for automated debugging and repair.
- Abstract(参考訳): 大規模言語モデル(LLM)の急速な開発に伴い、DeepSpeedのような分散トレーニングと推論フレームワークは、モデルトレーニングと推論を複数のGPUやノードにわたってスケーリングするために欠かせないものになっている。
しかし、これらのフレームワークの複雑さが増すにつれ、非自明なソフトウェアバグが発生し、トレーニングパフォーマンスが低下し、予期せぬ失敗を引き起こし、リソースの浪費が発生する可能性がある。
フレームワークのバグの特徴を理解することは品質保証の基礎であり、より効果的なデバッグと修復の方法の設計を可能にする。
そこで本研究では,DeepSpeed,Megatron-LM,Colossal-AIの3つの分散トレーニング/推論フレームワークを対象とした,308の固定バグの大規模解析を行った。
本研究は, バグ症状, 根本原因, バグの特定と修正の取り組み, および, 一般的な低ストレス修正戦略について検討する。
さらに、これらのフレームワークの分散特性は、アロケーション戦略エラーや分散通信エラーなど、ユニークなバグ根本原因を導入している。
複雑なバグの診断と修正は、症状と根本原因の切り離し、バグの再現コストの高騰、低レベルまたはコンポーネント間の相互作用など、依然として難しい。
興味深いことに、バグ修正の48%は最小限のコード変更 (=10 LOC) を必要としており、条件付き論理最適化、パラメータハンドリング強化、バージョン互換性処理といった単純な戦略に従っており、自動化の可能性を示している。
これらの知見に基づいて、分散トレーニングと推論フレームワークとそれらの依存するLCMプロジェクトの信頼性を向上させるとともに、自動デバッグと修復にLLMベースのツールを活用する機会を同定する。
関連論文リスト
- Learning Efficient and Generalizable Graph Retriever for Knowledge-Graph Question Answering [75.12322966980003]
大規模言語モデル(LLM)は、様々な領域にわたって強い帰納的推論能力を示している。
既存のRAGパイプラインのほとんどは非構造化テキストに依存しており、解釈可能性と構造化推論を制限する。
近年,知識グラフ解答のための知識グラフとLLMの統合について検討している。
KGQAにおける効率的なグラフ検索のための新しいフレームワークであるRAPLを提案する。
論文 参考訳(メタデータ) (2025-06-11T12:03:52Z) - LLM-Based Detection of Tangled Code Changes for Higher-Quality Method-Level Bug Datasets [5.191767648600372]
本研究では,コミットメッセージとメソッドレベルのコード差分の両方を活用することで,絡み合ったコード変化を検出するための大規模言語モデルの有用性について検討する。
以上の結果から,コミットメッセージとコード差分を組み合わせることでモデル性能が著しく向上し,F1スコアの0.88が達成された。
これらの発見は、主にノイズフリーなバグデータセットが欠如していることから、メソッドレベルのバグ予測がオープンな研究課題であり続けているため、研究コミュニティにとって有益である。
論文 参考訳(メタデータ) (2025-05-13T06:26:13Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Error Classification of Large Language Models on Math Word Problems: A Dynamically Adaptive Framework [64.83955753606443]
数学の単語問題は、大規模言語モデルの推論能力を評価するための重要なベンチマークとなる。
現在のエラー分類法は静的および事前定義されたカテゴリに依存している。
MWPES-300Kは,304,865個のエラーサンプルを含む包括的データセットである。
論文 参考訳(メタデータ) (2025-01-26T16:17:57Z) - Towards Fault Tolerance in Multi-Agent Reinforcement Learning [10.314885753121905]
エージェントフォールトはマルチエージェント強化学習(MARL)アルゴリズムの性能に重大な脅威をもたらす。
本稿では,MARLの耐故障性を向上させるために,最適化されたモデルアーキテクチャとトレーニングデータサンプリング戦略を併用する。
論文 参考訳(メタデータ) (2024-11-30T16:56:29Z) - LLMs-as-Instructors: Learning from Errors Toward Automating Model Improvement [93.38736019287224]
LLMs-as-Instructors"フレームワークは、より小さなターゲットモデルのトレーニングを自律的に強化する。
このフレームワークは、"Learning from Errors"理論にインスパイアされ、ターゲットモデル内の特定のエラーを注意深く分析するインストラクターLLMを使用している。
本フレームワークでは,適切なトレーニングデータに対する誤応答のみに焦点を当てた「エラーからの学習」と,比較学習を用いて誤りの深い理解を行う「コントラストによるエラーからの学習」という2つの戦略を実装している。
論文 参考訳(メタデータ) (2024-06-29T17:16:04Z) - AutoDetect: Towards a Unified Framework for Automated Weakness Detection in Large Language Models [95.09157454599605]
大規模言語モデル(LLM)はますます強力になってきていますが、それでも顕著ですが微妙な弱点があります。
従来のベンチマークアプローチでは、特定のモデルの欠陥を徹底的に特定することはできない。
さまざまなタスクにまたがるLLMの弱点を自動的に露呈する統合フレームワークであるAutoDetectを導入する。
論文 参考訳(メタデータ) (2024-06-24T15:16:45Z) - A Deep Dive into Large Language Models for Automated Bug Localization and Repair [12.756202755547024]
大規模言語モデル(LLM)は、自動プログラム修復(APR)など、様々なソフトウェアエンジニアリングタスクにおいて顕著な効果を示している。
本研究では,LSMを用いた自動バグ修正について深く検討する。
異なるLLMを用いてバグの局所化と修正を分離することにより、多様なコンテキスト情報の効果的な統合が可能になる。
Toggleは、CodeXGLUEコード改善ベンチマークで、新しい最先端(SOTA)パフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-04-17T17:48:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。