論文の概要: Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training
- arxiv url: http://arxiv.org/abs/2509.03018v1
- Date: Wed, 03 Sep 2025 04:49:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-04 21:40:46.419391
- Title: Mycroft: Tracing Dependencies in Collective Communication Towards Reliable LLM Training
- Title(参考訳): Mycroft: 信頼性の高いLLMトレーニングに向けた集団コミュニケーションにおける依存の追跡
- Authors: Yangtao Deng, Lei Zhang, Qinlong Wang, Xiaoyun Zhi, Xinlei Zhang, Zhuo Jiang, Haohan Xu, Lei Wang, Zuquan Song, Gaohong Liu, Yang Bai, Shuguang Wang, Wencong Xiao, Jianxi Ye, Minlan Yu, Hong Xu,
- Abstract要約: Mycroftは軽量な分散トレースと根本原因分析システムであり、集団通信における信頼性問題に対処するために設計された。
MycroftはByteDanceに6ヶ月以上デプロイされ、実行時に集団コミュニケーションに関連する問題をデバッグしている。
90%の症例で15秒以内の異常を検出し、60%の症例で20秒以内の根本原因を同定した。
- 参考スコア(独自算出の注目度): 13.805985344003552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reliability is essential for ensuring efficiency in LLM training. However, many real-world reliability issues remain difficult to resolve, resulting in wasted resources and degraded model performance. Unfortunately, today's collective communication libraries operate as black boxes, hiding critical information needed for effective root cause analysis. We propose Mycroft, a lightweight distributed tracing and root cause analysis system designed to address previously hidden reliability issues in collective communication. Mycroft's key idea is to trace collective communication states and leverage internal control and data dependencies to resolve reliability problems in LLM training. Mycroft has been deployed at ByteDance for over six months to debug collective communication related issues at runtime. It detected anomalies within 15 seconds in 90% of cases and identified the root cause within 20 seconds in 60% of cases. We also conducted extensive fault injection experiments to demonstrate Mycroft's capability and efficiency.
- Abstract(参考訳): LLMトレーニングの効率を確保するためには信頼性が不可欠である。
しかし、現実の信頼性の問題の多くは解決が難しいままであり、結果としてリソースの浪費とモデル性能が低下する。
残念ながら、今日の集合通信ライブラリはブラックボックスとして機能し、効果的な根本原因分析に必要な重要な情報を隠蔽している。
グループ通信における従来隠れていた信頼性問題に対処するために設計された,軽量な分散トレースと根本原因解析システムMycroftを提案する。
Mycroftのキーとなるアイデアは、集合的な通信状態をトレースし、内部制御とデータ依存を活用して、LLMトレーニングにおける信頼性の問題を解決することである。
MycroftはByteDanceに6ヶ月以上デプロイされ、実行時に集団コミュニケーションに関連する問題をデバッグしている。
90%の症例で15秒以内の異常を検出し、60%の症例で20秒以内の根本原因を同定した。
また,Mycroftの能力と効率を実証するため,広範囲なインジェクション実験を行った。
関連論文リスト
- ReliableMath: Benchmark of Reliable Mathematical Reasoning on Large Language Models [70.33764118171463]
大きな言語モデル(LLM)は、解決不可能な問題やその能力を超える問題に直面した時に、信頼できない応答を作る傾向があります。
我々はオープンソースの解決可能問題と高品質の未解決問題を含むReliableMathデータセットを開発した。
LLMは解決不可能な問題を直接特定できず、常に生成された応答を生成する。
論文 参考訳(メタデータ) (2025-07-03T19:19:44Z) - MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。
このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。
GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文 参考訳(メタデータ) (2024-12-19T18:58:04Z) - A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。
大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。
LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。
14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文 参考訳(メタデータ) (2024-09-20T16:47:34Z) - Pathway to Secure and Trustworthy ZSM for LLMs: Attacks, Defense, and Opportunities [11.511012020557326]
本稿では,ZSMネットワークにおける大規模言語モデル(LLM)の微調整に伴うセキュリティ脆弱性について検討する。
LLMをサービスとして使用する場合の個人データ漏洩につながる可能性のあるダウンストリームタスクに対して,メンバシップ推論攻撃が有効であることを示す。
論文 参考訳(メタデータ) (2024-08-01T17:15:13Z) - Exploring Automatic Cryptographic API Misuse Detection in the Era of LLMs [60.32717556756674]
本稿では,暗号誤用の検出において,大規模言語モデルを評価するための体系的評価フレームワークを提案する。
11,940個のLCM生成レポートを詳細に分析したところ、LSMに固有の不安定性は、報告の半数以上が偽陽性になる可能性があることがわかった。
最適化されたアプローチは、従来の手法を超え、確立されたベンチマークでこれまで知られていなかった誤用を明らかにすることで、90%近い顕著な検出率を達成する。
論文 参考訳(メタデータ) (2024-07-23T15:31:26Z) - A Comprehensive Survey of Contamination Detection Methods in Large Language Models [68.10605098856087]
近年のLarge Language Models(LLM)の台頭に伴い、多くの新しい機会が生まれつつありますが、新たな課題もあります。
LLMの性能は、データへの以前の露出のために、少なくとも部分的には高性能である可能性があるため、もはや信頼性が低い可能性がある。
この制限は、NLPの分野での実際の能力向上を阻害するが、汚染を効率的に検出する方法が不足している。
論文 参考訳(メタデータ) (2024-03-31T14:32:02Z) - Assessing the Reliability of Large Language Model Knowledge [78.38870272050106]
大規模言語モデル(LLM)は、知識探索タスクにおける高い性能のため、知識ベースとして扱われてきた。
LLMが実際に正しい答えを連続的に生成する能力をどのように評価するか。
LLMの信頼性を直接測定するための新しい指標であるMOdel kNowledge relIabiliTy score (MONITOR)を提案する。
論文 参考訳(メタデータ) (2023-10-15T12:40:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。