Fugu-MT 論文翻訳(概要): L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis

論文の概要: L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis

arxiv url: http://arxiv.org/abs/2503.20263v1
Date: Wed, 26 Mar 2025 06:09:55 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-27 19:18:47.077198
Title: L4: Diagnosing Large-scale LLM Training Failures via Automated Log Analysis
Title（参考訳）: L4: 自動ログ解析による大規模LCMトレーニング障害の診断
Authors: Zhihan Jiang, Junjie Huang, Zhuangbin Chen, Yichen Li, Guangba Yu, Cong Feng, Yongqiang Yang, Zengyin Yang, Michael R. Lyu,
Abstract要約: 我々は,2023年5月から2024年4月までに,当社のPlatform-Xにおける428大言語モデルトレーニング失敗の報告に関する実証的研究を行った。本研究は,ハードウェアおよびユーザ障害が根本原因であり,現在の診断プロセスがログのトレーニングに大きく依存していることを明らかにする。我々は、ログベースの大規模LCMトレーニング失敗診断フレームワークL4を導入し、トレーニングログから障害指示情報を自動抽出する。
参考スコア（独自算出の注目度）: 33.245458231704546
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As Large Language Models (LLMs) show their capabilities across various applications, training customized LLMs has become essential for modern enterprises. However, due to the complexity of LLM training, which requires massive computational resources and extensive training time, failures are inevitable during the training process. These failures result in considerable waste of resource and time, highlighting the critical need for effective and efficient failure diagnosis to reduce the cost of LLM training. In this paper, we present the first empirical study on the failure reports of 428 LLM training failures in our production Platform-X between May 2023 and April 2024. Our study reveals that hardware and user faults are the predominant root causes, and current diagnosis processes rely heavily on training logs. Unfortunately, existing log-based diagnostic methods fall short in handling LLM training logs. Considering the unique features of LLM training, we identify three distinct patterns of LLM training logs: cross-job, spatial, and temporal patterns. We then introduce our Log-based Large-scale LLM training failure diagnosis framework, L4, which can automatically extract failure-indicating information (i.e., log events, nodes, stages, and iterations) from extensive training logs, thereby reducing manual effort and facilitating failure recovery. Experimental results on real-world datasets show that L4 outperforms existing approaches in identifying failure-indicating logs and localizing faulty nodes. Furthermore, L4 has been applied in Platform-X and demonstrated its effectiveness in enabling accurate and efficient failure diagnosis.
Abstract（参考訳）: 大規模言語モデル(LLM)は様々なアプリケーションにまたがってその能力を示すため、現代の企業において、カスタマイズされたLLMのトレーニングが不可欠になっている。しかし、大量の計算資源と膨大なトレーニング時間を必要とするLLMトレーニングの複雑さのため、トレーニングプロセス中に障害が発生することは避けられない。これらの失敗は資源と時間のかなりの無駄をもたらし、LLMトレーニングのコストを削減するために、効果的で効率的な故障診断の重大な必要性を強調している。本稿では,2023年5月から2024年4月までに,当社のPlatform-Xにおける428 LLMトレーニング失敗の報告に関する実証的研究を行った。本研究は,ハードウェアおよびユーザ障害が根本原因であり,現在の診断プロセスがログのトレーニングに大きく依存していることを明らかにする。残念ながら、既存のログベースの診断方法は、LLMトレーニングログの処理に不足している。 LLMトレーニングのユニークな特徴を考慮し,LLMトレーニングログの3つの異なるパターン,すなわちクロスジョイブ,空間,時間的パターンを同定する。次に、ログベースの大規模LCMトレーニング障害診断フレームワークであるL4を導入し、大規模なトレーニングログから障害指示情報(ログイベント、ノード、ステージ、イテレーションなど)を自動的に抽出し、手作業の削減と障害復旧を容易にする。実世界のデータセットでの実験結果から、L4は障害指示ログの特定や障害ノードのローカライズにおいて、既存のアプローチよりも優れています。さらに、L4はPlatform-Xに適用され、正確かつ効率的な故障診断を可能にする効果を示した。

関連論文リスト

LLMPrism: Black-box Performance Diagnosis for Production LLM Training Platforms [31.576014566773697]
大規模言語モデル (LLM) は様々な分野で革命的な変化をもたらした。本稿では,ジョブのトレーニングスケジュールを再構築するための基盤となるネットワークフローデータの利用を提案する。 LLMトレーニングプラットフォームのための最初のブラックボックス性能診断システムであるLSMPrismを設計する。
論文参考訳（メタデータ） (2025-05-01T06:38:52Z)
How Difficulty-Aware Staged Reinforcement Learning Enhances LLMs' Reasoning Capabilities: A Preliminary Experimental Study [16.441081996257576]
本稿では,難易度の高い強化学習戦略が推論性能を大幅に向上させる方法について,厳密な実験的検討を行った。本研究は,RLの最適化を著しく向上させることを特徴とする,明確な難易度に応じて,戦略的にトレーニングデータを選択することを示す。私たちはデータセットをGitHubとHugging Faceでオープンソース化します。
論文参考訳（メタデータ） (2025-04-01T14:18:38Z)
R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-07T17:14:44Z)
LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。 LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文参考訳（メタデータ） (2024-12-29T06:32:36Z)
Towards Robust Evaluation of Unlearning in LLMs via Data Transformations [17.927224387698903]
大きな言語モデル(LLM)は、通常のNLPベースのユースケースからAIエージェントまで、幅広いアプリケーションで大きな成功を収めている。近年,マシン・アンラーニング(MUL)分野の研究が活発化している。主な考え方は、LLMが通常のタスクのパフォーマンス損失に悩まされることなく、特定の情報(例えば、PII)を忘れること(未学習)を強制することである。
論文参考訳（メタデータ） (2024-11-23T07:20:36Z)
ToolScan: A Benchmark for Characterizing Errors in Tool-Use LLMs [77.79172008184415]
TOOLSCANは、ツール使用タスクのLLM出力におけるエラーパターンを特定するための新しいベンチマークである。もっとも顕著なLCMでも,これらの誤りパターンが出力に現れることを示す。研究者たちは、TOOLSCANのこれらの洞察を使って、エラー軽減戦略をガイドすることができる。
論文参考訳（メタデータ） (2024-11-20T18:56:22Z)
A Multi-Agent Approach to Fault Localization via Graph-Based Retrieval and Reflexion [8.22737389683156]
従来のフォールトローカライゼーション技術は、広範なトレーニングデータセットと高い計算資源を必要とする。大規模言語モデル(LLM)の最近の進歩は、コード理解と推論を強化することで、新たな機会を提供する。 LLM4FLは3つの特殊なLLMエージェントを利用するマルチエージェントの故障局所化フレームワークである。 14のJavaプロジェクトから675の障害を含むDefects4Jベンチマークで評価され、LLM4FLはAutoFLよりも18.55%、SoapFLより4.82%、Top-1の精度が18.55%向上した。
論文参考訳（メタデータ） (2024-09-20T16:47:34Z)
MiniCheck: Efficient Fact-Checking of LLMs on Grounding Documents [62.02920842630234]
GPT-4レベルの性能を持つが400倍の低コストでファクトチェックモデルを構築する方法を示す。 GPT-4を用いて合成トレーニングデータを構築することで,現実的かつ困難な事実エラーの事例を生成する。評価のために, ファクトチェックとグラウンドグラウンド化に関する最近の研究から得られたデータセットを, 新たなベンチマーク LLM-AggreFact に統一する。
論文参考訳（メタデータ） (2024-04-16T17:59:10Z)
Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文参考訳（メタデータ） (2024-03-12T13:31:14Z)
Dynamic Sparse No Training: Training-Free Fine-tuning for Sparse LLMs [67.38165028487242]
そこで我々は,DSnoT(Dynamic Sparse No Training, 動的スパース・ノー・トレーニング)を導入した。動的スパーストレーニングにインスパイアされたDSnoTは、密度とスパースLLM間の再構成誤差を最小限に抑える。本稿は, LLMのスパースを, 効率的なトレーニング自由な方法で微調整し, 新たな会場をオープンして, LLMの空間性に大きな可能性を拡大する方法について, 新たな知見を提供する。
論文参考訳（メタデータ） (2023-10-13T07:38:52Z)
TRACE: A Comprehensive Benchmark for Continual Learning in Large Language Models [52.734140807634624]
調整された大規模言語モデル(LLM)は、タスク解決、指示に従うこと、安全性を確保することにおいて、例外的な能力を示す。既存の連続学習ベンチマークでは、LLMをリードする上で十分な課題が欠如している。 LLMにおける継続学習を評価するための新しいベンチマークであるTRACEを紹介する。
論文参考訳（メタデータ） (2023-10-10T16:38:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。