論文の概要: Minder: Faulty Machine Detection for Large-scale Distributed Model Training
- arxiv url: http://arxiv.org/abs/2411.01791v1
- Date: Mon, 04 Nov 2024 04:26:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:27:28.878286
- Title: Minder: Faulty Machine Detection for Large-scale Distributed Model Training
- Title(参考訳): Minder:大規模分散モデルトレーニングのための故障機械検出
- Authors: Yangtao Deng, Xiang Shi, Zhuo Jiang, Xingjian Zhang, Lei Zhang, Zhang Zhang, Bo Li, Zuquan Song, Hang Zhu, Gaohong Liu, Fuliang Li, Shuguang Wang, Haibin Lin, Jianxi Ye, Minlan Yu,
- Abstract要約: 大規模分散モデルトレーニングには、最大数千台のマシンで同時トレーニングが必要である。
故障検出は、マシン内で予期せぬ故障が発生した場合に重要である。
分散トレーニングタスクのための自動故障検出装置であるMinderを提案する。
- 参考スコア(独自算出の注目度): 19.14494508583626
- License:
- Abstract: Large-scale distributed model training requires simultaneous training on up to thousands of machines. Faulty machine detection is critical when an unexpected fault occurs in a machine. From our experience, a training task can encounter two faults per day on average, possibly leading to a halt for hours. To address the drawbacks of the time-consuming and labor-intensive manual scrutiny, we propose Minder, an automatic faulty machine detector for distributed training tasks. The key idea of Minder is to automatically and efficiently detect faulty distinctive monitoring metric patterns, which could last for a period before the entire training task comes to a halt. Minder has been deployed in our production environment for over one year, monitoring daily distributed training tasks where each involves up to thousands of machines. In our real-world fault detection scenarios, Minder can accurately and efficiently react to faults within 3.6 seconds on average, with a precision of 0.904 and F1-score of 0.893.
- Abstract(参考訳): 大規模分散モデルトレーニングには、最大数千台のマシンで同時トレーニングが必要である。
故障検出は、マシン内で予期せぬ故障が発生した場合に重要となる。
私たちの経験からすると、トレーニングタスクは1日平均で2つの障害に遭遇する可能性がある。
時間と労働集約的な手動調査の欠点に対処するため,分散トレーニングタスクのための自動故障検出装置であるMinderを提案する。
Minderのキーとなるアイデアは、トレーニングタスクが停止するまでの一定期間にわたって、障害のあるユニークな監視メトリックパターンを自動的に、効率的に検出することです。
Minderは1年以上運用環境にデプロイされ、最大数千台のマシンが関与する毎日の分散トレーニングタスクを監視してきました。
私たちの現実世界の故障検出シナリオでは、Minderは平均3.6秒以内の故障に対して精度0.904とF1スコア0.893で正確かつ効率的に反応することができる。
関連論文リスト
- Uncertainty Estimation for 3D Object Detection via Evidential Learning [63.61283174146648]
本稿では,3次元検出器における鳥の視線表示における明らかな学習損失を利用して,3次元物体検出の不確かさを定量化するためのフレームワークを提案する。
本研究では,これらの不確実性評価の有効性と重要性を,分布外シーンの特定,局所化の不十分な物体の発見,および(偽陰性)検出の欠如について示す。
論文 参考訳(メタデータ) (2024-10-31T13:13:32Z) - Leveraging Unsupervised Learning for Cost-Effective Visual Anomaly Detection [41.34792517255731]
従来の機械学習に基づく視覚検査システムでは、精度を向上させるために広範なデータ収集と反復モデルトレーニングが必要である。
本研究では,教師なし学習手法を事前学習モデルと低コストハードウェアで活用し,費用対効果の高い視覚異常検出システムを構築することを検討した。
論文 参考訳(メタデータ) (2024-09-24T11:22:24Z) - Machine Learning with Real-time and Small Footprint Anomaly Detection System for In-Vehicle Gateway [6.9113469208163245]
我々は、自己情報理論を用いて、トレーニングとテストモデルの値を生成することを提案する。
提案手法は偽陽性率(FPR)の8.7倍,テスト時間が1.77倍,フットプリントが4.88倍である。
論文 参考訳(メタデータ) (2024-06-24T07:23:52Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Bridging Precision and Confidence: A Train-Time Loss for Calibrating
Object Detection [58.789823426981044]
本稿では,境界ボックスのクラス信頼度を予測精度に合わせることを目的とした,新たな補助損失定式化を提案する。
その結果,列車の走行時間損失はキャリブレーション基準を超過し,キャリブレーション誤差を低減させることがわかった。
論文 参考訳(メタデータ) (2023-03-25T08:56:21Z) - A data-centric weak supervised learning for highway traffic incident
detection [1.0323063834827415]
我々は、高速道路における交通事故検出の誤報率を低減し、精度を向上させるために、データ中心のアプローチに焦点を当てる。
我々は,インシデントデータに対する高品質なトレーニングラベルを生成するために,基礎的真理ラベルを使わずに,弱教師付き学習ワークフローを開発する。
提案した弱教師付き学習ワークフローは,高い事故検出率 (0.90) と低い誤警報率 (0.08) を達成することを示す。
論文 参考訳(メタデータ) (2021-12-17T22:14:47Z) - Tracking the risk of a deployed model and detecting harmful distribution
shifts [105.27463615756733]
実際には、デプロイされたモデルのパフォーマンスが大幅に低下しないという、良心的なシフトを無視することは理にかなっている。
我々は,警告を発射する有効な方法は,(a)良性な警告を無視しながら有害なシフトを検知し,(b)誤報率を増大させることなく,モデル性能の連続的なモニタリングを可能にすることを論じる。
論文 参考訳(メタデータ) (2021-10-12T17:21:41Z) - Detecting Faults during Automatic Screwdriving: A Dataset and Use Case
of Anomaly Detection for Automatic Screwdriving [80.6725125503521]
障害検出に機械学習(ML)を使用したデータ駆動型アプローチが最近注目されている。
本稿では,自動スクリュー運転時の故障検出にMLモデルを用いた場合について述べる。
論文 参考訳(メタデータ) (2021-07-05T11:46:00Z) - Anomaly Detection in Cybersecurity: Unsupervised, Graph-Based and
Supervised Learning Methods in Adversarial Environments [63.942632088208505]
現在の運用環境に固有ののは、敵対的機械学習の実践である。
本研究では,教師なし学習とグラフに基づく異常検出の可能性を検討する。
我々は,教師付きモデルの訓練時に,現実的な対人訓練機構を組み込んで,対人環境における強力な分類性能を実現する。
論文 参考訳(メタデータ) (2021-05-14T10:05:10Z) - Learn to Predict Vertical Track Irregularity with Extremely Imbalanced
Data [6.448383767373112]
中国における複数の鉄道が生み出した実世界の大規模データセットに基づいて,垂直軌道の不規則性を予測するためのアプリケーション・フレームワークについて紹介する。
また,適応型データサンプリングとペナル化損失を用いた時系列予測タスクにおいて,不均衡なデータを扱う新しい手法を提案する。
論文 参考訳(メタデータ) (2020-12-05T15:49:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。