論文の概要: Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry
- arxiv url: http://arxiv.org/abs/2510.26008v2
- Date: Fri, 31 Oct 2025 01:21:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 13:41:53.444045
- Title: Detecting Anomalies in Machine Learning Infrastructure via Hardware Telemetry
- Title(参考訳): ハードウェアテレメトリによる機械学習インフラの異常検出
- Authors: Ziji Chen, Steven W. D. Chien, Peng Qian, Noa Zilberman,
- Abstract要約: システムレベルの最適化にはワークロードの知識は不要です。
ハードウェア中心のアプローチを採用し,ハードウェア信号のみに依存するRevealを提案する。
私たちはDeepSeekモデルを5.97%高速化し、ネットワーク構成とシステム構成の両方の問題をうまく特定しました。
- 参考スコア(独自算出の注目度): 6.238074548326156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern machine learning (ML) has grown into a tightly coupled, full-stack ecosystem that combines hardware, software, network, and applications. Many users rely on cloud providers for elastic, isolated, and cost-efficient resources. Unfortunately, these platforms as a service use virtualization, which means operators have little insight into the users' workloads. This hinders resource optimizations by the operator, which is essential to ensure cost efficiency and minimize execution time. In this paper, we argue that workload knowledge is unnecessary for system-level optimization. We propose Reveal, which takes a hardware-centric approach, relying only on hardware signals - fully accessible by operators. Using low-level signals collected from the system, Reveal detects anomalies through an unsupervised learning pipeline. The pipeline is developed by analyzing over 30 popular ML models on various hardware platforms, ensuring adaptability to emerging workloads and unknown deployment patterns. Using Reveal, we successfully identified both network and system configuration issues, accelerating the DeepSeek model by 5.97%.
- Abstract(参考訳): 現代の機械学習(ML)は、ハードウェア、ソフトウェア、ネットワーク、アプリケーションを組み合わせた密結合されたフルスタックエコシステムに成長した。
多くのユーザは、弾力性、分離性、コスト効率のよいリソースをクラウドプロバイダに依存しています。
残念なことに、これらのプラットフォーム・アズ・ア・サービスでは仮想化が使われており、運用担当者はユーザのワークロードについてほとんど把握できない。
これは、コスト効率の確保と実行時間の最小化に不可欠である演算子によるリソース最適化を妨げる。
本稿では,ワークロードの知識がシステムレベルの最適化には必要ないことを論じる。
ハードウェア中心のアプローチを採用し,ハードウェア信号のみに依存して,オペレータが完全にアクセス可能なRevealを提案する。
システムから収集された低レベル信号を使用して、Revealは教師なし学習パイプラインを通じて異常を検出する。
このパイプラインは、さまざまなハードウェアプラットフォーム上で30以上の一般的なMLモデルを分析し、新興ワークロードや未知のデプロイメントパターンへの適応性を保証することで開発されている。
Revealを使ってネットワーク構成とシステム構成の両方の問題を特定し、DeepSeekモデルを5.97%高速化しました。
関連論文リスト
- RockNet: Distributed Learning on Ultra-Low-Power Devices [49.01692357536576]
本稿では,超低消費電力ハードウェアに適した新しいTinyML法であるRockNetを提案する。
CPSは複数のデバイスで構成されているため,機械学習と無線通信を統合した分散学習手法を設計する。
この結果から,分散ML,分散コンピューティング,通信の緊密な統合により,最先端の精度で超低消費電力ハードウェアのトレーニングが可能となった。
論文 参考訳(メタデータ) (2025-10-15T09:09:30Z) - Characterizing the Efficiency of Distributed Training: A Power, Performance, and Thermal Perspective [6.51239603014107]
大規模言語モデル(LLM)は、単一ノード分析の限界を超えて、トレーニングワークロードを推し進めている。
様々な実世界のワークロードとハードウェアプラットフォームにわたるLLMトレーニングの包括的特徴について述べる。
論文 参考訳(メタデータ) (2025-09-12T16:05:07Z) - BanditWare: A Contextual Bandit-based Framework for Hardware Prediction [0.0]
BanditWareは、アプリケーションに適したハードウェアを動的に選択するオンラインレコメンデーションシステムである。
従来の統計的および機械学習のアプローチとは異なり、BanditWareはオンラインで、新しいワークロードが到着すると学習と適応をリアルタイムで行う。
論文 参考訳(メタデータ) (2025-06-16T17:40:34Z) - FusionLLM: A Decentralized LLM Training System on Geo-distributed GPUs with Adaptive Compression [55.992528247880685]
分散トレーニングは、システム設計と効率に関する重要な課題に直面します。
大規模深層ニューラルネットワーク(DNN)のトレーニング用に設計・実装された分散トレーニングシステムFusionLLMを提案する。
本システムと手法は,収束性を確保しつつ,ベースライン法と比較して1.45~9.39倍の高速化を実現可能であることを示す。
論文 参考訳(メタデータ) (2024-10-16T16:13:19Z) - Distributed Inference and Fine-tuning of Large Language Models Over The
Internet [91.00270820533272]
大規模言語モデル(LLM)は、多くのNLPタスクで有用であり、サイズが向上する。
これらのモデルはハイエンドのハードウェアを必要とするため、ほとんどの研究者にはアクセスできない。
本研究では,システムスループットの最大化のためにデバイスを自動的に割り当てるフォールトトレラント推論アルゴリズムとロードバランシングプロトコルを開発する。
論文 参考訳(メタデータ) (2023-12-13T18:52:49Z) - Cost-Driven Hardware-Software Co-Optimization of Machine Learning
Pipelines [5.3477186309338505]
ディープニューラルネットワークは、スマートデバイスにインテリジェンスを埋め込むためにますます利用されている。
ストレージと処理の要件により、安価な市販のプラットフォームでは禁止される。
我々は、量子化、モデルスケーリング、マルチモーダリティが、メモリ、センサー、プロセッサなどのシステムコンポーネントとどのように相互作用するかを概観する。
論文 参考訳(メタデータ) (2023-10-11T23:22:30Z) - FusionAI: Decentralized Training and Deploying LLMs with Massive
Consumer-Level GPUs [57.12856172329322]
我々は、巨大な未使用のコンシューマレベルのGPUをアンロックする分散システムを構想する。
このシステムは、CPUとGPUメモリの制限、ネットワーク帯域幅の低さ、ピアとデバイスの多様性など、重要な課題に直面している。
論文 参考訳(メタデータ) (2023-09-03T13:27:56Z) - FLEdge: Benchmarking Federated Machine Learning Applications in Edge Computing Systems [61.335229621081346]
フェデレートラーニング(FL)は,ネットワークエッジ上での分散ディープラーニングのプライバシ強化を実現する上で,有効なテクニックとなっている。
本稿では,既存のFLベンチマークを補完するFLEdgeを提案する。
論文 参考訳(メタデータ) (2023-06-08T13:11:20Z) - Clairvoyant Prefetching for Distributed Machine Learning I/O [9.490118207943192]
I/Oは、特にクラウドやスーパーコンピュータのような分散環境において、機械学習トレーニングの大きなボトルネックとして現れています。
我々は、新しい機械学習I/O、HDMLPを作成し、I/Oボトルネックに取り組む。
HDMLPは、最先端のアプローチよりも優れたパフォーマンスを提供する、使いやすい、柔軟でスケーラブルなソリューションを提供します。
論文 参考訳(メタデータ) (2021-01-21T17:21:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。