論文の概要: AidAI: Automated Incident Diagnosis for AI Workloads in the Cloud
- arxiv url: http://arxiv.org/abs/2506.01481v1
- Date: Mon, 02 Jun 2025 09:41:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.177108
- Title: AidAI: Automated Incident Diagnosis for AI Workloads in the Cloud
- Title(参考訳): AidAI: クラウド上のAIワークロードの自動インシデント診断
- Authors: Yitao Yang, Yangtao Deng, Yifan Xiong, Baochun Li, Hong Xu, Peng Cheng,
- Abstract要約: AidAIは顧客中心のシステムであり、顧客に即時インシデント診断を提供する。
AidAIは平均マイクロF1スコア0.854、マクロF1スコア0.816を大きなオーバーヘッドなく達成している。
- 参考スコア(独自算出の注目度): 27.06748280028887
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: AI workloads experience frequent incidents due to intensive hardware utilization and extended training times. The current incident management workflow is provider-centric, where customers report incidents and place the entire troubleshooting responsibility on the infrastructure provider. However, the inherent knowledge gap between customer and provider significantly impacts incident resolution efficiency. In AI infrastructure, incidents may take several days on average to mitigate, resulting in delays and productivity losses. To address these issues, we present AidAI, a customer-centric system that provides immediate incident diagnosis for customers and streamlines the creation of incident tickets for unresolved issues. The key idea of AidAI is to construct internal knowledge bases from historical on-call experiences during the offline phase and mimic the reasoning process of human experts to diagnose incidents through trial and error in the online phase. Evaluations using real-world incident records in Microsoft show that AidAI achieves an average Micro F1 score of 0.854 and Macro F1 score of 0.816 without significant overhead.
- Abstract(参考訳): AIワークロードは、ハードウェア利用の集中とトレーニング時間の延長により、頻繁なインシデントを経験する。
現在のインシデント管理ワークフローはプロバイダ中心で、インシデントを報告し、インフラストラクチャプロバイダにトラブルシューティングの責任全体を置く。
しかし、顧客とプロバイダ間の固有の知識ギャップは、インシデント解決の効率に大きな影響を与えます。
AIインフラストラクチャでは、インシデントが平均して数日を要するため、遅延や生産性の損失が発生する可能性がある。
これらの課題に対処するために,顧客に対して即時インシデント診断を提供し,未解決問題に対するインシデントチケットの作成を効率化する,顧客中心のシステムであるAidAIを提案する。
AidAIの鍵となる考え方は、オフラインフェーズにおける歴史的なオンコール体験から内部知識ベースを構築することであり、オンラインフェーズにおける試行錯誤によるインシデント診断のための人間専門家の推論プロセスを模倣することである。
Microsoftにおける実世界のインシデントレコードを使用した評価によると、AidAIは平均的なMicro F1スコアが0.854、Macro F1スコアが0.816を、大きなオーバーヘッドなしで達成している。
関連論文リスト
- From Incidents to Insights: Patterns of Responsibility following AI Harms [1.9389881806157316]
AIインシデントデータベースは航空安全データベースにインスパイアされ、障害からの集合的学習を可能とし、将来のインシデントを防ぐ。
データベースは、ニュースやメディアから収集された数百のAI障害を文書化している。
技術的に焦点を絞った学習を超えて、データセットは新たな、非常に価値のある洞察を提供することができる、と私たちは主張する。
論文 参考訳(メタデータ) (2025-05-07T09:59:36Z) - Causal AI-based Root Cause Identification: Research to Practice at Scale [2.455633941531165]
我々は,相関関係に対する因果関係を強調する新しい因果関係に基づくルート因果同定(RCI)アルゴリズムを開発した。
本稿では、Instanaの高度な故障診断機能を強調し、RCIアルゴリズムの理論的基盤と実践的実装について論じる。
論文 参考訳(メタデータ) (2025-02-25T14:20:33Z) - Self-Regulation and Requesting Interventions [63.5863047447313]
介入要求のための"helper"ポリシーをトレーニングするオフラインフレームワークを提案する。
PRMによる最適介入タイミングを判定し,これらのラベル付き軌道上でヘルパーモデルを訓練する。
このオフラインアプローチは、トレーニング中のコストのかかる介入コールを大幅に削減する。
論文 参考訳(メタデータ) (2025-02-07T00:06:17Z) - AutoPT: How Far Are We from the End2End Automated Web Penetration Testing? [54.65079443902714]
LLMによって駆動されるPSMの原理に基づく自動浸透試験エージェントであるAutoPTを紹介する。
以上の結果から, AutoPT は GPT-4o ミニモデル上でのベースラインフレームワーク ReAct よりも優れていた。
論文 参考訳(メタデータ) (2024-11-02T13:24:30Z) - Lessons for Editors of AI Incidents from the AI Incident Database [2.5165775267615205]
AIインシデントデータベース(AIID)は、AIインシデントをカタログ化し、インシデントを分類するプラットフォームを提供することでさらなる研究を支援するプロジェクトである。
この研究は、AIIDの750以上のAIインシデントのデータセットと、これらのインシデントに適用された2つの独立した曖昧さをレビューし、AIインシデントをインデックス化し分析する一般的な課題を特定する。
我々は、インシデントプロセスが原因、害の程度、重大さ、あるいは関連するシステムの技術的詳細に関連する不確実性に対してより堅牢になるよう、軽減策を報告する。
論文 参考訳(メタデータ) (2024-09-24T19:46:58Z) - Dependency Aware Incident Linking in Large Cloud Systems [8.797638977934646]
本稿では,インシデントリンクの精度とカバレッジを向上させるために,依存性対応インシデントリンク(DiLink)フレームワークを提案する。
また,Orthogonal Procrustesを用いてマルチモーダル(テキストおよびグラフィカル)データの埋め込みを整列する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-05T13:54:11Z) - Automatic Root Cause Analysis via Large Language Models for Cloud
Incidents [51.94361026233668]
クラウドインシデントの根本原因分析を自動化するために,大規模言語モデルによって強化されたオンコールシステムであるRCACopilotを紹介する。
RCACopilotは、入ってくるインシデントと、そのアラートタイプに基づいて対応するインシデントハンドラとをマッチングし、クリティカルランタイム診断情報を集約し、インシデントの根本原因カテゴリを予測し、説明的な物語を提供する。
Microsoftから1年分のインシデントからなる実世界のデータセットを使用してRCACopilotを評価する。
論文 参考訳(メタデータ) (2023-05-25T06:44:50Z) - AI for IT Operations (AIOps) on Cloud Platforms: Reviews, Opportunities
and Challenges [60.56413461109281]
IT運用のための人工知能(AIOps)は、AIのパワーとIT運用プロセスが生成するビッグデータを組み合わせることを目的としている。
我々は、IT運用活動が発信する重要なデータの種類、分析における規模と課題、そしてどのように役立つかについて深く議論する。
主要なAIOpsタスクは、インシデント検出、障害予測、根本原因分析、自動アクションに分類します。
論文 参考訳(メタデータ) (2023-04-10T15:38:12Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。