論文の概要: Causal AI-based Root Cause Identification: Research to Practice at Scale
- arxiv url: http://arxiv.org/abs/2502.18240v1
- Date: Tue, 25 Feb 2025 14:20:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:23:26.927118
- Title: Causal AI-based Root Cause Identification: Research to Practice at Scale
- Title(参考訳): 因果的AIに基づく根本原因同定:大規模に実践する研究
- Authors: Saurabh Jha, Ameet Rahane, Laura Shwartz, Marc Palaci-Olgun, Frank Bagehorn, Jesus Rios, Dan Stingaciu, Ragu Kattinakere, Debasish Banerjee,
- Abstract要約: 我々は,相関関係に対する因果関係を強調する新しい因果関係に基づくルート因果同定(RCI)アルゴリズムを開発した。
本稿では、Instanaの高度な故障診断機能を強調し、RCIアルゴリズムの理論的基盤と実践的実装について論じる。
- 参考スコア(独自算出の注目度): 2.455633941531165
- License:
- Abstract: Modern applications are built as large, distributed systems spanning numerous modules, teams, and data centers. Despite robust engineering and recovery strategies, failures and performance issues remain inevitable, risking significant disruptions and affecting end users. Rapid and accurate root cause identification is therefore vital to ensure system reliability and maintain key service metrics. We have developed a novel causality-based Root Cause Identification (RCI) algorithm that emphasizes causation over correlation. This algorithm has been integrated into IBM Instana-bridging research to practice at scale-and is now in production use by enterprise customers. By leveraging "causal AI," Instana stands apart from typical Application Performance Management (APM) tools, pinpointing issues in near real-time. This paper highlights Instana's advanced failure diagnosis capabilities, discussing both the theoretical underpinnings and practical implementations of the RCI algorithm. Real-world examples illustrate how our causality-based approach enhances reliability and performance in today's complex system landscapes.
- Abstract(参考訳): 現代のアプリケーションは、多数のモジュール、チーム、データセンターにまたがる大規模な分散システムとして構築されている。
堅牢なエンジニアリングとリカバリ戦略にもかかわらず、障害とパフォーマンスの問題は避けられないままであり、重大な障害を発生させ、エンドユーザに影響を与える。
したがって、システムの信頼性を確保し、主要なサービスメトリクスを維持するためには、迅速かつ正確な根本原因識別が不可欠である。
我々は,相関関係に対する因果関係を強調する新しい因果関係に基づくルート因果同定(RCI)アルゴリズムを開発した。
このアルゴリズムはIBM Instana-bridging Researchに統合され、大規模に実践されている。
を活用することで、Instanaは典型的なアプリケーションパフォーマンス管理(APM)ツールとは独立して、ほぼリアルタイムで問題を特定できる。
本稿では、Instanaの高度な故障診断機能を強調し、RCIアルゴリズムの理論的基盤と実践的実装について論じる。
実世界の例は、私たちの因果関係に基づくアプローチが、今日の複雑なシステム環境における信頼性とパフォーマンスを高める方法を示しています。
関連論文リスト
- LLM Assisted Anomaly Detection Service for Site Reliability Engineers: Enhancing Cloud Infrastructure Resilience [5.644170923282226]
本稿では,産業時系列データに適した汎用APIを備えたスケーラブルな異常検出サービスを提案する。
サービスの利用パターンに関する洞察を提供しています。年間500人以上のユーザと20万のAPIコールがあります。
時系列基礎モデルを含むシステムを拡張し、ゼロショット異常検出機能を実現する計画である。
論文 参考訳(メタデータ) (2025-01-28T06:41:37Z) - Online Multi-modal Root Cause Analysis [61.94987309148539]
ルート原因分析(RCA)は、マイクロサービスシステムにおける障害の根本原因の特定に不可欠である。
既存のオンラインRCAメソッドは、マルチモーダルシステムにおける複雑な相互作用を見渡す単一モーダルデータのみを処理する。
OCEANは、根本原因の局在化のための新しいオンラインマルチモーダル因果構造学習手法である。
論文 参考訳(メタデータ) (2024-10-13T21:47:36Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - Exploring LLM-based Agents for Root Cause Analysis [17.053079105858497]
ルート原因分析(RCA)はインシデント管理プロセスの重要な部分である。
大規模言語モデル(LLM)はRCAの実行に使用されているが、追加の診断情報を収集することはできない。
検索ツールを備えたReActエージェントを,マイクロソフトが収集した生産事故のアウト・オブ・ディストリビューション・データセット上で評価する。
論文 参考訳(メタデータ) (2024-03-07T00:44:01Z) - Analyzing Adversarial Inputs in Deep Reinforcement Learning [53.3760591018817]
本稿では, 正当性検証のレンズを用いて, 逆入力の特性を包括的に解析する。
このような摂動に対する感受性に基づいてモデルを分類するために、新しい計量である逆数率(Adversarial Rate)を導入する。
本分析は, 直交入力が所定のDRLシステムの安全性にどのように影響するかを実証的に示す。
論文 参考訳(メタデータ) (2024-02-07T21:58:40Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z) - Root Cause Analysis In Microservice Using Neural Granger Causal
Discovery [12.35924469567586]
本稿では、ニューラルグラガー因果探索と対照的学習を用いた根本原因解析の新しい手法であるRUNを提案する。
RUNは時系列からコンテキスト情報を統合することでバックボーンエンコーダを強化し、時系列予測モデルを利用して神経グランガー因果発見を行う。
さらに、RUNはPagerankをベクターに組み込んで、トップkのルート原因を効率的に推奨している。
論文 参考訳(メタデータ) (2024-02-02T04:43:06Z) - On a Uniform Causality Model for Industrial Automation [61.303828551910634]
産業自動化の様々な応用分野に対する一様因果モデルを提案する。
得られたモデルは、サイバー物理システムの振る舞いを数学的に記述する。
このモデルは、機械学習に焦点を当てた産業自動化における新しいアプローチの応用の基盤として機能することが示されている。
論文 参考訳(メタデータ) (2022-09-20T11:23:51Z) - Accelerating Recursive Partition-Based Causal Structure Learning [4.357523892518871]
帰納的因果探索アルゴリズムは、より小さなサブプロブレムで条件独立性テスト(CI)を用いて良い結果をもたらす。
本稿では,少数のCIテストと望ましくない関係を特定できる汎用因果構造改善戦略を提案する。
次に,合成および実データ集合における解の質と完了時間の観点から,最先端アルゴリズムに対する性能を実証的に評価する。
論文 参考訳(メタデータ) (2021-02-23T08:28:55Z) - Towards AIOps in Edge Computing Environments [60.27785717687999]
本稿では,異種分散環境に適用可能なaiopsプラットフォームのシステム設計について述べる。
高頻度でメトリクスを収集し、エッジデバイス上で特定の異常検出アルゴリズムを直接実行することが可能である。
論文 参考訳(メタデータ) (2021-02-12T09:33:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。