論文の概要: Cloud-Based AI Systems: Leveraging Large Language Models for Intelligent Fault Detection and Autonomous Self-Healing
- arxiv url: http://arxiv.org/abs/2505.11743v1
- Date: Fri, 16 May 2025 23:02:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-20 14:57:10.818209
- Title: Cloud-Based AI Systems: Leveraging Large Language Models for Intelligent Fault Detection and Autonomous Self-Healing
- Title(参考訳): クラウドベースのAIシステム:インテリジェント障害検出と自律自己修復のための大規模言語モデルを活用する
- Authors: Cheng Ji, Huaiying Luo,
- Abstract要約: 本稿では,クラウドシステムにおけるインテリジェントな障害検出と自己修復機構を実現するために,LLM(Massive Language Model)に基づく新しいAIフレームワークを提案する。
提案手法は, 故障検出精度, システムダウンタイム低減, 復旧速度の観点から, 従来の故障検出システムよりも有意に優れている。
- 参考スコア(独自算出の注目度): 1.819979627431298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of cloud computing systems and the increasing complexity of their infrastructure, intelligent mechanisms to detect and mitigate failures in real time are becoming increasingly important. Traditional methods of failure detection are often difficult to cope with the scale and dynamics of modern cloud environments. In this study, we propose a novel AI framework based on Massive Language Model (LLM) for intelligent fault detection and self-healing mechanisms in cloud systems. The model combines existing machine learning fault detection algorithms with LLM's natural language understanding capabilities to process and parse system logs, error reports, and real-time data streams through semantic context. The method adopts a multi-level architecture, combined with supervised learning for fault classification and unsupervised learning for anomaly detection, so that the system can predict potential failures before they occur and automatically trigger the self-healing mechanism. Experimental results show that the proposed model is significantly better than the traditional fault detection system in terms of fault detection accuracy, system downtime reduction and recovery speed.
- Abstract(参考訳): クラウドコンピューティングシステムの急速な開発とインフラの複雑さの増大により、リアルタイムに障害を検出し緩和するインテリジェントなメカニズムがますます重要になっている。
従来の障害検出手法は、現代のクラウド環境のスケールとダイナミックスに対処することがしばしば困難である。
本研究では,大規模言語モデル(LLM)に基づく,インテリジェントな故障検出と自己修復機構のための新しいAIフレームワークを提案する。
このモデルは、既存の機械学習障害検出アルゴリズムとLLMの自然言語理解機能を組み合わせて、セマンティックコンテキストを通じてシステムログ、エラーレポート、リアルタイムデータストリームを処理、解析する。
本手法は,故障分類のための教師付き学習と異常検出のための教師なし学習を組み合わせたマルチレベルアーキテクチャを採用し,異常発生前の潜在的な故障を予測し,自己修復機構を自動起動する。
実験結果から, 従来の故障検出システムよりも, 故障検出精度, システムダウンタイムの低減, 復旧速度の点で有意に優れていることがわかった。
関連論文リスト
- Research on Cloud Platform Network Traffic Monitoring and Anomaly Detection System based on Large Language Models [5.524069089627854]
本稿では,大規模言語モデル(LLM)に基づくネットワークトラフィック監視と異常検出システムを提案する。
事前訓練された大言語モデルは、予測可能なネットワークトラフィックを分析し予測し、異常検出層は時間性とコンテキストを考慮する。
その結果,設計したモデルは,検出精度と計算効率において従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2025-04-22T07:42:07Z) - Adaptive Fault Tolerance Mechanisms of Large Language Models in Cloud Computing Environments [5.853391005435494]
本研究では,クラウドコンピューティングシナリオにおける大規模言語モデルの信頼性と可用性を確保するため,新しい適応型耐故障機構を提案する。
チェックポイント、冗長性、状態遷移といった既知のフォールトトレラントメカニズムに基づいて構築され、動的リソース割り当てとリアルタイムパフォーマンスメトリクスに基づく障害予測が導入されている。
論文 参考訳(メタデータ) (2025-03-15T18:45:33Z) - Real-Time Anomaly Detection and Reactive Planning with Large Language Models [18.57162998677491]
例えば、大規模な言語モデル(LLM)は、インターネットスケールのデータに基づいて訓練され、ゼロショット機能を持つ。
本稿では,潜在的な異常に関する判断を安全な制御フレームワークに組み込む2段階の推論フレームワークを提案する。
これにより、モニターは、四輪車や自動運転車のような動的ロボットシステムの信頼性を向上させることができる。
論文 参考訳(メタデータ) (2024-07-11T17:59:22Z) - Representing Timed Automata and Timing Anomalies of Cyber-Physical
Production Systems in Knowledge Graphs [51.98400002538092]
本稿では,学習されたタイムドオートマトンとシステムに関する公式知識グラフを組み合わせることで,CPPSのモデルベース異常検出を改善することを目的とする。
モデルと検出された異常の両方を知識グラフに記述し、モデルと検出された異常をより容易に解釈できるようにする。
論文 参考訳(メタデータ) (2023-08-25T15:25:57Z) - AttNS: Attention-Inspired Numerical Solving For Limited Data Scenarios [51.94807626839365]
限定データによる微分方程式の解法として,注目型数値解法(AttNS)を提案する。
AttNSは、モデル一般化とロバスト性の向上におけるResidual Neural Networks(ResNet)のアテンションモジュールの効果にインスパイアされている。
論文 参考訳(メタデータ) (2023-02-05T01:39:21Z) - Towards an Awareness of Time Series Anomaly Detection Models'
Adversarial Vulnerability [21.98595908296989]
本研究では,センサデータに小さな対向摂動のみを加えることで,最先端の異常検出手法の性能を著しく劣化させることを実証した。
いくつかのパブリックデータセットとプライベートデータセットに対して、予測エラー、異常、分類スコアなど、さまざまなスコアを使用する。
敵攻撃に対する異常検出システムの脆弱性を初めて実証した。
論文 参考訳(メタデータ) (2022-08-24T01:55:50Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z) - Data-driven Residual Generation for Early Fault Detection with Limited
Data [4.129225533930966]
多くの複雑なシステムでは、システムのための高精度なモデルを開発することは不可能である。
データ駆動型ソリューションは、いくつかの実践的な理由から、産業システムにおいて大きな注目を集めている。
モデルに基づく手法とは異なり、圧力や電圧などの時系列測定を他の情報源と組み合わせることが直接の前進である。
論文 参考訳(メタデータ) (2021-09-28T03:18:03Z) - TELESTO: A Graph Neural Network Model for Anomaly Classification in
Cloud Services [77.454688257702]
機械学習(ML)と人工知能(AI)はITシステムの運用とメンテナンスに適用される。
1つの方向は、修復自動化を可能にするために、繰り返し発生する異常タイプを認識することである。
与えられたデータの次元変化に不変な手法を提案する。
論文 参考訳(メタデータ) (2021-02-25T14:24:49Z) - Using Data Assimilation to Train a Hybrid Forecast System that Combines
Machine-Learning and Knowledge-Based Components [52.77024349608834]
利用可能なデータがノイズの多い部分測定の場合,カオスダイナミクスシステムのデータ支援予測の問題を検討する。
動的システムの状態の部分的測定を用いることで、不完全な知識ベースモデルによる予測を改善するために機械学習モデルを訓練できることを示す。
論文 参考訳(メタデータ) (2021-02-15T19:56:48Z) - Self-organizing Democratized Learning: Towards Large-scale Distributed
Learning Systems [71.14339738190202]
民主化された学習(Dem-AI)は、大規模な分散および民主化された機械学習システムを構築するための基本原則を備えた全体主義的哲学を定めている。
本稿では,Dem-AI哲学にヒントを得た分散学習手法を提案する。
提案アルゴリズムは,従来のFLアルゴリズムと比較して,エージェントにおける学習モデルの一般化性能が向上することを示す。
論文 参考訳(メタデータ) (2020-07-07T08:34:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。