論文の概要: Leveraging Large Language Model for Intelligent Log Processing and Autonomous Debugging in Cloud AI Platforms
- arxiv url: http://arxiv.org/abs/2506.17900v1
- Date: Sun, 22 Jun 2025 04:58:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-24 19:06:36.642865
- Title: Leveraging Large Language Model for Intelligent Log Processing and Autonomous Debugging in Cloud AI Platforms
- Title(参考訳): クラウドAIプラットフォームにおけるインテリジェントなログ処理と自動デバッグのための大規模言語モデルを活用する
- Authors: Cheng Ji, Huaiying Luo,
- Abstract要約: 本稿では,Large Language Model (LLM) に基づくインテリジェントログ処理と自動デバッグフレームワークである Intelligent Debugger (LLM-ID) を提案する。
クラウドプラットフォームログデータセットの実験では、LLM-IDは障害位置の精度を16.2%向上させており、これは現在の主流メソッドよりも大幅に向上している。
- 参考スコア(独自算出の注目度): 1.819979627431298
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the increasing complexity and rapid expansion of the scale of AI systems in cloud platforms, the log data generated during system operation is massive, unstructured, and semantically ambiguous, which brings great challenges to fault location and system self-repair. In order to solve this problem, this paper proposes an intelligent log processing and automatic debugging framework based on Large Language Model (LLM), named Intelligent Debugger (LLM-ID). This method is extended on the basis of the existing pre-trained Transformer model, and integrates a multi-stage semantic inference mechanism to realize the context understanding of system logs and the automatic reconstruction of fault chains. Firstly, the system log is dynamically structured, and the unsupervised clustering and embedding mechanism is used to extract the event template and semantic schema. Subsequently, the fine-tuned LLM combined with the multi-round attention mechanism to perform contextual reasoning on the log sequence to generate potential fault assumptions and root cause paths. Furthermore, this paper introduces a reinforcement learning-based policy-guided recovery planner, which is driven by the remediation strategy generated by LLM to support dynamic decision-making and adaptive debugging in the cloud environment. Compared with the existing rule engine or traditional log analysis system, the proposed model has stronger semantic understanding ability, continuous learning ability and heterogeneous environment adaptability. Experiments on the cloud platform log dataset show that LLM-ID improves the fault location accuracy by 16.2%, which is significantly better than the current mainstream methods
- Abstract(参考訳): クラウドプラットフォームにおけるAIシステムの規模が複雑化し、急速に拡大するにつれ、システム運用中に生成されたログデータは巨大で、構造化されておらず、意味的に曖昧になり、フォールトロケーションとシステム自己修復に大きな課題をもたらします。
そこで本稿では,Large Language Model (LLM) に基づくインテリジェントログ処理と自動デバッグフレームワークである Intelligent Debugger (LLM-ID) を提案する。
本手法は,既存のトレーニング済みトランスフォーマーモデルに基づいて拡張され,マルチステージセマンティック推論機構を統合し,システムログのコンテキスト理解と障害チェーンの自動再構築を実現する。
まず、システムログは動的に構造化され、教師なしクラスタリングと埋め込み機構を使用してイベントテンプレートとセマンティックスキーマを抽出する。
その後、微調整LDMとマルチラウンドアテンション機構を組み合わせることで、ログシーケンスのコンテキスト推論を行い、潜在的な故障仮定とルート原因経路を生成する。
さらに,クラウド環境における動的意思決定と適応デバッギングを支援するため,LLMが生み出した修復戦略によって推進される強化学習に基づく政策誘導型リカバリプランナについても紹介する。
既存のルールエンジンや従来のログ分析システムと比較して,提案モデルはより強力な意味理解能力,継続的な学習能力,異種環境適応性を有する。
クラウドプラットフォームログデータセットの実験によると、LLM-IDは障害位置の精度を16.2%向上し、現在の主流手法よりも大幅に向上している。
関連論文リスト
- Feature Engineering for Agents: An Adaptive Cognitive Architecture for Interpretable ML Monitoring [2.1205272468688574]
大規模言語モデルに基づくエージェントに特徴工学の原則を適用したMLモニタリングのための認知アーキテクチャを提案する。
決定手順モジュールは、リファクタリング、ブレークダウン、コンパイルという3つの重要なステップを通じて、機能エンジニアリングをシミュレートする。
複数のLCMを用いた実験により, 各種ベースラインと比較して精度が有意に向上し, 提案手法の有効性が示された。
論文 参考訳(メタデータ) (2025-06-11T13:48:25Z) - An Intelligent Fault Self-Healing Mechanism for Cloud AI Systems via Integration of Large Language Models and Deep Reinforcement Learning [1.1149781202731994]
大規模言語モデル(LLM)と深層強化学習(DRL)を統合したインテリジェントフォールト自己修復機構(IFSHM)を提案する。
IFSHMは,クラウドAIシステムにおけるセマンティック理解とポリシ最適化機能を備えた障害復旧フレームワークの実現を目的としている。
クラウドフォールトインジェクションプラットフォームの実験的結果は、既存のDRLとルールメソッドと比較して、IFSHMフレームワークが未知の障害シナリオでシステムリカバリ時間を37%短縮することを示している。
論文 参考訳(メタデータ) (2025-06-09T04:14:05Z) - Pangu Embedded: An Efficient Dual-system LLM Reasoner with Metacognition [95.54406667705999]
Pangu Embeddedは、Ascend Neural Processing Units (NPU) 上で開発された効率的なLarge Language Model (LLM) 推論器である。
既存の推論最適化 LLM でよく見られる計算コストと推論遅延の問題に対処する。
単一の統一モデルアーキテクチャ内で、迅速な応答と最先端の推論品質を提供する。
論文 参考訳(メタデータ) (2025-05-28T14:03:02Z) - Cloud-Based AI Systems: Leveraging Large Language Models for Intelligent Fault Detection and Autonomous Self-Healing [1.819979627431298]
本稿では,クラウドシステムにおけるインテリジェントな障害検出と自己修復機構を実現するために,LLM(Massive Language Model)に基づく新しいAIフレームワークを提案する。
提案手法は, 故障検出精度, システムダウンタイム低減, 復旧速度の観点から, 従来の故障検出システムよりも有意に優れている。
論文 参考訳(メタデータ) (2025-05-16T23:02:57Z) - TAMO:Fine-Grained Root Cause Analysis via Tool-Assisted LLM Agent with Multi-Modality Observation Data in Cloud-Native Systems [33.5606443790794]
大規模言語モデル(LLM)は、コンテキスト推論とドメイン知識の統合においてブレークスルーをもたらした。
細粒度根本原因解析のための多モード観測データ,すなわちTAMOを用いたツール支援LLMエージェントを提案する。
論文 参考訳(メタデータ) (2025-04-29T06:50:48Z) - Model Hemorrhage and the Robustness Limits of Large Language Models [119.46442117681147]
大規模言語モデル(LLM)は、自然言語処理タスク全体で強力なパフォーマンスを示すが、デプロイメント用に修正された場合、大幅なパフォーマンス低下を経験する。
この現象をモデル出血(パラメータ変更とアーキテクチャ変更によるパフォーマンス低下)と定義する。
論文 参考訳(メタデータ) (2025-03-31T10:16:03Z) - Adaptive Fault Tolerance Mechanisms of Large Language Models in Cloud Computing Environments [5.853391005435494]
本研究では,クラウドコンピューティングシナリオにおける大規模言語モデルの信頼性と可用性を確保するため,新しい適応型耐故障機構を提案する。
チェックポイント、冗長性、状態遷移といった既知のフォールトトレラントメカニズムに基づいて構築され、動的リソース割り当てとリアルタイムパフォーマンスメトリクスに基づく障害予測が導入されている。
論文 参考訳(メタデータ) (2025-03-15T18:45:33Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Multi-modal Causal Structure Learning and Root Cause Analysis [67.67578590390907]
根本原因局所化のためのマルチモーダル因果構造学習手法であるMulanを提案する。
ログ選択言語モデルを利用してログ表現学習を行い、ログシーケンスを時系列データに変換する。
また、モダリティの信頼性を評価し、最終因果グラフを共同学習するための新しいキーパフォーマンスインジケータ対応アテンション機構も導入する。
論文 参考訳(メタデータ) (2024-02-04T05:50:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。