論文の概要: LogPilot: Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems
- arxiv url: http://arxiv.org/abs/2509.25874v1
- Date: Tue, 30 Sep 2025 07:11:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 17:09:04.464041
- Title: LogPilot: Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems
- Title(参考訳): LogPilot: 大規模オンラインサービスシステムにおけるIntent-awareとScalable Alert診断
- Authors: Zhihan Jiang, Jinyang Liu, Yichen Li, Haiyu Huang, Xiao He, Tieying Zhang, Jianjun Chen, Yi Li, Rui Shi, Michael R. Lyu,
- Abstract要約: LogPilotは、ログベースの自動アラート診断のためのLarge Language Models(LLM)を利用したインテント対応フレームワークである。
各リクエストの実行を時間的ログチェーンに再構築し、同様のチェーンをクラスタして、繰り返し実行される実行パターンを特定し、診断のためにLLMに代表的なサンプルを提供する。
LogPilotは、Volcano Engine Cloudの現実世界のアラートに基づいて、根本原因の要約の有用性を50.34%改善し、最先端の手法よりも正確なローカライゼーション精度を54.79%向上させた。
- 参考スコア(独自算出の注目度): 41.55191803277989
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective alert diagnosis is essential for ensuring the reliability of large-scale online service systems. However, on-call engineers are often burdened with manually inspecting massive volumes of logs to identify root causes. While various automated tools have been proposed, they struggle in practice due to alert-agnostic log scoping and the inability to organize complex data effectively for reasoning. To overcome these limitations, we introduce LogPilot, an intent-aware and scalable framework powered by Large Language Models (LLMs) for automated log-based alert diagnosis. LogPilot introduces an intent-aware approach, interpreting the logic in alert definitions (e.g., PromQL) to precisely identify causally related logs and requests. To achieve scalability, it reconstructs each request's execution into a spatiotemporal log chain, clusters similar chains to identify recurring execution patterns, and provides representative samples to the LLMs for diagnosis. This clustering-based approach ensures the input is both rich in diagnostic detail and compact enough to fit within the LLM's context window. Evaluated on real-world alerts from Volcano Engine Cloud, LogPilot improves the usefulness of root cause summarization by 50.34% and exact localization accuracy by 54.79% over state-of-the-art methods. With a diagnosis time under one minute and a cost of only $0.074 per alert, LogPilot has been successfully deployed in production, offering an automated and practical solution for service alert diagnosis.
- Abstract(参考訳): 大規模なオンラインサービスシステムの信頼性を確保するためには,効果的なアラート診断が不可欠である。
しかし、オンコールエンジニアはしばしば、根本原因を特定するために大量のログを手動で検査する責任を負う。
さまざまな自動化ツールが提案されているが、アラートに依存しないログスコーピングと、推論のために複雑なデータを効果的に整理できないため、実践に苦慮している。
これらの制限を克服するため、ログベースの自動アラート診断のために、LLM(Large Language Models)を利用したインテントアウェアでスケーラブルなフレームワークであるLogPilotを紹介した。
LogPilotでは、警告定義(例えば、PromQL)のロジックを解釈して、因果関係のログとリクエストを正確に識別する、インテント対応のアプローチを導入している。
スケーラビリティを実現するために、各要求の実行を時空間のログチェーンに再構成し、類似のチェーンをクラスタ化して繰り返し実行される実行パターンを特定し、診断のためにLLMに代表的なサンプルを提供する。
このクラスタリングベースのアプローチは、入力が診断の詳細に富み、LLMのコンテキストウィンドウに収まるほどコンパクトであることを保証する。
LogPilotは、Volcano Engine Cloudの現実世界のアラートに基づいて、根本原因の要約の有用性を50.34%改善し、最先端の手法よりも正確なローカライゼーション精度を54.79%向上させた。
診断時間は1分以内で、アラート1つ当たり0.074ドルしかかからないため、LogPilotは運用に成功し、自動的で実用的なサービスアラート診断ソリューションを提供している。
関連論文リスト
- Cross-System Software Log-based Anomaly Detection Using Meta-Learning [17.39262430769509]
AIOpsツールは、ソフトウェアシステムのログベースの異常検出プロセスを自動化するために開発されている。
この分野では、高いデータラベリングコスト、動的システムのログの進化、異なるシステム間の適応性という、3つの実践的な課題が広く認識されている。
これらの課題に対応するために特別に設計された,ログイベントレベルの異常検出のためのAIOpsツールであるCroSysLogを提案する。
論文 参考訳(メタデータ) (2024-12-19T22:55:45Z) - Demystifying and Extracting Fault-indicating Information from Logs for Failure Diagnosis [29.800380941293277]
エンジニアは、診断のためにログ情報の2つのカテゴリを優先順位付けする。
そこで本研究では,LoFIと呼ばれる故障診断のためのログから誤検出情報を自動抽出する手法を提案する。
LoFIは全てのベースライン法を大幅な差で上回り、最高のベースライン法であるChatGPTよりもF1の25.837.9を絶対的に改善した。
論文 参考訳(メタデータ) (2024-09-20T15:00:47Z) - LogRCA: Log-based Root Cause Analysis for Distributed Services [4.049637286678329]
根本原因を記述した最小限のログ行を識別する新しい方法であるLogRCAを提案する。
LogRCAは、希少で未知のエラーに対処するために、半教師付き学習アプローチを使用し、ノイズの多いデータを扱うように設計されている。
4430万のログ行からなる大規模プロダクションログデータセットに対して,当社のアプローチを評価した。
論文 参考訳(メタデータ) (2024-05-22T12:50:56Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。
我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2023-01-25T16:34:43Z) - Leveraging Log Instructions in Log-based Anomaly Detection [0.5949779668853554]
本稿では,システムログからの信頼性と実用的な異常検出手法を提案する。
1000以上のGitHubプロジェクトのソースコードからログインストラクションを備えた異常検出モデルを構築することで、関連する作業の一般的な欠点を克服する。
提案手法はADLILogと呼ばれ,興味あるシステム(ターゲットシステム)からのログ命令とデータを組み合わせて,深層ニューラルネットワークモデルを学習する。
論文 参考訳(メタデータ) (2022-07-07T10:22:10Z) - LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak
Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。
本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。
我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文 参考訳(メタデータ) (2021-11-02T15:16:08Z) - A2Log: Attentive Augmented Log Anomaly Detection [53.06341151551106]
異常検出は、ITサービスの信頼性とサービス性にとってますます重要になる。
既存の教師なし手法は、適切な決定境界を得るために異常な例を必要とする。
我々は,異常判定と異常判定の2段階からなる教師なし異常検出手法であるA2Logを開発した。
論文 参考訳(メタデータ) (2021-09-20T13:40:21Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。