論文の概要: LogSage: An LLM-Based Framework for CI/CD Failure Detection and Remediation with Industrial Validation
- arxiv url: http://arxiv.org/abs/2506.03691v2
- Date: Mon, 06 Oct 2025 05:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.074284
- Title: LogSage: An LLM-Based Framework for CI/CD Failure Detection and Remediation with Industrial Validation
- Title(参考訳): LogSage: 産業バリデーションによるCI/CD障害の検出と修正のためのLLMベースのフレームワーク
- Authors: Weiyuan Xu, Juntao Luo, Tao Huang, Kaixin Sui, Jie Geng, Qijun Ma, Isami Akasaka, Xiaoxue Shi, Jing Tang, Peng Cai,
- Abstract要約: LogSageは、ルート原因分析(RCA)とCI/CD障害の自動修復のためのエンドツーエンドフレームワークである。
トークン効率のよいログ前処理パイプラインを使用して、ノイズをフィルタリングし、重大なエラーを抽出し、正確なRCAのための構造化診断プロンプトを実行する。
367のCI/CD障害のベンチマークでは、LogSageは98%以上の精度、ほぼ完璧なリコール、RCAステージにおけるF1の改善を達成している。
- 参考スコア(独自算出の注目度): 15.666174528504806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous Integration and Deployment (CI/CD) pipelines are critical to modern software engineering, yet diagnosing and resolving their failures remains complex and labor-intensive. We present LogSage, the first end-to-end LLM-powered framework for root cause analysis (RCA) and automated remediation of CI/CD failures. LogSage employs a token-efficient log preprocessing pipeline to filter noise and extract critical errors, then performs structured diagnostic prompting for accurate RCA. For solution generation, it leverages retrieval-augmented generation (RAG) to reuse historical fixes and invokes automation fixes via LLM tool-calling. On a newly curated benchmark of 367 GitHub CI/CD failures, LogSage achieves over 98\% precision, near-perfect recall, and an F1 improvement of more than 38\% points in the RCA stage, compared with recent LLM-based baselines. In a year-long industrial deployment at ByteDance, it processed over 1.07M executions, with end-to-end precision exceeding 80\%. These results demonstrate that LogSage provides a scalable and practical solution for automating CI/CD failure management in real-world DevOps workflows.
- Abstract(参考訳): 継続的インテグレーションとデプロイメント(CI/CD)パイプラインは,現代的なソフトウェアエンジニアリングにとって重要なものだが,障害の診断と解決は依然として複雑で作業集約的だ。
我々は、ルート原因分析(RCA)とCI/CD障害の自動修復のための、最初のエンドツーエンドのLLMフレームワークであるLogSageを紹介する。
LogSageはトークン効率のよいログ前処理パイプラインを使用してノイズをフィルタリングし、重大なエラーを抽出し、正確なRCAのための構造化診断プロンプトを実行する。
ソリューション生成には、検索拡張生成(RAG)を活用し、過去の修正を再利用し、LLMツールコールを通じて自動化修正を実行する。
367のGitHub CI/CD障害の新たなベンチマークで、LogSageは、最近のLCMベースのベースラインと比較して、98\%の精度、ほぼ完璧なリコール、RCAステージでのF1の改善を達成している。
ByteDanceでの1年間の産業展開では、1.07万以上の実行を処理し、エンドツーエンドの精度は80%以上だった。
これらの結果は、現実のDevOpsワークフローでCI/CD障害管理を自動化するためのスケーラブルで実用的なソリューションをLogSageが提供していることを示している。
関連論文リスト
- InferLog: Accelerating LLM Inference for Online Log Parsing via ICL-oriented Prefix Caching [23.53991589506265]
InferLogはオンラインログ解析のための最初の推論最適化手法である。
InferLogは(1)プレフィックス対応のICLリファインメントポリシーを設計して推論を加速し、インコンテキスト学習の例と置換を洗練し、プレフィックスキャッシュ効率を向上させる。
論文 参考訳(メタデータ) (2025-07-11T12:21:29Z) - AnomalyGen: An Automated Semantic Log Sequence Generation Framework with LLM for Anomaly Detection [25.83270938475311]
AnomalyGenは、異常検出用に特別に設計された最初の自動ログ合成フレームワークである。
本フレームワークは,プログラム解析とChain-of-Thought推論(CoT推論)を統合し,反復的なログ生成と異常アノテーションを実現する。
合成ログでベンチマークデータセットを増大させると、最大F1スコアの3.7%の改善が観測される。
論文 参考訳(メタデータ) (2025-04-16T16:54:38Z) - LogLSHD: Fast Log Parsing with Locality-Sensitive Hashing and Dynamic Time Warping [2.415288727960745]
大規模ソフトウェアシステムは、監視、診断、性能最適化に不可欠な大量のシステムログを生成する。
LogLSHDは解析時間において例外的な効率を示し、最先端の手法よりも優れています。
例えば、Drainと比較して、LogLSHDは平均パース時間を73%削減し、LogHub 2.0ベンチマークでは平均パース精度を15%向上した。
論文 参考訳(メタデータ) (2025-04-02T23:08:04Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Face It Yourselves: An LLM-Based Two-Stage Strategy to Localize Configuration Errors via Logs [29.736051629726145]
コンフィグレーションエラーはメンテナと新しいエンドユーザにとって大きな課題となる。
ログがほとんどのエンドユーザに容易にアクセス可能であることを考慮し、設定エラーのローカライズにログを利用する際の課題と機会を概説する予備的研究を行う。
予備研究から得られた知見に基づいて,エンドユーザーがログに基づいて根源構成特性をローカライズするためのLLMベースの2段階戦略を提案する。
論文 参考訳(メタデータ) (2024-03-31T10:47:38Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。