論文の概要: LogSage: An LLM-Based Framework for CI/CD Failure Detection and Remediation with Industrial Validation
- arxiv url: http://arxiv.org/abs/2506.03691v2
- Date: Mon, 06 Oct 2025 05:05:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 14:28:10.074284
- Title: LogSage: An LLM-Based Framework for CI/CD Failure Detection and Remediation with Industrial Validation
- Title(参考訳): LogSage: 産業バリデーションによるCI/CD障害の検出と修正のためのLLMベースのフレームワーク
- Authors: Weiyuan Xu, Juntao Luo, Tao Huang, Kaixin Sui, Jie Geng, Qijun Ma, Isami Akasaka, Xiaoxue Shi, Jing Tang, Peng Cai,
- Abstract要約: LogSageは、ルート原因分析(RCA)とCI/CD障害の自動修復のためのエンドツーエンドフレームワークである。
トークン効率のよいログ前処理パイプラインを使用して、ノイズをフィルタリングし、重大なエラーを抽出し、正確なRCAのための構造化診断プロンプトを実行する。
367のCI/CD障害のベンチマークでは、LogSageは98%以上の精度、ほぼ完璧なリコール、RCAステージにおけるF1の改善を達成している。
- 参考スコア(独自算出の注目度): 15.666174528504806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous Integration and Deployment (CI/CD) pipelines are critical to modern software engineering, yet diagnosing and resolving their failures remains complex and labor-intensive. We present LogSage, the first end-to-end LLM-powered framework for root cause analysis (RCA) and automated remediation of CI/CD failures. LogSage employs a token-efficient log preprocessing pipeline to filter noise and extract critical errors, then performs structured diagnostic prompting for accurate RCA. For solution generation, it leverages retrieval-augmented generation (RAG) to reuse historical fixes and invokes automation fixes via LLM tool-calling. On a newly curated benchmark of 367 GitHub CI/CD failures, LogSage achieves over 98\% precision, near-perfect recall, and an F1 improvement of more than 38\% points in the RCA stage, compared with recent LLM-based baselines. In a year-long industrial deployment at ByteDance, it processed over 1.07M executions, with end-to-end precision exceeding 80\%. These results demonstrate that LogSage provides a scalable and practical solution for automating CI/CD failure management in real-world DevOps workflows.
- Abstract(参考訳): 継続的インテグレーションとデプロイメント(CI/CD)パイプラインは,現代的なソフトウェアエンジニアリングにとって重要なものだが,障害の診断と解決は依然として複雑で作業集約的だ。
我々は、ルート原因分析(RCA)とCI/CD障害の自動修復のための、最初のエンドツーエンドのLLMフレームワークであるLogSageを紹介する。
LogSageはトークン効率のよいログ前処理パイプラインを使用してノイズをフィルタリングし、重大なエラーを抽出し、正確なRCAのための構造化診断プロンプトを実行する。
ソリューション生成には、検索拡張生成(RAG)を活用し、過去の修正を再利用し、LLMツールコールを通じて自動化修正を実行する。
367のGitHub CI/CD障害の新たなベンチマークで、LogSageは、最近のLCMベースのベースラインと比較して、98\%の精度、ほぼ完璧なリコール、RCAステージでのF1の改善を達成している。
ByteDanceでの1年間の産業展開では、1.07万以上の実行を処理し、エンドツーエンドの精度は80%以上だった。
これらの結果は、現実のDevOpsワークフローでCI/CD障害管理を自動化するためのスケーラブルで実用的なソリューションをLogSageが提供していることを示している。
関連論文リスト
- Graph-Based Self-Healing Tool Routing for Cost-Efficient LLM Agents [0.0]
自己修復ルータはフォールトトレラントなオーケストレーションアーキテクチャである。
ほとんどのエージェント制御フロー決定を、推論よりもルーティングとして扱う。
すべての障害はログ化されたリルートか明示的なエスカレーションのどちらかで、無音スキップはしない。
論文 参考訳(メタデータ) (2026-03-02T07:21:15Z) - Using Large Language Models to Support Automation of Failure Management in CI/CD Pipelines: A Case Study in SAP HANA [40.11960515464488]
大規模言語モデル(LLM)は、以前の作業による自動障害管理の有望な結果を示している。
大規模産業ソフトウェアプロジェクト,すなわちSAPの文脈で,CI/CDパイプラインの障害管理をLCMベースのシステムで自動化できるかどうかを検討した。
パイプライン情報や障害管理命令,過去の障害からのデータなど,さまざまな種類のドメイン知識をシステムに提供する。
このシステムは、ドメイン知識が与えられた場合のエラー位置を97.4%の精度で正確に識別し、それなしでは84.2%の精度で検出した。
論文 参考訳(メタデータ) (2026-02-06T13:55:48Z) - LogSieve: Task-Aware CI Log Reduction for Sustainable LLM-Based Analysis [0.0]
軽量でRCA対応,セマンティックス対応のログリダクション技術であるLogSieveを提案する。
GitHub Actionsを使って、20のオープンソースプロジェクトのCIログで評価します。
平均42%の行の削減と40%のトークンの削減を実現し、セマンティックロスを最小限に抑える。
論文 参考訳(メタデータ) (2026-01-28T00:49:50Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - LogPilot: Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems [41.55191803277989]
LogPilotは、ログベースの自動アラート診断のためのLarge Language Models(LLM)を利用したインテント対応フレームワークである。
各リクエストの実行を時間的ログチェーンに再構築し、同様のチェーンをクラスタして、繰り返し実行される実行パターンを特定し、診断のためにLLMに代表的なサンプルを提供する。
LogPilotは、Volcano Engine Cloudの現実世界のアラートに基づいて、根本原因の要約の有用性を50.34%改善し、最先端の手法よりも正確なローカライゼーション精度を54.79%向上させた。
論文 参考訳(メタデータ) (2025-09-30T07:11:28Z) - InferLog: Accelerating LLM Inference for Online Log Parsing via ICL-oriented Prefix Caching [23.53991589506265]
InferLogはオンラインログ解析のための最初の推論最適化手法である。
InferLogは(1)プレフィックス対応のICLリファインメントポリシーを設計して推論を加速し、インコンテキスト学習の例と置換を洗練し、プレフィックスキャッシュ効率を向上させる。
論文 参考訳(メタデータ) (2025-07-11T12:21:29Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - AnomalyGen: An Automated Semantic Log Sequence Generation Framework with LLM for Anomaly Detection [25.83270938475311]
AnomalyGenは、異常検出用に特別に設計された最初の自動ログ合成フレームワークである。
本フレームワークは,プログラム解析とChain-of-Thought推論(CoT推論)を統合し,反復的なログ生成と異常アノテーションを実現する。
合成ログでベンチマークデータセットを増大させると、最大F1スコアの3.7%の改善が観測される。
論文 参考訳(メタデータ) (2025-04-16T16:54:38Z) - LogLSHD: Fast Log Parsing with Locality-Sensitive Hashing and Dynamic Time Warping [2.415288727960745]
大規模ソフトウェアシステムは、監視、診断、性能最適化に不可欠な大量のシステムログを生成する。
LogLSHDは解析時間において例外的な効率を示し、最先端の手法よりも優れています。
例えば、Drainと比較して、LogLSHDは平均パース時間を73%削減し、LogHub 2.0ベンチマークでは平均パース精度を15%向上した。
論文 参考訳(メタデータ) (2025-04-02T23:08:04Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - EDA-Aware RTL Generation with Large Language Models [0.7831852829409273]
LLM(Large Language Models)は、RTLコードを生成するために人気が高まっている。
ゼロショット設定でエラーのないRTLコードを生成することは、最先端のLLMでも非常に難しい。
本稿では,構文と機能的エラーの反復的修正によるRTLコード生成の高速化を目的とした,自己検証型LLM非依存型エージェントフレームワークであるAIvril2を紹介する。
論文 参考訳(メタデータ) (2024-11-21T00:37:51Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Face It Yourselves: An LLM-Based Two-Stage Strategy to Localize Configuration Errors via Logs [29.736051629726145]
コンフィグレーションエラーはメンテナと新しいエンドユーザにとって大きな課題となる。
ログがほとんどのエンドユーザに容易にアクセス可能であることを考慮し、設定エラーのローカライズにログを利用する際の課題と機会を概説する予備的研究を行う。
予備研究から得られた知見に基づいて,エンドユーザーがログに基づいて根源構成特性をローカライズするためのLLMベースの2段階戦略を提案する。
論文 参考訳(メタデータ) (2024-03-31T10:47:38Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。