論文の概要: A Two-Staged LLM-Based Framework for CI/CD Failure Detection and Remediation with Industrial Validation
- arxiv url: http://arxiv.org/abs/2506.03691v1
- Date: Wed, 04 Jun 2025 08:22:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.228139
- Title: A Two-Staged LLM-Based Framework for CI/CD Failure Detection and Remediation with Industrial Validation
- Title(参考訳): 産業検証によるCI/CD故障検出と修復のための2段階LCMフレームワーク
- Authors: Weiyuan Xu, Juntao Luo, Tao Huang, Kaixin Sui, Jie Geng, Qijun Ma, Isami Akasaka, Xiaoxue Shi, Jing Tang, Peng Cai,
- Abstract要約: LogSageは、失敗するCI/CDログから根本原因分析とソリューション生成を実行するエンドツーエンドのLLMフレームワークである。
システムは、生産品質の大規模な産業用CI/CD環境で厳格に検証され、毎日3,000以上の実行が処理された。
- 参考スコア(独自算出の注目度): 10.463978085229156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Continuous Integration and Continuous Deployment (CI/CD) pipelines are pivotal to modern software engineering, yet diagnosing and resolving their failures remains a complex and labor-intensive challenge. In this paper, we present LogSage, the first end-to-end LLM-powered framework that performs root cause analysis and solution generation from failed CI/CD pipeline logs. During the root cause analysis stage, LogSage employs a specialized log preprocessing pipeline tailored for LLMs, which extracts critical error logs and eliminates noise to enhance the precision of LLM-driven root cause analysis. In the solution generation stage, LogSage leverages RAG to integrate historical resolution strategies and utilizes tool-calling to deliver actionable, automated fixes. We evaluated the root cause analysis stage using a newly curated open-source dataset, achieving 98\% in precision and 12\% improvement over naively designed LLM-based log analysis baselines, while attaining near-perfect recall. The end-to-end system was rigorously validated in a large-scale industrial CI/CD environment of production quality, processing more than 3,000 executions daily and accumulating more than 1.07 million executions in its first year of deployment, with end-to-end precision exceeding 88\%. These two forms of evaluation confirm that LogSage providing a scalable and practical solution to manage CI/CD pipeline failures in real-world DevOps workflows.
- Abstract(参考訳): 継続的インテグレーションと継続的デプロイメント(CI/CD)パイプラインは、現代のソフトウェアエンジニアリングにとって重要なものだが、障害の診断と解決は、依然として複雑で労働集約的な課題である。
本稿では,CI/CDパイプラインログから根本原因分析とソリューション生成を行う,最初のエンドツーエンドのLCMフレームワークであるLogSageを提案する。
根本原因分析の段階では、LogSageはLLM用に調整された特殊なログ前処理パイプラインを使用して、臨界エラーログを抽出し、ノイズを除去し、LLM駆動根本原因分析の精度を高める。
ソリューション生成の段階では、LogSageはRAGを活用して過去の解決戦略を統合し、ツールコールを使用して実行可能な自動修正を提供する。
新たなオープンソースデータセットを用いて根本原因分析ステージの評価を行い, 根本原因解析の精度を98倍に向上し, 根本原因解析の精度を12%向上し, ほぼ完全なリコールを実現した。
エンドツーエンドシステムは、プロダクション品質の大規模な産業用CI/CD環境で厳格に検証され、3000以上の実行を毎日処理し、デプロイメント初年度に1億7700万以上の実行を蓄積し、エンドツーエンドの精度は88%を超えた。
これらの2つの評価形式は、現実のDevOpsワークフローでCI/CDパイプラインの障害を管理するためのスケーラブルで実用的なソリューションを提供するLogSageを確認している。
関連論文リスト
- Graph-Based Self-Healing Tool Routing for Cost-Efficient LLM Agents [0.0]
自己修復ルータはフォールトトレラントなオーケストレーションアーキテクチャである。
ほとんどのエージェント制御フロー決定を、推論よりもルーティングとして扱う。
すべての障害はログ化されたリルートか明示的なエスカレーションのどちらかで、無音スキップはしない。
論文 参考訳(メタデータ) (2026-03-02T07:21:15Z) - Using Large Language Models to Support Automation of Failure Management in CI/CD Pipelines: A Case Study in SAP HANA [40.11960515464488]
大規模言語モデル(LLM)は、以前の作業による自動障害管理の有望な結果を示している。
大規模産業ソフトウェアプロジェクト,すなわちSAPの文脈で,CI/CDパイプラインの障害管理をLCMベースのシステムで自動化できるかどうかを検討した。
パイプライン情報や障害管理命令,過去の障害からのデータなど,さまざまな種類のドメイン知識をシステムに提供する。
このシステムは、ドメイン知識が与えられた場合のエラー位置を97.4%の精度で正確に識別し、それなしでは84.2%の精度で検出した。
論文 参考訳(メタデータ) (2026-02-06T13:55:48Z) - LogSieve: Task-Aware CI Log Reduction for Sustainable LLM-Based Analysis [0.0]
軽量でRCA対応,セマンティックス対応のログリダクション技術であるLogSieveを提案する。
GitHub Actionsを使って、20のオープンソースプロジェクトのCIログで評価します。
平均42%の行の削減と40%のトークンの削減を実現し、セマンティックロスを最小限に抑える。
論文 参考訳(メタデータ) (2026-01-28T00:49:50Z) - DoVer: Intervention-Driven Auto Debugging for LLM Multi-Agent Systems [48.971606069204825]
DoVerは、大規模言語モデル(LLM)ベースのマルチエージェントシステムのための介入駆動デバッグフレームワークである。
ターゲットの介入を通じて、アクティブな検証によって仮説生成を増強する。
DoVerは失敗試験の18~28%を成功させ、最大16%のマイルストーンを達成し、失敗仮説の30~60%を検証または否定する。
論文 参考訳(メタデータ) (2025-12-07T09:23:48Z) - InspectCoder: Dynamic Analysis-Enabled Self Repair through interactive LLM-Debugger Collaboration [71.18377595277018]
大きな言語モデル(LLM)は、診断が難しい複雑なロジックエラーを伴うバグの多いコードを生成することが多い。
対話型デバッガ制御による動的解析を LLM に委ねる初のエージェントプログラム修復システムである InspectCoder を提案する。
論文 参考訳(メタデータ) (2025-10-21T06:26:29Z) - LogPilot: Intent-aware and Scalable Alert Diagnosis for Large-scale Online Service Systems [41.55191803277989]
LogPilotは、ログベースの自動アラート診断のためのLarge Language Models(LLM)を利用したインテント対応フレームワークである。
各リクエストの実行を時間的ログチェーンに再構築し、同様のチェーンをクラスタして、繰り返し実行される実行パターンを特定し、診断のためにLLMに代表的なサンプルを提供する。
LogPilotは、Volcano Engine Cloudの現実世界のアラートに基づいて、根本原因の要約の有用性を50.34%改善し、最先端の手法よりも正確なローカライゼーション精度を54.79%向上させた。
論文 参考訳(メタデータ) (2025-09-30T07:11:28Z) - InferLog: Accelerating LLM Inference for Online Log Parsing via ICL-oriented Prefix Caching [23.53991589506265]
InferLogはオンラインログ解析のための最初の推論最適化手法である。
InferLogは(1)プレフィックス対応のICLリファインメントポリシーを設計して推論を加速し、インコンテキスト学習の例と置換を洗練し、プレフィックスキャッシュ効率を向上させる。
論文 参考訳(メタデータ) (2025-07-11T12:21:29Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - AnomalyGen: An Automated Semantic Log Sequence Generation Framework with LLM for Anomaly Detection [25.83270938475311]
AnomalyGenは、異常検出用に特別に設計された最初の自動ログ合成フレームワークである。
本フレームワークは,プログラム解析とChain-of-Thought推論(CoT推論)を統合し,反復的なログ生成と異常アノテーションを実現する。
合成ログでベンチマークデータセットを増大させると、最大F1スコアの3.7%の改善が観測される。
論文 参考訳(メタデータ) (2025-04-16T16:54:38Z) - LogLSHD: Fast Log Parsing with Locality-Sensitive Hashing and Dynamic Time Warping [2.415288727960745]
大規模ソフトウェアシステムは、監視、診断、性能最適化に不可欠な大量のシステムログを生成する。
LogLSHDは解析時間において例外的な効率を示し、最先端の手法よりも優れています。
例えば、Drainと比較して、LogLSHDは平均パース時間を73%削減し、LogHub 2.0ベンチマークでは平均パース精度を15%向上した。
論文 参考訳(メタデータ) (2025-04-02T23:08:04Z) - Thinking Longer, Not Larger: Enhancing Software Engineering Agents via Scaling Test-Time Compute [61.00662702026523]
より大規模なモデルではなく、推論時間の増加を活用する統合されたテスト時間計算スケーリングフレームワークを提案する。
当社のフレームワークには,内部TTCと外部TTCの2つの補完戦略が組み込まれている。
当社の textbf32B モデルは,DeepSeek R1 671B や OpenAI o1 など,はるかに大きなモデルを上回る 46% の課題解決率を実現している。
論文 参考訳(メタデータ) (2025-03-31T07:31:32Z) - DARS: Dynamic Action Re-Sampling to Enhance Coding Agent Performance by Adaptive Tree Traversal [55.13854171147104]
大規模言語モデル(LLM)は、自然言語処理、データ分析、ソフトウェア開発など、さまざまな領域に革命をもたらした。
符号化エージェントのための新しい推論時間計算スケーリングアプローチである動的アクション再サンプリング(DARS)を提案する。
我々は、SWE-Bench Liteベンチマークに対する我々のアプローチを評価し、このスケーリング戦略がClude 3.5 Sonnet V2で55%のパス@kスコアを達成したことを実証した。
論文 参考訳(メタデータ) (2025-03-18T14:02:59Z) - LLM2: Let Large Language Models Harness System 2 Reasoning [65.89293674479907]
大規模言語モデル(LLM)は、無数のタスクにまたがって印象的な機能を示してきたが、時には望ましくない出力が得られる。
本稿では LLM とプロセスベースの検証器を組み合わせた新しいフレームワーク LLM2 を紹介する。
LLMs2は妥当な候補を生成するのに責任を持ち、検証者は望ましい出力と望ましくない出力を区別するためにタイムリーなプロセスベースのフィードバックを提供する。
論文 参考訳(メタデータ) (2024-12-29T06:32:36Z) - EDA-Aware RTL Generation with Large Language Models [0.7831852829409273]
LLM(Large Language Models)は、RTLコードを生成するために人気が高まっている。
ゼロショット設定でエラーのないRTLコードを生成することは、最先端のLLMでも非常に難しい。
本稿では,構文と機能的エラーの反復的修正によるRTLコード生成の高速化を目的とした,自己検証型LLM非依存型エージェントフレームワークであるAIvril2を紹介する。
論文 参考訳(メタデータ) (2024-11-21T00:37:51Z) - LogParser-LLM: Advancing Efficient Log Parsing with Large Language Models [19.657278472819588]
LLM機能と統合された新しいログであるLog-LLMを紹介する。
粒度を解析する複雑な課題に対処し、ユーザが特定のニーズに合わせて粒度を調整できるようにするための新しい指標を提案する。
提案手法の有効性は,Loghub-2kと大規模LogPubベンチマークを用いて実験的に検証した。
論文 参考訳(メタデータ) (2024-08-25T05:34:24Z) - HELP: Hierarchical Embeddings-based Log Parsing [0.25112747242081457]
ログは、ソフトウェアのメンテナンスと障害診断のための、第一級の情報ソースである。
ログ解析は、異常検出、トラブルシューティング、根本原因分析などの自動ログ解析タスクの前提条件である。
既存のオンライン解析アルゴリズムは、ログドリフトの影響を受けやすい。
論文 参考訳(メタデータ) (2024-08-15T17:54:31Z) - Face It Yourselves: An LLM-Based Two-Stage Strategy to Localize Configuration Errors via Logs [29.736051629726145]
コンフィグレーションエラーはメンテナと新しいエンドユーザにとって大きな課題となる。
ログがほとんどのエンドユーザに容易にアクセス可能であることを考慮し、設定エラーのローカライズにログを利用する際の課題と機会を概説する予備的研究を行う。
予備研究から得られた知見に基づいて,エンドユーザーがログに基づいて根源構成特性をローカライズするためのLLMベースの2段階戦略を提案する。
論文 参考訳(メタデータ) (2024-03-31T10:47:38Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z) - DS-Agent: Automated Data Science by Empowering Large Language Models with Case-Based Reasoning [56.887047551101574]
大規模言語モデル(LLM)エージェントとケースベース推論(CBR)を利用した新しいフレームワークであるDS-Agentを提案する。
開発段階では、DS-AgentはCBRフレームワークに従い、自動イテレーションパイプラインを構築する。
デプロイメントの段階では、DS-Agentは、シンプルなCBRパラダイムで低リソースのデプロイメントステージを実装し、LCMの基本能力に対する需要を大幅に削減する。
論文 参考訳(メタデータ) (2024-02-27T12:26:07Z) - LogFormer: A Pre-train and Tuning Pipeline for Log Anomaly Detection [73.69399219776315]
本稿では,ログ異常検出(LogFormer)のためのTransformerベースの統合フレームワークを提案する。
具体的には、ログデータの共有セマンティック知識を得るために、まず、ソースドメイン上で事前学習を行う。
そして、そのような知識を共有パラメータを介して対象領域に転送する。
論文 参考訳(メタデータ) (2024-01-09T12:55:21Z) - Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。
既存のアプローチは、ログ特化や手動ルール抽出に依存している。
本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文 参考訳(メタデータ) (2020-03-17T19:25:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。