論文の概要: Using Large Language Models to Support Automation of Failure Management in CI/CD Pipelines: A Case Study in SAP HANA
- arxiv url: http://arxiv.org/abs/2602.06709v1
- Date: Fri, 06 Feb 2026 13:55:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-09 22:18:26.415681
- Title: Using Large Language Models to Support Automation of Failure Management in CI/CD Pipelines: A Case Study in SAP HANA
- Title(参考訳): CI/CDパイプラインにおける大規模言語モデルによる障害管理の自動化: SAP HANAのケーススタディ
- Authors: Duong Bui, Stefan Grintz, Alexander Berndt, Thomas Bach,
- Abstract要約: 大規模言語モデル(LLM)は、以前の作業による自動障害管理の有望な結果を示している。
大規模産業ソフトウェアプロジェクト,すなわちSAPの文脈で,CI/CDパイプラインの障害管理をLCMベースのシステムで自動化できるかどうかを検討した。
パイプライン情報や障害管理命令,過去の障害からのデータなど,さまざまな種類のドメイン知識をシステムに提供する。
このシステムは、ドメイン知識が与えられた場合のエラー位置を97.4%の精度で正確に識別し、それなしでは84.2%の精度で検出した。
- 参考スコア(独自算出の注目度): 40.11960515464488
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: CI/CD pipeline failure management is time-consuming when performed manually. Automating this process is non-trivial because the information required for effective failure management is unstructured and cannot be automatically processed by traditional programs. With their ability to process unstructured data, large language models (LLMs) have shown promising results for automated failure management by previous work. Following these studies, we evaluated whether an LLM-based system could automate failure management in a CI/CD pipeline in the context of a large industrial software project, namely SAP HANA. We evaluated the ability of the LLM-based system to identify the error location and to propose exact solutions that contain no unnecessary actions. To support the LLM in generating exact solutions, we provided it with different types of domain knowledge, including pipeline information, failure management instructions, and data from historical failures. We conducted an ablation study to determine which type of domain knowledge contributed most to solution accuracy. The results show that data from historical failures contributed the most to the system's accuracy, enabling it to produce exact solutions in 92.1% of cases in our dataset. The system correctly identified the error location with 97.4% accuracy when provided with domain knowledge, compared to 84.2% accuracy without it. In conclusion, our findings indicate that LLMs, when provided with data from historical failures, represent a promising approach for automating CI/CD pipeline failure management.
- Abstract(参考訳): CI/CDパイプラインの障害管理は、手動で実行すると時間がかかる。
このプロセスの自動化は、効果的な障害管理に必要な情報が構造化されておらず、従来のプログラムで自動的に処理できないため、簡単ではない。
構造化されていないデータを処理する能力によって、大規模言語モデル(LLM)は、以前の作業による自動障害管理の有望な結果を示している。
これらの研究に続いて,大規模産業ソフトウェアプロジェクト,すなわちSAP HANAの文脈において,CI/CDパイプラインの障害管理をLCMベースのシステムで自動化できるかどうかを検討した。
我々は,LLMシステムによる誤り位置の同定と,不要な動作を含まない正確な解を提案する能力を評価した。
正確なソリューションを生成する上でLLMをサポートするため、パイプライン情報、障害管理命令、過去の障害からのデータなど、さまざまな種類のドメイン知識を提供しました。
我々は,どのドメイン知識が解法精度に最も寄与したかを決定するためのアブレーション研究を行った。
その結果、過去の故障から得られたデータはシステムの正確性に最も寄与し、データセットの92.1%のケースで正確な解を生成できることがわかった。
このシステムは、ドメイン知識が与えられた場合のエラー位置を97.4%の精度で正確に識別し、それなしでは84.2%の精度で検出した。
結論として,LLMは,過去の故障から得られたデータによって,CI/CDパイプラインの障害管理を自動化する上で,有望なアプローチであることが示唆された。
関連論文リスト
- DataGovBench: Benchmarking LLM Agents for Real-World Data Governance Workflows [22.16698382751559]
大規模言語モデル(LLM)は、ユーザの意図をコードに変換することによって、データガバナンスを自動化するための有望なソリューションとして登場した。
既存の自動データサイエンスのベンチマークでは、スニペットレベルのコーディングや高レベルの分析が強調されることが多い。
データGovBenchは、実際のケースのデータに基づいて構築された、現実世界のシナリオに基盤を置く150の多様なタスクを特徴とするベンチマークです。
論文 参考訳(メタデータ) (2025-12-04T03:25:12Z) - Scaling LLM Planning: NL2FLOW for Parametric Problem Generation and Rigorous Evaluation [0.913755431537592]
この作業では、ワークフロー計画問題の生成と評価のための完全に自動化されたパイプラインであるNL2Flowが導入されている。
NL2Flowは、構造化中間表現においてパラメトリックに問題を発生させ、それらを自然言語と形式PDDLの両方に翻訳する。
NL2Flowが生成した2296個の低微分問題に基づいて,オープンソースのインストラクション付きLLMを評価した。
論文 参考訳(メタデータ) (2025-07-03T03:02:49Z) - LogSage: An LLM-Based Framework for CI/CD Failure Detection and Remediation with Industrial Validation [15.666174528504806]
LogSageは、ルート原因分析(RCA)とCI/CD障害の自動修復のためのエンドツーエンドフレームワークである。
トークン効率のよいログ前処理パイプラインを使用して、ノイズをフィルタリングし、重大なエラーを抽出し、正確なRCAのための構造化診断プロンプトを実行する。
367のCI/CD障害のベンチマークでは、LogSageは98%以上の精度、ほぼ完璧なリコール、RCAステージにおけるF1の改善を達成している。
論文 参考訳(メタデータ) (2025-06-04T08:22:56Z) - Which Agent Causes Task Failures and When? On Automated Failure Attribution of LLM Multi-Agent Systems [50.29939179830491]
LLMマルチエージェントシステムにおける障害帰属は、まだ調査が過小評価されており、労働集約的である。
本稿では,3つの自動故障帰属手法の開発と評価を行い,その欠点と欠点を要約する。
最良の方法は、障害に応答するエージェントを特定する際に53.5%の精度を達成するが、故障の特定には14.2%しか役に立たない。
論文 参考訳(メタデータ) (2025-04-30T23:09:44Z) - Confident or Seek Stronger: Exploring Uncertainty-Based On-device LLM Routing From Benchmarking to Generalization [61.02719787737867]
大規模言語モデル(LLM)はますますエッジデバイスにデプロイされ、民主化されている。
1つの有望な解決策は不確実性に基づくSLMルーティングであり、SLM上での低信頼応答が発生すると、高い要求を強いLCMにオフロードする。
我々は1500以上の設定でSLMからLLMへの不確実性駆動型ルーティング戦略のベンチマークと一般化を包括的に調査する。
論文 参考訳(メタデータ) (2025-02-06T18:59:11Z) - Characterization of Large Language Model Development in the Datacenter [55.9909258342639]
大きな言語モデル(LLM)は、いくつかの変換タスクにまたがって素晴らしいパフォーマンスを示している。
しかし,大規模クラスタ資源を効率よく利用してLCMを開発することは容易ではない。
我々は,GPUデータセンタAcmeから収集した6ヶ月のLDM開発ワークロードの詳細な評価を行った。
論文 参考訳(メタデータ) (2024-03-12T13:31:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。