論文の概要: Can Large Language Models Analyze Software Failures in the News? An End-to-End Automated Pipeline with FAIL
- arxiv url: http://arxiv.org/abs/2406.08221v1
- Date: Wed, 12 Jun 2024 13:51:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-13 16:46:00.376759
- Title: Can Large Language Models Analyze Software Failures in the News? An End-to-End Automated Pipeline with FAIL
- Title(参考訳): 大規模言語モデルはニュースにおけるソフトウェア障害を解析できるか? FAILによるエンドツーエンドの自動パイプライン
- Authors: Dharun Anandayuvaraj, Matthew Campbell, Arav Tewari, James C. Davis,
- Abstract要約: このギャップを埋めるために, LLM (FAIL) システムを用いた故障解析手法を提案する。
FAILは、ニュースで報告されているように、ソフトウェア障害を収集し、分析し、要約する。
FAILは4,184項目で報告された2457の障害を特定し分析した。
- 参考スコア(独自算出の注目度): 2.7325338323814328
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Software failures inform engineering work, standards, regulations. For example, the Log4J vulnerability brought government and industry attention to evaluating and securing software supply chains. Accessing private engineering records is difficult, so failure analyses tend to use information reported by the news media. However, prior works in this direction have relied on manual analysis. That has limited the scale of their analyses. The community lacks automated support to enable such analyses to consider a wide range of news sources and incidents. In this paper, we propose the Failure Analysis Investigation with LLMs (FAIL) system to fill this gap. FAIL collects, analyzes, and summarizes software failures as reported in the news. FAIL groups articles that describe the same incidents. It then analyzes incidents using existing taxonomies for postmortems, faults, and system characteristics. To tune and evaluate FAIL, we followed the methods of prior works by manually analyzing 31 software failures. FAIL achieved an F1 score of 90% for collecting news about software failures, a V-measure of 0.98 for merging articles reporting on the same incident, and extracted 90% of the facts about failures. We then applied FAIL to a total of 137,427 news articles from 11 providers published between 2010 and 2022. FAIL identified and analyzed 2457 distinct failures reported across 4,184 articles. Our findings include: (1) current generation of large language models are capable of identifying news articles that describe failures, and analyzing them according to structured taxonomies; (2) high recurrences of similar failures within organizations and across organizations; and (3) severity of the consequences of software failures have increased over the past decade. The full FAIL database is available so that researchers, engineers, and policymakers can learn from a diversity of software failures.
- Abstract(参考訳): ソフトウェア障害はエンジニアリングの作業や標準、規制を知らせます。
例えば、Log4Jの脆弱性は、政府や業界がソフトウェアサプライチェーンの評価と確保に注意を向けた。
プライベートエンジニアリング記録へのアクセスは困難であるため、障害解析では、ニュースメディアによって報告される情報を使用する傾向がある。
しかし、この方向の先行研究は手作業による分析に依存している。
それは彼らの分析の規模を制限した。
コミュニティはそのような分析が幅広いニュースソースやインシデントを考慮できるような自動サポートを欠いている。
本稿では, このギャップを埋めるために, LLM (FAIL) を用いた故障解析システムを提案する。
FAILは、ニュースで報告されているように、ソフトウェア障害を収集し、分析し、要約する。
FAILは同じ事件を記述した記事をまとめる。
そして、既存の分類法を用いて、死後、欠陥、システム特性を分析します。
FAILをチューニングし,評価するために,31のソフトウェア障害を手作業で解析し,先行作業の手法に従った。
FAILは、ソフトウェア障害に関するニュースを収集するためのF1スコア90%、同じインシデントに関する記事をマージするためのV値0.98を達成し、失敗に関する事実の90%を抽出した。
2010年から2022年の間に11のプロバイダから合計137,427のニュース記事にFAILを適用しました。
FAILは4,184項目で報告された2457の障害を特定し分析した。
その結果,1) 大規模言語モデルでは, 失敗を記述したニュース記事の特定, 構造的分類に基づく分析, (2) 組織内および組織内における類似の障害の頻繁度, (3) ソフトウェア障害の結果の深刻度が過去10年間で増加していることがわかった。
FAILの完全なデータベースは、研究者、エンジニア、政策立案者がソフトウェア障害の多様性から学ぶことができる。
関連論文リスト
- Exploring the extent of similarities in software failures across industries using LLMs [0.0]
本研究は, LLM(Failure Analysis Investigation with LLMs)モデルを用いて, 業界固有情報を抽出する。
以前の作業では、ニュース記事は信頼できる情報源から収集され、データベース内のインシデントによって分類された。
本研究は,これらの手法を,特定のドメインとソフトウェア障害の種類に分類することによって拡張する。
論文 参考訳(メタデータ) (2024-08-07T03:48:07Z) - Learning Traffic Crashes as Language: Datasets, Benchmarks, and What-if Causal Analyses [76.59021017301127]
我々は,CrashEventという大規模トラフィッククラッシュ言語データセットを提案し,実世界のクラッシュレポート19,340を要約した。
さらに,クラッシュイベントの特徴学習を,新たなテキスト推論問題として定式化し,さらに様々な大規模言語モデル(LLM)を微調整して,詳細な事故結果を予測する。
実験の結果, LLMに基づくアプローチは事故の重大度を予測できるだけでなく, 事故の種類を分類し, 損害を予測できることがわかった。
論文 参考訳(メタデータ) (2024-06-16T03:10:16Z) - ESRO: Experience Assisted Service Reliability against Outages [2.647000585570866]
私たちは、障害の根本原因と修復を推奨するESROと呼ばれる診断サービスを構築しています。
当社のモデルは,大企業のいくつかのクラウドサービス障害に対して,2年間にわたって評価を行った。
論文 参考訳(メタデータ) (2023-09-13T18:04:52Z) - An Empirical Study on Using Large Language Models to Analyze Software
Supply Chain Security Failures [2.176373527773389]
将来の障害を防ぐ1つの方法は、過去の失敗を研究することです。
これらの障害を分析する従来の手法では、手動でレポートを読み、要約する必要がある。
大規模言語モデル(LLM)のような自然言語処理技術は、障害の分析を支援するために利用することができる。
論文 参考訳(メタデータ) (2023-08-09T15:35:14Z) - EvLog: Identifying Anomalous Logs over Software Evolution [31.46106509190191]
解析なしでログを処理するためのEvolving Log extractor (EvLog) という新しい教師なし手法を提案する。
EvLogは、異常なログを識別し、不安定なシーケンスによって引き起こされる問題を回避するために、注意機構を備えた異常判別器を実装している。
EvLogは、平均F1スコアが0.955と0.847の2つの実世界のシステム進化ログデータセットにおいて、それぞれバージョン内設定とバージョン間設定で有効であることを示した。
論文 参考訳(メタデータ) (2023-06-02T12:58:00Z) - Applying Machine Learning Analysis for Software Quality Test [0.0]
メンテナンスのトリガーと予測されるかどうかを理解することは重要です。
生成したプログラムの複雑さを評価する多くの手法は有用な予測モデルを生成する。
本稿では,機械学習を利用可能なデータに適用し,累積ソフトウェア故障レベルを算出する。
論文 参考訳(メタデータ) (2023-05-16T06:10:54Z) - Mining Root Cause Knowledge from Cloud Service Incident Investigations
for AIOps [71.12026848664753]
サービス破壊インシデントの根本原因分析(RCA)は、ITプロセスにおける最も重要かつ複雑なタスクの1つです。
本研究では、Salesforceで構築されたICAと、ダウンストリームのインシデントサーチとレトリーバルベースのRCAパイプラインについて紹介する。
論文 参考訳(メタデータ) (2022-04-21T02:33:34Z) - Competency Problems: On Finding and Removing Artifacts in Language Data [50.09608320112584]
複雑な言語理解タスクでは、すべての単純な特徴相関が突発的であると論じる。
人間バイアスを考慮したコンピテンシー問題に対するデータ作成の難しさを理論的に分析します。
論文 参考訳(メタデータ) (2021-04-17T21:34:10Z) - S3M: Siamese Stack (Trace) Similarity Measure [55.58269472099399]
本稿では、深層学習に基づくスタックトレースの類似性を計算する最初のアプローチであるS3Mを紹介します。
BiLSTMエンコーダと、類似性を計算するための完全接続型分類器をベースとしている。
私たちの実験は、オープンソースデータとプライベートなJetBrainsデータセットの両方において、最先端のアプローチの優位性を示しています。
論文 参考訳(メタデータ) (2021-03-18T21:10:41Z) - Robust and Transferable Anomaly Detection in Log Data using Pre-Trained
Language Models [59.04636530383049]
クラウドのような大規模コンピュータシステムにおける異常や障害は、多くのユーザに影響を与える。
システム情報の主要なトラブルシューティングソースとして,ログデータの異常検出のためのフレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-23T09:17:05Z) - D2A: A Dataset Built for AI-Based Vulnerability Detection Methods Using
Differential Analysis [55.15995704119158]
静的解析ツールによって報告されたラベル問題に対する差分解析に基づくアプローチであるD2Aを提案する。
D2Aを使用して大きなラベル付きデータセットを生成し、脆弱性識別のためのモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-02-16T07:46:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。