Fugu-MT 論文翻訳(概要): Easy over Hard: A Simple Baseline for Test Failures Causes Prediction

論文の概要: Easy over Hard: A Simple Baseline for Test Failures Causes Prediction

arxiv url: http://arxiv.org/abs/2405.02922v1
Date: Sun, 5 May 2024 12:59:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-05-07 17:40:45.791807
Title: Easy over Hard: A Simple Baseline for Test Failures Causes Prediction
Title（参考訳）: ハードよりも簡単: テスト失敗のシンプルなベースラインが予測の原因になる
Authors: Zhipeng Gao, Zhipeng Xue, Xing Hu, Weiyi Shang, Xin Xia,
Abstract要約: NCCheckerは、失敗したテストログの障害原因を自動的に識別するツールである。当社のアプローチには,ログの抽象化,ルックアップテーブルの構築,障害発生予測という,3つの主要なステージがあります。我々は,10K以上のテストログを持つ実世界の産業データセット上で,プロトタイプを開発し,ツールの評価を行った。
参考スコア（独自算出の注目度）: 13.759493107661834
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The test failure causes analysis is critical since it determines the subsequent way of handling different types of bugs, which is the prerequisite to get the bugs properly analyzed and fixed. After a test case fails, software testers have to inspect the test execution logs line by line to identify its root cause. However, manual root cause determination is often tedious and time-consuming, which can cost 30-40% of the time needed to fix a problem. Therefore, there is a need for automatically predicting the test failure causes to lighten the burden of software testers. In this paper, we present a simple but hard-to-beat approach, named NCChecker to automatically identify the failure causes for failed test logs. Our approach can help developers efficiently identify the test failure causes, and flag the most probable log lines of indicating the root causes for investigation. Our approach has three main stages: log abstraction, lookup table construction, and failure causes prediction. We first perform log abstraction to parse the unstructured log messages into structured log events. NCChecker then automatically maintains and updates a lookup table via employing our heuristic rules, which record the matching score between different log events and test failure causes. When it comes to the failure cause prediction stage, for a newly generated failed test log, NCChecker can easily infer its failed reason by checking out the associated log events' scores from the lookup table. We have developed a prototype and evaluated our tool on a real-world industrial dataset with more than 10K test logs. The extensive experiments show the promising performance of our model over a set of benchmarks. Moreover, our approach is highly efficient and memory-saving, and can successfully handle the data imbalance problem.
Abstract（参考訳）: テスト失敗の原因となる分析は、さまざまなタイプのバグを扱うためのその後の方法を決定するためであり、バグを適切に分析し、修正することが必須である。テストケースが失敗した後、ソフトウェアテスタは、その根本原因を特定するために、テスト実行ログを1行ずつ検査しなければならない。しかし、手動の根本原因決定は退屈で時間を要することが多く、問題を修正するのに30～40%の時間を要する可能性がある。したがって、ソフトウェアテスタの負担を軽減するために、テスト失敗の原因を自動的に予測する必要がある。本論文では,テストログの故障原因を自動的に識別するために,NCCheckerというシンプルだが強靭な手法を提案する。当社のアプローチは、開発者がテスト失敗の原因を効率的に特定し、調査の根本原因を示す最も可能性の高いログ行にフラグを付けるのに役立ちます。当社のアプローチには,ログの抽象化,ルックアップテーブルの構築,障害発生予測という,3つの主要なステージがあります。まず、構造化されていないログメッセージを構造化されたログイベントに解析するためにログ抽象化を実行します。 NCCheckerは、異なるログイベントとテスト失敗原因のマッチングスコアを記録するヒューリスティックなルールを使用して、自動的にルックアップテーブルをメンテナンスし、更新します。フェール原因予測段階では、新たに生成されたフェールテストログに対して、NCCheckerは、ルックアップテーブルから関連するログイベントのスコアをチェックすることで、そのフェール理由を簡単に推測することができる。我々は,10K以上のテストログを持つ実世界の産業データセット上で,プロトタイプを開発し,ツールの評価を行った。大規模な実験は、ベンチマークのセットよりも、我々のモデルの有望な性能を示している。さらに,本手法は高効率でメモリ節約が可能であり,データ不均衡問題への対処にも有効である。

関連論文リスト

Flaky Tests in a Large Industrial Database Management System: An Empirical Study of Fixed Issue Reports for SAP HANA [45.467566253448666]
不安定なテストは、同じバージョンのソースコードに対して複数回実行されると、異なる結果をもたらす。様々な要因がテストのフレキネスを引き起こすことがある。不安定なテストを修正するアプローチは、通常、特定の原因に対処するために調整される。
論文参考訳（メタデータ） (2026-02-03T14:03:59Z)
LogUpdater: Automated Detection and Repair of Specific Defects in Logging Statements [29.631530836349505]
開発者はロギングステートメントを使用して、ソフトウェアランタイムの動作とシステムステータスを追跡する。不正あるいは誤解を招くログは、真の実行パターンを隠蔽し、ソフトウェアのメンテナンスを妨げる可能性がある。ログ中心の変化を分析することによって,4種類のログステートメント欠陥を識別する研究を行う。 LogUpdaterは、これらのログ欠陥を自動的に検出し、更新するフレームワークです。
論文参考訳（メタデータ） (2024-08-06T11:04:37Z)
GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。 GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文参考訳（メタデータ） (2024-02-23T10:02:01Z)
EvLog: Identifying Anomalous Logs over Software Evolution [31.46106509190191]
解析なしでログを処理するためのEvolving Log extractor (EvLog) という新しい教師なし手法を提案する。 EvLogは、異常なログを識別し、不安定なシーケンスによって引き起こされる問題を回避するために、注意機構を備えた異常判別器を実装している。 EvLogは、平均F1スコアが0.955と0.847の2つの実世界のシステム進化ログデータセットにおいて、それぞれバージョン内設定とバージョン間設定で有効であることを示した。
論文参考訳（メタデータ） (2023-06-02T12:58:00Z)
PULL: Reactive Log Anomaly Detection Based On Iterative PU Learning [58.85063149619348]
本稿では,推定故障時間ウィンドウに基づくリアクティブ異常検出のための反復ログ解析手法PULLを提案する。我々の評価では、PULLは3つの異なるデータセットで10のベンチマークベースラインを一貫して上回っている。
論文参考訳（メタデータ） (2023-01-25T16:34:43Z)
Sequential Kernelized Independence Testing [101.22966794822084]
我々は、カーネル化依存度にインスパイアされたシーケンシャルなカーネル化独立試験を設計する。シミュレーションデータと実データの両方にアプローチのパワーを実証する。
論文参考訳（メタデータ） (2022-12-14T18:08:42Z)
LogLG: Weakly Supervised Log Anomaly Detection via Log-Event Graph Construction [31.31712326361932]
そこで本研究では,LogLGという名前のログ異常検出フレームワークを提案し,シーケンスからキーワード間のセマンティックな関係を探索する。具体的には、ラベルなしログのキーワードを最初に抽出してログイベントグラフを構築するエンド・ツー・エンドの反復処理を設計する。そして、未ラベルのログシーケンスの擬似ラベルを生成するために、サブグラフアノテータを構築する。
論文参考訳（メタデータ） (2022-08-23T09:32:19Z)
Failure Identification from Unstable Log Data using Deep Learning [0.27998963147546146]
故障同定手法としてCLogを提案する。ログデータをログイベントのシーケンスではなくサブプロセスのシーケンスとして表現することにより、不安定なログデータの効果を低減する。実験の結果,学習したサブプロセス表現が入力の不安定性を低下させることが示された。
論文参考訳（メタデータ） (2022-04-06T07:41:48Z)
LAnoBERT: System Log Anomaly Detection based on BERT Masked Language Model [12.00171674362062]
システムログ異常検出の目的は、人間の介入を最小限に抑えつつ、即座に異常を識別することである。従来の研究では、様々なログデータを標準化されたテンプレートに変換した後、アルゴリズムによる異常検出が行われた。本研究では,自然言語処理性能に優れたLAnoBERTを提案する。
論文参考訳（メタデータ） (2021-11-18T07:46:35Z)
LogLAB: Attention-Based Labeling of Log Data Anomalies via Weak Supervision [63.08516384181491]
専門家の手作業を必要とせず,ログメッセージの自動ラベル付けのための新しいモデリング手法であるLogLABを提案する。本手法は,監視システムが提供する推定故障時間ウィンドウを用いて,正確なラベル付きデータセットを振り返りに生成する。我々の評価によると、LogLABは3つの異なるデータセットで9つのベンチマークアプローチを一貫して上回り、大規模な障害時ウィンドウでも0.98以上のF1スコアを維持している。
論文参考訳（メタデータ） (2021-11-02T15:16:08Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)
Self-Supervised Log Parsing [59.04636530383049]
大規模ソフトウェアシステムは、大量の半構造化ログレコードを生成する。既存のアプローチは、ログ特化や手動ルール抽出に依存している。本稿では,自己教師付き学習モデルを用いて解析タスクをマスク言語モデリングとして定式化するNuLogを提案する。
論文参考訳（メタデータ） (2020-03-17T19:25:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。