論文の概要: Towards More Realistic Evaluation for Neural Test Oracle Generation
- arxiv url: http://arxiv.org/abs/2305.17047v1
- Date: Fri, 26 May 2023 15:56:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 05:26:58.941519
- Title: Towards More Realistic Evaluation for Neural Test Oracle Generation
- Title(参考訳): ニューラルテストoracle生成のより現実的な評価に向けて
- Authors: Zhongxin Liu, Kui Liu, Xin Xia, Xiaohu Yang
- Abstract要約: 単体テストはソフトウェアの品質を守り、改善するのに役立ちますが、作成とメンテナンスにはかなりの時間と労力が必要です。
最近の研究では、ニューラルモデルを利用してテストオラクル、すなわちニューラルテストオラクル生成(NTOG)を生成することが提案されている。
これらの設定は、既存のNTOGアプローチのパフォーマンスの理解を誤解させる可能性がある。
- 参考スコア(独自算出の注目度): 11.005450298374285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective unit tests can help guard and improve software quality but require
a substantial amount of time and effort to write and maintain. A unit test
consists of a test prefix and a test oracle. Synthesizing test oracles,
especially functional oracles, is a well-known challenging problem. Recent
studies proposed to leverage neural models to generate test oracles, i.e.,
neural test oracle generation (NTOG), and obtained promising results. However,
after a systematic inspection, we find there are some inappropriate settings in
existing evaluation methods for NTOG. These settings could mislead the
understanding of existing NTOG approaches' performance. We summarize them as 1)
generating test prefixes from bug-fixed program versions, 2) evaluating with an
unrealistic metric, and 3) lacking a straightforward baseline. In this paper,
we first investigate the impacts of these settings on evaluating and
understanding the performance of NTOG approaches. We find that 1)
unrealistically generating test prefixes from bug-fixed program versions
inflates the number of bugs found by the state-of-the-art NTOG approach TOGA by
61.8%, 2) FPR (False Positive Rate) is not a realistic evaluation metric and
the Precision of TOGA is only 0.38%, and 3) a straightforward baseline
NoException, which simply expects no exception should be raised, can find 61%
of the bugs found by TOGA with twice the Precision. Furthermore, we introduce
an additional ranking step to existing evaluation methods and propose an
evaluation metric named Found@K to better measure the cost-effectiveness of
NTOG approaches. We propose a novel unsupervised ranking method to instantiate
this ranking step, significantly improving the cost-effectiveness of TOGA.
Eventually, we propose a more realistic evaluation method TEval+ for NTOG and
summarize seven rules of thumb to boost NTOG approaches into their practical
usages.
- Abstract(参考訳): 効果的なユニットテストは、ソフトウェア品質の保護と改善に役立ちますが、書き込みとメンテナンスにかなりの時間と労力が必要です。
ユニットテストは、テストプレフィックスとテストオラクルで構成される。
テストオラクル、特に機能的なオラクルの合成は、よく知られた課題である。
近年の研究では、ニューラルモデルを利用してテストオラクル、すなわちニューラルテストオラクル生成(NTOG)を生成し、有望な結果を得た。
しかし, 系統検査の結果, 既存のNTOGの評価手法には不適切な設定があることがわかった。
これらの設定は、既存のNTOGアプローチのパフォーマンスの理解を誤解させる可能性がある。
私たちはそれらを要約する。
1)バグ修正プログラムバージョンからテストプレフィックスを生成する。
2)非現実的な指標による評価,及び
3) 直接的なベースラインの欠如。
本稿では,これらの設定がNTOG手法の性能評価と理解に与える影響について検討する。
私たちはそれを見つけ
1) バグ修正プログラムバージョンから非現実的にテストプレフィックスを生成すると、最先端のNTOGアプローチTOGAで見つかったバグの数が61.8%膨らむ。
2)FPR(False Positive Rate)は現実的な評価基準ではなく、TOGAの精度は0.38%に過ぎず、
3) 単純なベースラインであるNoExceptionは、単に例外が起こらないことを期待しており、TOGAによって見つかったバグの61%を精度の2倍に見つけることができる。
さらに,既存の評価手法に新たなランク付け手順を導入し,NTOG手法のコスト効率をよりよく評価するためのFound@Kという評価指標を提案する。
そこで本研究では,TOGAのコスト効率を大幅に向上させるとともに,このランキングステップをインスタンス化するための新しい非教師付きランキング手法を提案する。
最終的に,NTOG のより現実的な評価手法 TEval+ を提案し,NTOG の実践的利用を促進するために,親指の7つのルールを要約した。
関連論文リスト
- Realistic Evaluation of Test-Time Adaptation Algorithms: Unsupervised Hyperparameter Selection [1.4530711901349282]
TTA(Test-Time Adaptation)は、分散シフト下での機械学習モデルロバストネスの問題に対処するための有望な戦略として登場した。
我々は,サロゲートベースのhp選択戦略を用いて既存のTTA手法を評価し,その性能をより現実的に評価する。
論文 参考訳(メタデータ) (2024-07-19T11:58:30Z) - Test-Time Personalization with Meta Prompt for Gaze Estimation [23.01057994927244]
自然言語処理(NLP)の最近の進歩からインスピレーションを得て、テスト時間に無数のパラメータ"prompts"を更新する。
我々は、その更新が目標に合致することを確実にするために、プロンプトをメタ学習することを提案する。
実験の結果,メタ学習プロンプトは単純な対称性の損失でも効果的に適応できることがわかった。
論文 参考訳(メタデータ) (2024-01-03T07:02:35Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - A Study of Unsupervised Evaluation Metrics for Practical and Automatic
Domain Adaptation [15.728090002818963]
教師なしドメイン適応(UDA)メソッドは、ラベルなしでターゲットドメインへのモデル転送を容易にする。
本稿では,対象の検証ラベルにアクセスすることなく,移動モデルの品質を評価できる評価指標を見つけることを目的とする。
論文 参考訳(メタデータ) (2023-08-01T05:01:05Z) - Neural-Based Test Oracle Generation: A Large-scale Evaluation and
Lessons Learned [17.43060451305942]
TOGAは、最近開発された自動テストオラクル生成のためのニューラルベース手法である。
24%の時間を必要とするオラクルのタイプを誤って分類し、その62%の時間で正しく分類すると、いかなるアサーション・オラクルも生成できない。
これらの知見は、最先端のニューラルベースオラクル生成技術の限界を明らかにしている。
論文 参考訳(メタデータ) (2023-07-29T16:34:56Z) - Evaluating Graph Neural Networks for Link Prediction: Current Pitfalls
and New Benchmarking [66.83273589348758]
リンク予測は、グラフのエッジの一部のみに基づいて、目に見えないエッジが存在するかどうかを予測しようとする。
近年,この課題にグラフニューラルネットワーク(GNN)を活用すべく,一連の手法が導入されている。
これらの新しいモデルの有効性をよりよく評価するために、新しい多様なデータセットも作成されている。
論文 参考訳(メタデータ) (2023-06-18T01:58:59Z) - On Pitfalls of Test-Time Adaptation [82.8392232222119]
TTA(Test-Time Adaptation)は、分散シフトの下で堅牢性に取り組むための有望なアプローチとして登場した。
TTABは,10の最先端アルゴリズム,多種多様な分散シフト,および2つの評価プロトコルを含むテスト時間適応ベンチマークである。
論文 参考訳(メタデータ) (2023-06-06T09:35:29Z) - Artificial Text Detection via Examining the Topology of Attention Maps [58.46367297712477]
トポロジカルデータ分析(TDA)に基づく3種類の解釈可能なトポロジカル特徴を提案する。
BERTモデルから派生した特徴が3つの共通データセットにおいて、カウントベースとニューラルベースベースラインを最大10%上回っていることを実証的に示す。
特徴の探索解析は表面に対する感度と構文的性質を明らかにしている。
論文 参考訳(メタデータ) (2021-09-10T12:13:45Z) - Robustness Gym: Unifying the NLP Evaluation Landscape [91.80175115162218]
ディープニューラルネットワークは、現実のシステムにデプロイすると脆くなることが多い。
最近の研究は、そのようなモデルの堅牢性をテストすることに重点を置いている。
単純かつ評価可能なツールキットであるRobustness Gymの形で解を提案する。
論文 参考訳(メタデータ) (2021-01-13T02:37:54Z) - ScoreGAN: A Fraud Review Detector based on Multi Task Learning of
Regulated GAN with Data Augmentation [50.779498955162644]
生成・検出プロセスにおけるレビューテキストとレビューレーティングスコアの両方を利用した不正レビュー検出のためのScoreGANを提案する。
その結果,提案フレームワークは,既存の最先端フレームワークであるFakeGANをAPの7%,YelpとTripAdvisorのデータセットで5%上回る性能を示した。
論文 参考訳(メタデータ) (2020-06-11T16:15:06Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。