論文の概要: Assessing Evaluation Metrics for Neural Test Oracle Generation
- arxiv url: http://arxiv.org/abs/2310.07856v1
- Date: Wed, 11 Oct 2023 19:58:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-14 13:52:20.574440
- Title: Assessing Evaluation Metrics for Neural Test Oracle Generation
- Title(参考訳): ニューラルテストoracle生成のための評価指標の評価
- Authors: Jiho Shin, Hadi Hemmati, Moshi Wei, Song Wang
- Abstract要約: NLGベースの5つのテストアダクティメトリックと2つのテストアダクティメトリックで、最先端のテストオラクル生成モデルをトレーニングし、実行します。
意外なことに,NLGベースの指標とテスト精度の指標との間に有意な相関はみられなかった。
- 参考スコア(独自算出の注目度): 8.326914621818014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we revisit existing oracle generation studies plus ChatGPT to
empirically investigate the current standing of their performance in both
NLG-based and test adequacy metrics. Specifically, we train and run four
state-of-the-art test oracle generation models on five NLG-based and two test
adequacy metrics for our analysis. We apply two different correlation analyses
between these two different sets of metrics. Surprisingly, we found no
significant correlation between the NLG-based metrics and test adequacy
metrics. For instance, oracles generated from ChatGPT on the project
activemq-artemis had the highest performance on all the NLG-based metrics among
the studied NOGs, however, it had the most number of projects with a decrease
in test adequacy metrics compared to all the studied NOGs. We further conduct a
qualitative analysis to explore the reasons behind our observations, we found
that oracles with high NLG-based metrics but low test adequacy metrics tend to
have complex or multiple chained method invocations within the oracle's
parameters, making it hard for the model to generate completely, affecting the
test adequacy metrics. On the other hand, oracles with low NLG-based metrics
but high test adequacy metrics tend to have to call different assertion types
or a different method that functions similarly to the ones in the ground truth.
Overall, this work complements prior studies on test oracle generation with an
extensive performance evaluation with both NLG and test adequacy metrics and
provides guidelines for better assessment of deep learning applications in
software test generation in the future.
- Abstract(参考訳): 本研究では,既存のoracle generation studies と chatgpt を見直し,nlg ベースとテスト適度なメトリクスの両方でパフォーマンスの現況を実証的に調査する。
具体的には、分析のために5つのnlgベースと2つのテスト適性メトリクスで4つの最先端テストoracleジェネレーションモデルをトレーニングし、実行します。
これら2つの異なるメトリクスセット間の2つの異なる相関分析を適用する。
意外なことに,NLGベースの指標とテスト精度の指標との間に有意な相関はみられなかった。
例えば、ChatGPTのプロジェクトであるActivemq-artemisのオーラクルは、調査したNOGのうち、全てのNLGベースのメトリクスで最高性能を示したが、調査したNOGと比較してテスト精度の指標が減少しているプロジェクトが最も多い。
私たちはさらに質的分析を行い、観察の背後にある理由を調査しました。高いnlgベースのメトリクスを持つが、低いテスト適性メトリクスは、oracleのパラメータ内に複雑または複数の連鎖したメソッド呼び出しを持つ傾向があり、モデルが完全に生成することを困難にし、テスト適性メトリクスに影響を与えることが分かりました。
一方、低NLGベースの測定値であるが高いテスト精度の測定値を持つオラクルは、異なるアサーションタイプや、基底真実のものと同じような機能を持つ別のメソッドを呼ぶ必要がある。
全体として、本研究は、NLGとテスト精度の両指標による広範な性能評価により、テストオラクル生成に関する先行研究を補完し、将来のソフトウェアテスト生成におけるディープラーニングアプリケーションのより良い評価のためのガイドラインを提供する。
関連論文リスト
- Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Towards Reliable AI: Adequacy Metrics for Ensuring the Quality of
System-level Testing of Autonomous Vehicles [5.634825161148484]
我々は、"Test suite Instance Space Adequacy"(TISA)メトリクスと呼ばれる一連のブラックボックステストの精度指標を紹介します。
TISAメトリクスは、テストスイートの多様性とカバレッジと、テスト中に検出されたバグの範囲の両方を評価する手段を提供する。
AVのシステムレベルのシミュレーションテストにおいて検出されたバグ数との相関を検証し,TISA測定の有効性を評価する。
論文 参考訳(メタデータ) (2023-11-14T10:16:05Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - NLG Evaluation Metrics Beyond Correlation Analysis: An Empirical Metric
Preference Checklist [20.448405494617397]
Perplexity、BLEU、BERTScoreといったタスクに依存しないメトリクスは費用対効果が高く、多様なNLGタスクに適応できる。
ヒューマンアライメントメトリクス(CTC、CtrlEval、UniEval)は、望ましい人間的な品質をトレーニング目的として取り入れることで、相関レベルを改善する。
テキスト要約および制御生成タスクにおいて,システムレベルの性能を識別する上で,自動メトリクスが人間よりも優れたガイダンスを提供することを示す。
論文 参考訳(メタデータ) (2023-05-15T11:51:55Z) - Evaluating natural language processing models with generalization
metrics that do not need access to any training or testing data [66.11139091362078]
本稿では,Hugingface から事前学習した大規模トランスフォーマーに対して,一般化指標を用いた最初のモデル選択結果を提案する。
ニッチな状況にもかかわらず、ヘビーテール(HT)の観点から派生したメトリクスは、特にNLPタスクにおいて有用である。
論文 参考訳(メタデータ) (2022-02-06T20:07:35Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - How not to Lie with a Benchmark: Rearranging NLP Leaderboards [0.0]
一般的なNLPベンチマークの総合評価手法について検討し、幾何平均と調和平均でモデルを並べ替える。
我々は、GLUE、SuperGLUE、XGLUE、XTREMEなどの人気のあるベンチマークを分析した。
論文 参考訳(メタデータ) (2021-12-02T15:40:52Z) - BEAMetrics: A Benchmark for Language Generation Evaluation Evaluation [16.81712151903078]
自然言語処理(NLP)システムは、オープンなテキストを生成するためにますます訓練されている。
異なる指標は、異なる強さとバイアスを持ち、あるタスクに対する人間の直感を他のタスクよりも良く反映する。
ここでは、新しいメトリクス自体の評価を容易にするために、BEAMetrics (Benchmark to Evaluate Automatic Metrics) について説明する。
論文 参考訳(メタデータ) (2021-10-18T10:03:19Z) - GO FIGURE: A Meta Evaluation of Factuality in Summarization [131.1087461486504]
本稿では,現実性評価指標を評価するメタ評価フレームワークGO FIGUREを紹介する。
10個の実測値のベンチマーク分析により、我々のフレームワークが堅牢で効率的な評価を提供することが明らかとなった。
また、QAメトリクスは、ドメイン間の事実性を測定する標準的なメトリクスよりも一般的に改善されているが、パフォーマンスは、質問を生成する方法に大きく依存していることも明らかにしている。
論文 参考訳(メタデータ) (2020-10-24T08:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。