論文の概要: AEON: A Method for Automatic Evaluation of NLP Test Cases
- arxiv url: http://arxiv.org/abs/2205.06439v1
- Date: Fri, 13 May 2022 03:47:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 13:36:18.174936
- Title: AEON: A Method for Automatic Evaluation of NLP Test Cases
- Title(参考訳): AEON:NLP検査症例の自動評価方法
- Authors: Jen-tse Huang, Jianping Zhang, Wenxuan Wang, Pinjia He, Yuxin Su,
Michael R. Lyu
- Abstract要約: AEONを用いて、典型的な3つのNLPタスクにわたる5つのデータセット上で4つの一般的なテスト手法によって生成されたテストケースを評価する。
AEONは、セマンティックな不整合テストケースの検出において、最高の平均精度を達成し、最高のベースラインメトリックを10%上回る。
AEONはまた、不自然なテストケースを見つけるための平均的な精度も高く、ベースラインを15%以上越えている。
- 参考スコア(独自算出の注目度): 37.71980769922552
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Due to the labor-intensive nature of manual test oracle construction, various
automated testing techniques have been proposed to enhance the reliability of
Natural Language Processing (NLP) software. In theory, these techniques mutate
an existing test case (e.g., a sentence with its label) and assume the
generated one preserves an equivalent or similar semantic meaning and thus, the
same label. However, in practice, many of the generated test cases fail to
preserve similar semantic meaning and are unnatural (e.g., grammar errors),
which leads to a high false alarm rate and unnatural test cases. Our evaluation
study finds that 44% of the test cases generated by the state-of-the-art (SOTA)
approaches are false alarms. These test cases require extensive manual checking
effort, and instead of improving NLP software, they can even degrade NLP
software when utilized in model training. To address this problem, we propose
AEON for Automatic Evaluation Of NLP test cases. For each generated test case,
it outputs scores based on semantic similarity and language naturalness. We
employ AEON to evaluate test cases generated by four popular testing techniques
on five datasets across three typical NLP tasks. The results show that AEON
aligns the best with human judgment. In particular, AEON achieves the best
average precision in detecting semantic inconsistent test cases, outperforming
the best baseline metric by 10%. In addition, AEON also has the highest average
precision of finding unnatural test cases, surpassing the baselines by more
than 15%. Moreover, model training with test cases prioritized by AEON leads to
models that are more accurate and robust, demonstrating AEON's potential in
improving NLP software.
- Abstract(参考訳): 手動テストオラクル構築の労働集約性のため、自然言語処理(NLP)ソフトウェアの信頼性を高めるために様々な自動テスト技術が提案されている。
理論上、これらのテクニックは既存のテストケース(例えば、ラベル付き文)を変異させ、生成されたものと同じ意味または類似の意味を持ち、したがって同じラベルを持つと仮定する。
しかし、実際には、生成されたテストケースの多くは同様の意味を保たず、不自然な(文法エラーなど)ため、偽のアラーム率が高く、不自然なテストケースにつながる。
評価の結果,最先端(SOTA)アプローチによる検査症例の44%が誤報であることがわかった。
これらのテストケースは広範囲な手動チェック作業を必要とし、NLPソフトウェアを改善する代わりに、モデルトレーニングに使用するとNLPソフトウェアを劣化させることもできる。
そこで本研究では,NLPテストケースの自動評価のためのAEONを提案する。
生成されたテストケースごとに、意味的類似性と言語自然性に基づいてスコアを出力する。
3つの典型的なNLPタスクにまたがる5つのデータセット上で,4つの一般的なテスト手法によって生成されたテストケースを評価するために,AEONを使用している。
その結果,AEONはヒトの判断に最適であることがわかった。
特に、AEONは、セマンティック不整合テストケースの検出において、最高の平均精度を達成し、最高のベースラインメトリックを10%上回る。
さらに、AEONは、不自然なテストケースを見つけるための平均的な精度も高く、ベースラインを15%以上越えている。
さらに、AEONが優先するテストケースによるモデルトレーニングは、より正確で堅牢なモデルをもたらし、AEONがNLPソフトウェアを改善する可能性を示している。
関連論文リスト
- VALTEST: Automated Validation of Language Model Generated Test Cases [0.7059472280274008]
大規模言語モデル(LLM)は、ソフトウェアテストの自動化、特に単体テストケースの生成において大きな可能性を証明している。
本稿では,トークンの確率を利用してLLMが生成したテストケースを自動的に検証する新しいフレームワークVALTESTを紹介する。
論文 参考訳(メタデータ) (2024-11-13T00:07:32Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - Effective Test Generation Using Pre-trained Large Language Models and
Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。
MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる
提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文 参考訳(メタデータ) (2023-08-31T08:48:31Z) - From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。
これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。
我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z) - Intergenerational Test Generation for Natural Language Processing
Applications [16.63835131985415]
各種NLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。
この手法をNLPLegoに実装し、シード文の可能性を完全に活用する。
NLPLegoは3つのタスクで約95.7%の精度で1,732, 5301, 261,879の誤った行動を検出することに成功した。
論文 参考訳(メタデータ) (2023-02-21T07:57:59Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。
提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文 参考訳(メタデータ) (2022-04-08T10:55:45Z) - TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning
Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。
テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。
本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文 参考訳(メタデータ) (2021-05-21T03:41:10Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。