Fugu-MT 論文翻訳(概要): AEON: A Method for Automatic Evaluation of NLP Test Cases

論文の概要: AEON: A Method for Automatic Evaluation of NLP Test Cases

arxiv url: http://arxiv.org/abs/2205.06439v1
Date: Fri, 13 May 2022 03:47:13 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-16 13:36:18.174936
Title: AEON: A Method for Automatic Evaluation of NLP Test Cases
Title（参考訳）: AEON:NLP検査症例の自動評価方法
Authors: Jen-tse Huang, Jianping Zhang, Wenxuan Wang, Pinjia He, Yuxin Su, Michael R. Lyu
Abstract要約: AEONを用いて、典型的な3つのNLPタスクにわたる5つのデータセット上で4つの一般的なテスト手法によって生成されたテストケースを評価する。 AEONは、セマンティックな不整合テストケースの検出において、最高の平均精度を達成し、最高のベースラインメトリックを10%上回る。 AEONはまた、不自然なテストケースを見つけるための平均的な精度も高く、ベースラインを15%以上越えている。
参考スコア（独自算出の注目度）: 37.71980769922552
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Due to the labor-intensive nature of manual test oracle construction, various automated testing techniques have been proposed to enhance the reliability of Natural Language Processing (NLP) software. In theory, these techniques mutate an existing test case (e.g., a sentence with its label) and assume the generated one preserves an equivalent or similar semantic meaning and thus, the same label. However, in practice, many of the generated test cases fail to preserve similar semantic meaning and are unnatural (e.g., grammar errors), which leads to a high false alarm rate and unnatural test cases. Our evaluation study finds that 44% of the test cases generated by the state-of-the-art (SOTA) approaches are false alarms. These test cases require extensive manual checking effort, and instead of improving NLP software, they can even degrade NLP software when utilized in model training. To address this problem, we propose AEON for Automatic Evaluation Of NLP test cases. For each generated test case, it outputs scores based on semantic similarity and language naturalness. We employ AEON to evaluate test cases generated by four popular testing techniques on five datasets across three typical NLP tasks. The results show that AEON aligns the best with human judgment. In particular, AEON achieves the best average precision in detecting semantic inconsistent test cases, outperforming the best baseline metric by 10%. In addition, AEON also has the highest average precision of finding unnatural test cases, surpassing the baselines by more than 15%. Moreover, model training with test cases prioritized by AEON leads to models that are more accurate and robust, demonstrating AEON's potential in improving NLP software.
Abstract（参考訳）: 手動テストオラクル構築の労働集約性のため、自然言語処理(NLP)ソフトウェアの信頼性を高めるために様々な自動テスト技術が提案されている。理論上、これらのテクニックは既存のテストケース(例えば、ラベル付き文)を変異させ、生成されたものと同じ意味または類似の意味を持ち、したがって同じラベルを持つと仮定する。しかし、実際には、生成されたテストケースの多くは同様の意味を保たず、不自然な(文法エラーなど)ため、偽のアラーム率が高く、不自然なテストケースにつながる。評価の結果,最先端(SOTA)アプローチによる検査症例の44%が誤報であることがわかった。これらのテストケースは広範囲な手動チェック作業を必要とし、NLPソフトウェアを改善する代わりに、モデルトレーニングに使用するとNLPソフトウェアを劣化させることもできる。そこで本研究では,NLPテストケースの自動評価のためのAEONを提案する。生成されたテストケースごとに、意味的類似性と言語自然性に基づいてスコアを出力する。 3つの典型的なNLPタスクにまたがる5つのデータセット上で,4つの一般的なテスト手法によって生成されたテストケースを評価するために,AEONを使用している。その結果,AEONはヒトの判断に最適であることがわかった。特に、AEONは、セマンティック不整合テストケースの検出において、最高の平均精度を達成し、最高のベースラインメトリックを10%上回る。さらに、AEONは、不自然なテストケースを見つけるための平均的な精度も高く、ベースラインを15%以上越えている。さらに、AEONが優先するテストケースによるモデルトレーニングは、より正確で堅牢なモデルをもたらし、AEONがNLPソフトウェアを改善する可能性を示している。

関連論文リスト

From Requirements to Test Cases: An NLP-Based Approach for High-Performance ECU Test Case Automation [0.5249805590164901]
本研究では,自然言語処理技術を用いて,自然言語要求を構造化されたテストケース仕様に変換する手法について検討する。 400個の特徴要素文書のデータセットを用いて、信号名や値などの重要な要素を抽出するための両方のアプローチを評価した。 Rule-Based 法は NER 法よりも優れており、95% の精度で単一信号でより単純な要求を満たすことができる。
論文参考訳（メタデータ） (2025-05-01T14:23:55Z)
AutoTestForge: A Multidimensional Automated Testing Framework for Natural Language Processing Models [11.958545255487735]
NLPモデルの自動化および多次元テストフレームワークであるAutoTestForgeを紹介する。 AutoTestForge内では、テストテンプレートを自動的に生成してインスタンス化するLarge Language Models(LLM)の利用により、手作業による関与が大幅に削減される。また、このフレームワークは、分類学、公正性、堅牢性の3つの側面にまたがってテストスイートを拡張し、NLPモデルの能力を総合的に評価する。
論文参考訳（メタデータ） (2025-03-07T02:44:17Z)
ABFS: Natural Robustness Testing for LLM-based NLP Software [8.833542944724465]
自然言語処理(NLP)ソフトウェアにおけるLLM(Large Language Models)は、様々な領域で急速に普及している。これらの応用は、入力中のわずかな摂動が誤った出力につながるような堅牢性欠陥をしばしば示している。現在のロバストネス試験法は,(1) 試験効率の低下,(2) 試験ケースの自然性不足の2つの主な限界に直面している。
論文参考訳（メタデータ） (2025-03-03T09:02:06Z)
VALTEST: Automated Validation of Language Model Generated Test Cases [0.7059472280274008]
大規模言語モデル(LLM)は、ソフトウェアテストの自動化、特に単体テストケースの生成において大きな可能性を証明している。本稿では,トークンの確率を利用してLLMが生成したテストケースを自動的に検証する新しいフレームワークVALTESTを紹介する。
論文参考訳（メタデータ） (2024-11-13T00:07:32Z)
Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文参考訳（メタデータ） (2024-10-31T15:06:16Z)
SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文参考訳（メタデータ） (2024-08-30T17:41:30Z)
Effective Test Generation Using Pre-trained Large Language Models and Mutation Testing [13.743062498008555]
大規模言語モデル(LLM)が生成するテストケースの有効性を,バグの発見の観点から改善するための MuTAP を導入する。 MuTAPは、プログラム・アンダー・テスト(PUT)の自然言語記述がない場合に有効なテストケースを生成することができる提案手法は, 最大28%の人書きコードスニペットを検出できることを示す。
論文参考訳（メタデータ） (2023-08-31T08:48:31Z)
From Static Benchmarks to Adaptive Testing: Psychometrics in AI Evaluation [60.14902811624433]
本稿では,静的評価手法から適応テストへのパラダイムシフトについて論じる。これには、ベンチマークで各テスト項目の特性と価値を推定し、リアルタイムでアイテムを動的に調整することが含まれる。我々は、AI評価にサイコメトリックを採用する現在のアプローチ、アドバンテージ、そして根底にある理由を分析します。
論文参考訳（メタデータ） (2023-06-18T09:54:33Z)
Intergenerational Test Generation for Natural Language Processing Applications [16.63835131985415]
各種NLPアプリケーションの誤動作を検出する自動テスト生成手法を提案する。この手法をNLPLegoに実装し、シード文の可能性を完全に活用する。 NLPLegoは3つのタスクで約95.7%の精度で1,732, 5301, 261,879の誤った行動を検出することに成功した。
論文参考訳（メタデータ） (2023-02-21T07:57:59Z)
TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文参考訳（メタデータ） (2022-05-18T05:43:06Z)
Labeling-Free Comparison Testing of Deep Learning Models [28.47632100019289]
本研究では,ラベリング作業の限界を克服し,ランダム性をサンプリングするためのラベリングフリー比較試験手法を提案する。提案手法は,データセットや分布シフトに関わらず,Spearmanの相関値とKendallの$tau$に対して,最大0.74および0.53のベースライン手法より優れている。
論文参考訳（メタデータ） (2022-04-08T10:55:45Z)
TestRank: Bringing Order into Unlabeled Test Instances for Deep Learning Tasks [14.547623982073475]
ディープラーニングシステムはテストやデバッグが難しいことで有名です。テストコスト削減のために、テスト選択を行い、選択した“高品質”バグ修正テストインプットのみをラベル付けすることが不可欠である。本稿では,未ラベルのテストインスタンスに,バグ検出機能,すなわちTestRankに従って順序を付ける新しいテスト優先順位付け手法を提案する。
論文参考訳（メタデータ） (2021-05-21T03:41:10Z)
Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。 CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文参考訳（メタデータ） (2020-05-08T15:48:31Z)
Noisy Adaptive Group Testing using Bayesian Sequential Experimental Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文参考訳（メタデータ） (2020-04-26T23:41:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。