論文の概要: White-box Testing of NLP models with Mask Neuron Coverage
- arxiv url: http://arxiv.org/abs/2205.05050v1
- Date: Tue, 10 May 2022 17:07:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-14 12:17:12.566451
- Title: White-box Testing of NLP models with Mask Neuron Coverage
- Title(参考訳): マスクニューロン被覆を有するNLPモデルのホワイトボックス試験
- Authors: Arshdeep Sekhon, Yangfeng Ji, Matthew B. Dwyer, Yanjun Qi
- Abstract要約: トランスフォーマーベースNLPモデル用にカスタマイズしたホワイトボックステスト手法を提案する。
MNCOVERは、テスト中にモデルの注意層がどれだけ徹底的に運動されているかを測定する。
我々は、MNCOVERを用いて、CheckListの入力生成をガイドし、代替のNLPテスト手法を評価し、データの拡張を推し進めて精度を向上させる方法を示す。
- 参考スコア(独自算出の注目度): 30.508750085817717
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent literature has seen growing interest in using black-box strategies
like CheckList for testing the behavior of NLP models. Research on white-box
testing has developed a number of methods for evaluating how thoroughly the
internal behavior of deep models is tested, but they are not applicable to NLP
models. We propose a set of white-box testing methods that are customized for
transformer-based NLP models. These include Mask Neuron Coverage (MNCOVER) that
measures how thoroughly the attention layers in models are exercised during
testing. We show that MNCOVER can refine testing suites generated by CheckList
by substantially reduce them in size, for more than 60\% on average, while
retaining failing tests -- thereby concentrating the fault detection power of
the test suite. Further we show how MNCOVER can be used to guide CheckList
input generation, evaluate alternative NLP testing methods, and drive data
augmentation to improve accuracy.
- Abstract(参考訳): 最近の文献では、NLPモデルの振る舞いをテストするためにCheckListのようなブラックボックス戦略を使うことへの関心が高まっている。
ホワイトボックステストの研究は、ディープモデルの内部挙動がどの程度徹底的にテストされているかを評価する多くの方法を開発したが、NLPモデルには適用できない。
変換器ベースNLPモデル用にカスタマイズしたホワイトボックステスト手法を提案する。
マスクニューロンのカバレッジ(mncover)は、テスト中にモデルの注意層がどれだけ徹底的に実行されるかを測定する。
mncoverは、チェックリストが生成するテストスイートを、平均で60\%以上のサイズで大幅に削減し、失敗したテストを維持しながら洗練できることを示し、テストスイートの障害検出能力に集中できることを示した。
さらに、MNCOVERを用いて、CheckListの入力生成をガイドし、代替のNLPテスト手法を評価し、データ拡張を行い精度を向上させる方法を示す。
関連論文リスト
- Context-Aware Testing: A New Paradigm for Model Testing with Large Language Models [49.06068319380296]
我々は,コンテキストを帰納バイアスとして用いて意味のあるモデル障害を探索するコンテキスト認識テスト(CAT)を導入する。
最初のCATシステムSMART Testingをインスタンス化し、大きな言語モデルを用いて、関連性があり、起こりうる失敗を仮説化します。
論文 参考訳(メタデータ) (2024-10-31T15:06:16Z) - SYNTHEVAL: Hybrid Behavioral Testing of NLP Models with Synthetic CheckLists [59.08999823652293]
我々は,NLPモデルの包括的評価のために,SyntheVALを提案する。
最後の段階では、人間の専門家が困難な例を調査し、手動でテンプレートを設計し、タスク固有のモデルが一貫して示す障害の種類を特定します。
我々は、感情分析と有害言語検出という2つの分類課題にSynTHEVALを適用し、これらの課題における強力なモデルの弱点を特定するのに、我々のフレームワークが有効であることを示す。
論文 参考訳(メタデータ) (2024-08-30T17:41:30Z) - Robust Black-box Testing of Deep Neural Networks using Co-Domain Coverage [18.355332126489756]
信頼できるデプロイメントには、マシンラーニングモデルの厳格なテストが必要です。
我々は、ディープニューラルネットワーク(DNN)の堅牢なテストのためのテストスーツを生成するための新しいブラックボックスアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-13T09:42:57Z) - GPT-HateCheck: Can LLMs Write Better Functional Tests for Hate Speech Detection? [50.53312866647302]
HateCheckは、合成データに対してきめ細かいモデル機能をテストするスイートである。
GPT-HateCheckは,スクラッチからより多彩で現実的な機能テストを生成するフレームワークである。
クラウドソースのアノテーションは、生成されたテストケースが高品質であることを示しています。
論文 参考訳(メタデータ) (2024-02-23T10:02:01Z) - GIST: Generated Inputs Sets Transferability in Deep Learning [12.147546375400749]
GIST(Generated Inputs Sets Transferability)は、テストセットの効率的な転送のための新しいアプローチである。
本稿では,テストセットの効率的な転送のための新しいアプローチであるGISTを紹介する。
論文 参考訳(メタデータ) (2023-11-01T19:35:18Z) - TTAPS: Test-Time Adaption by Aligning Prototypes using Self-Supervision [70.05605071885914]
本研究では,単体テストサンプルに適用可能な自己教師付きトレーニングアルゴリズムSwaVの新たな改良を提案する。
ベンチマークデータセットCIFAR10-Cにおいて,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-05-18T05:43:06Z) - Beyond Accuracy: Behavioral Testing of NLP models with CheckList [66.42971817954806]
CheckList は NLP モデルをテストするためのタスクに依存しない方法論である。
CheckListには、包括的なテストのアイデアを促進する一般的な言語機能とテストタイプのマトリックスが含まれている。
ユーザスタディでは、CheckListのNLP実践者が2倍の数のテストを作成し、それのないユーザの約3倍のバグを発見しました。
論文 参考訳(メタデータ) (2020-05-08T15:48:31Z) - Noisy Adaptive Group Testing using Bayesian Sequential Experimental
Design [63.48989885374238]
病気の感染頻度が低い場合、Dorfman氏は80年前に、人のテストグループは個人でテストするよりも効率が良いことを示した。
本研究の目的は,ノイズの多い環境で動作可能な新しいグループテストアルゴリズムを提案することである。
論文 参考訳(メタデータ) (2020-04-26T23:41:33Z) - Testing Monotonicity of Machine Learning Models [0.5330240017302619]
本稿では,モノトニック性の検証に基づく検証テスト,すなわち,検証技術を用いたホワイトボックスモデル上でのテスト入力の形式的計算を提案する。
ホワイトボックスモデルでは、テストケースの直接計算によって、テスト入力の空間を体系的に探索することができる。
90のブラックボックスモデルに対する実証的な評価は、検証ベースのテストは、適応的ランダムテストと、有効性と効率性に関してプロパティベースの技術より優れていることを示している。
論文 参考訳(メタデータ) (2020-02-27T17:38:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。