論文の概要、ライセンス

# (参考訳) マスクニューロン被覆を有するNLPモデルのホワイトボックス試験 [全文訳有]

White-box Testing of NLP models with Mask Neuron Coverage ( http://arxiv.org/abs/2205.05050v1 )

ライセンス: CC BY 4.0
Arshdeep Sekhon, Yangfeng Ji, Matthew B. Dwyer, Yanjun Qi(参考訳) 最近の文献では、NLPモデルの振る舞いをテストするためにCheckListのようなブラックボックス戦略を使うことへの関心が高まっている。 ホワイトボックステストの研究は、ディープモデルの内部挙動がどの程度徹底的にテストされているかを評価する多くの方法を開発したが、NLPモデルには適用できない。 変換器ベースNLPモデル用にカスタマイズしたホワイトボックステスト手法を提案する。 マスクニューロンのカバレッジ(mncover)は、テスト中にモデルの注意層がどれだけ徹底的に実行されるかを測定する。 mncoverは、チェックリストが生成するテストスイートを、平均で60\%以上のサイズで大幅に削減し、失敗したテストを維持しながら洗練できることを示し、テストスイートの障害検出能力に集中できることを示した。 さらに、MNCOVERを用いて、CheckListの入力生成をガイドし、代替のNLPテスト手法を評価し、データ拡張を行い精度を向上させる方法を示す。

Recent literature has seen growing interest in using black-box strategies like CheckList for testing the behavior of NLP models. Research on white-box testing has developed a number of methods for evaluating how thoroughly the internal behavior of deep models is tested, but they are not applicable to NLP models. We propose a set of white-box testing methods that are customized for transformer-based NLP models. These include Mask Neuron Coverage (MNCOVER) that measures how thoroughly the attention layers in models are exercised during testing. We show that MNCOVER can refine testing suites generated by CheckList by substantially reduce them in size, for more than 60\% on average, while retaining failing tests -- thereby concentrating the fault detection power of the test suite. Further we show how MNCOVER can be used to guide CheckList input generation, evaluate alternative NLP testing methods, and drive data augmentation to improve accuracy.
公開日: Tue, 10 May 2022 17:07:23 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
White-box Testing of NLP models with Mask Neuron Coverage マスクニューロン被覆を有するNLPモデルのホワイトボックス試験 0.86
Arshdeep Sekhon and Yangfeng Ji and Matthew B. Dwyer and Yanjun Qi Arshdeep SekhonとYangfeng JiとMatthew B. DwyerとYanjun Qi 0.43
University of Virginia, USA ヴァージニア大学、アメリカ 0.60
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] L C . s c [ 1 v 0 5 0 5 0 ]LC。 sc [ 1 v 0 5 0 5 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Recent literature has seen growing interest in using black-box strategies like CHECKLIST for testing the behavior of NLP models. 概要 近年の文献では、NLPモデルの振る舞いをテストするためにCHECKLISTのようなブラックボックス戦略を使うことへの関心が高まっている。
訳抜け防止モード: 概要 近年の文献は black - チェックリストのようなボックス戦略を使ってnlpモデルの振る舞いをテストする。
0.54
Research on white-box testing has developed a number of methods for evaluating how thoroughly the internal behavior of deep models is tested, but they are not applicable to NLP models. ホワイトボックステストの研究は、ディープモデルの内部挙動がどの程度徹底的にテストされているかを評価する多くの方法を開発したが、NLPモデルには適用できない。 0.69
We propose a set of white-box testing methods that are customized for transformerbased NLP models. 本稿では,トランスフォーマーベースNLPモデル用にカスタマイズしたホワイトボックステスト手法を提案する。 0.71
These include MASK NEURON COVERAGE (MNCOVER) that measures how thoroughly the attention layers in models are exercised during testing. 例えば、MNCOVER(MASK NEURON COVERAGE)は、テスト中にモデルの注意層がどれだけ徹底的に運動されているかを測定する。 0.54
We show that MNCOVER can refine testing suites generated by CHECKLIST by substantially reduce them in size, for more than 60% on average, while retaining failing tests – thereby concentrating the fault detection power of the test suite. MNCOVER はCHECKLIST によって生成されるテストスイートを,テストスイートの欠陥検出能力に集中させながら,平均で60% 以上,大幅に削減できることを示す。 0.63
Further we show how MNCOVER can be used to guide CHECKLIST input generation, evaluate alternative NLP testing methods, and drive data augmentation to improve accuracy. さらに、MNCOVERを用いてCHECKLISTの入力生成をガイドし、代替NLPテスト手法を評価し、データ拡張を行い精度を向上させる方法を示す。 0.77
Introduction 1 Previous NLP methods have used black-box testing to discover errors in NLP models. はじめに 従来のNLP手法では,NLPモデルのエラー検出にブラックボックステストが用いられていた。 0.57
For instance, Checklist(Ribeiro et al , 2020) introduces a blackbox testing strategy as a new evaluation methodology for comprehensive behavioral testing of NLP models. 例えば、checklist(ribeiro et al , 2020)は、nlpモデルの包括的な振る舞いテストのための新しい評価手法としてブラックボックステスト戦略を導入している。 0.65
CheckList introduced different test types, such as prediction invariance in the presence of certain perturbations. CheckListは、特定の摂動の存在下での予測不変性など、さまざまなテストタイプを導入した。 0.60
Black-box testing approaches, like Checklist, may produce distinct test inputs that yield very similar internal behavior from an NLP model. Checklistのようなブラックボックステストアプローチは、NLPモデルから非常に似た内部動作をもたらす異なるテストインプットを生成する可能性がある。 0.72
Requiring that generated tests are distinct both from a black-box and a white-box perspective – that measures test similarity in terms of latent representations – has the potential to reduce the cost of testing without reducing its error-detection effectiveness. 生成されたテストがブラックボックスとホワイトボックスの両方の観点 – 潜伏表現の点でテストの類似度を測定する – によって、エラー検出の有効性を低下させることなく、テストコストを削減できる可能性がある。 0.68
Researchers have explored a range of white-box coverage techniques that focus on neu- 研究者たちは、neuにフォーカスしたホワイトボックスのカバレッジテクニックを探求した。 0.58
ron activations and demonstrated their benefit on architecturally simple feed-forward networks (Pei et al , 2017; Tian et al , 2018; Ma et al , 2018a; Dola et al , 2021). ronは、アーキテクチャ上シンプルなフィードフォワードネットワーク(pei et al , 2017; tian et al , 2018; ma et al , 2018a; dola et al , 2021)で有効化し、そのメリットを実証した。 0.71
However, transformer-based NLP models incorporate more complex layer types, such as those computing self-attention, to which prior work is inapplicable. しかし、トランスフォーマーベースのNLPモデルは、前処理が適用不可能な自己アテンションの計算のような、より複雑なレイヤータイプを組み込んでいる。 0.56
In this paper, we propose a suite of white-box coverage metrics. 本稿では,ホワイトボックスのカバレッジ指標のスイートを提案する。 0.66
We first adapt the k-multisection neuron coverage measure from (Ma et al , 2018a) to Transformer architectures. まず, (Ma et al , 2018a) からの k-multisection neuron coverage を Transformer アーキテクチャに適応させる。 0.76
Then we design a novel MNCOVER coverage metric, tailored to NLP models. 次に,NLPモデルに適した新しいMNCOVERカバレッジメトリックを設計する。 0.80
MNCOVER focuses on the neural modules that are important for NLP and designs strategies to ensure that those modules’ behavior is thoroughly exercised by a test set. MNCOVERは、NLPにとって重要な神経モジュールに焦点を当て、これらのモジュールの振る舞いがテストセットによって徹底的にエクササイズされることを保証するための戦略を設計する。 0.57
Our proposed coverage metric, when used to guide test generation, can cost-effectively achieve high-levels of coverage. テスト生成のガイドに使用する場合、提案するカバレッジメトリクスは、高いレベルのカバレッジを効果的に達成できます。 0.52
Figure 1 shows one example of how MNCOVER can work in concert with CheckList to produce a small and effective test set. 図1は、MNCOVERがCheckListと協調して、小さく効果的なテストセットを生成する方法の例を示している。 0.72
The primary insight is that not all text sentences contain new information that will improve our confidence in a target model’s behavior. 第一の洞察は、すべてのテキスト文が、ターゲットモデルの振る舞いに対する信頼を向上する新しい情報を含んでいるわけではないことである。
訳抜け防止モード: 主な洞察は すべてのテキスト文が、ターゲットモデルの振る舞いに対する信頼を高める新しい情報を含んでいるわけではない。
0.74
In this list, multiple sentences were generated with similar syntactic and semantic structure. このリストでは、類似した構文と意味構造で複数の文が生成される。 0.63
These sentences cause the activation of sets of attention neurons that have substantial overlap. これらの文は、かなりの重なりを持つ注意ニューロンのセットの活性化を引き起こす。 0.57
This represents a form of redundancy in testing an NLP model. これは、NLPモデルをテストする際の冗長性を表す。 0.76
Coverage-based filtering seeks to identify when an input’s activation of attention neurons is subsumed by that of prior test inputs – such inputs are filtered. カバレッジベースのフィルタリングは、前回のテスト入力によって、入力の注意ニューロンの活性化がいつ仮定されるかを特定する。 0.70
In the Figure the second and third sentences are filtered out because their activation of attention neurons is identical to the first test sentence. 図2では、注意ニューロンの活性化が第1テスト文と同一であるため、第2と第3の文はフィルタリングされる。 0.63
As we show in §4 this form of filtering can substantially reduce test suite size while retaining tests that expose failures in modern NLP models, such as BERT. この形式のフィルタリングは、BERTのような現代のNLPモデルにおける障害を露呈するテストを維持しながら、テストスイートのサイズを大幅に削減することができる。 0.65
The primary contributions of the paper lie in: • Introducing MNCOVER a test coverage metric designed to address the attention-layers that • mncoverの導入 注目層に対処するために設計されたテストカバレッジメトリックの導入。 0.48
英語(論文から抽出)日本語訳スコア
Figure 1: Example of our proposed MNCOVER’s filtering on a set of test examples. 図1: テスト例のセットで提案したMNCOVERのフィルタリングの例。 0.71
are characteristic of NLP models and to account for the data distribution by considering task-specific important words and combinations. NLPモデルの特徴であり、タスク固有の重要な単語と組み合わせを考慮し、データ分散を考慮に入れている。 0.63
• Demonstrating through experiments on 2 NLP models (BERT, Roberta), 2 datasets (SST-2, QQP), and 24 sentence transformations that MNCOVER can substantially reduce the size of test sets generated by CheckList, by 64% on average, while improving the failure detection of the resulting tests, by 13% on average. • 2つのNLPモデル(BERT, Roberta)、2つのデータセット(SST-2, QQP)、24の文変換の実験を通じて、MNCOVERがCheckListで生成されたテストセットのサイズを平均64%減らし、結果として得られたテストの失敗検出を平均13%改善できることを示す。 0.85
• Demonstrating that MNCOVER provide an effective supplementary criterion for evaluating the quality of test sets and that it can be used to generate augmented training data that improves model accuracy. • MNCOVERは、テストセットの品質を評価するための効果的な補足基準を提供し、モデル精度を向上させる強化トレーニングデータを生成するために使用できることを示す。 0.80
2 Background Coverage for testing deep networksThe research of Coverage testing focuses on the concept of "adequacy criterion" that defines when “enough” testing has been performed. 背景 ディープネットワークのテストカバレッジ カバレッジテストの研究は、いつ“十分な”テストが実行されたかを定義する“品質基準”の概念に焦点を当てている。 0.42
The white-box coverage testing has been proposed by multiple recent studies to test deep neural networks (Pei et al , 2017; Ma et al , 2018a,b; Dola et al , 2021). ホワイトボックスカバレッジテストは、ディープニューラルネットワークをテストする複数の研究によって提案されている(Pei et al , 2017; Ma et al , 2018a,b; Dola et al , 2021)。 0.79
DeepXplore (Pei et al , 2017), a white-box differential testing algorithm, introduced Neuron Coverage for DNNs to guide systematic exploration of DNN’s internal logic. ホワイトボックスの差分テストアルゴリズムであるDeepXplore (Pei et al , 2017)は、DNNの内部ロジックの体系的な探索を導くために、DNNのためのニューロンカバレッジを導入した。 0.72
Let us use D to denote a set of test inputs (normally named as a test suite in behavior testing). d を使って一連のテスト入力を表す(通常、振る舞いテストではテストスイートとして名付けられます)。 0.74
The Neuron Coverage regarding D is defined as the ratio between the number of unique activated neurons (activated by D) and the total number of neurons in that DNN under behavior testing. Dに関するニューロン被覆は、Dによって活性化されるユニークな活性化ニューロンの数と行動検査中のDNNのニューロンの総数との比として定義される。 0.83
A neuron is considered to be activated if its output is higher than a threshold value (e g , 0). ニューロンは、その出力がしきい値(eg, 0)よりも高い場合、活性化されると考えられている。 0.76
Another closely related study, DeepTest (Tian et al , 2018), proposed a gray-box, neuron coverage-guided test suite generation strategy. 別の密接な研究であるdeeptest (tian et al, 2018)は、gray-box, neuron coverage-guided test suite generation戦略を提案した。 0.65
Then, the study DeepGauge (Ma et al , 2018a) expands the neuron coverage definition by introducing the kmultisection neuron coverage criteria to produce a multi-granular set of DNN coverage metrics. 次に、DeepGauge (Ma et al , 2018a) は、kmultisection neuron coverage criteriaを導入して、DNNカバレッジメトリクスの多粒集合を生成することにより、ニューロンカバレッジ定義を拡張した。 0.65
For a given neuron n, the kmultisection neuron coverage measures how thoroughly 与えられたニューロン n に対して k 分割ニューロンの被覆は 0.61
a given set of test inputs like D covers the range [lown, highn]. d のようなテスト入力のセットは、範囲 [lown, highn] をカバーする。 0.78
The range [lown, highn] is divided into k equal bins (i.e., k-multisections), for k > 0. 範囲 (lown, highn) は k > 0 に対して k 等しいビン (k-multisections) に分割される。 0.79
For D and the target neuron n, its k-multisection neuron coverage is then defined as the ratio of the number of bins covered by D and the total number of bins, i.e., k. D と標的ニューロン n に対して、その k-多断面ニューロンのカバレッジは、D でカバーされるビンの数と、k でカバーされるビンの総数の比として定義される。 0.73
For an entire DNN model, the kmultisection neuron coverage is then the ratio of all the activated bins for all its neurons and the total number of bins for all neurons in the DNN. DNNモデル全体において、kmultisection neuron coverage は、すべてのニューロンに対する全ての活性化されたビンの比率であり、DNNの全ニューロンに対する総ビン数である。 0.83
Transformer architectureNLP is undergoing a paradigm shift with the rise of large scale Transformer models (e g , BERT, DALL-E, GPT-3) that are trained on unprecedented data scale and are adaptable to a wide range of downstream tasks(Bommasani et al , 2021). トランスフォーマーアーキテクチャNLPは、前例のないデータスケールで訓練され、幅広い下流タスク(Bommasani et al , 2021)に適応できる大規模なトランスフォーマーモデル(例えばBERT, DALL-E, GPT-3)の台頭とともにパラダイムシフトを行っている。 0.75
These models embrace the Transformer architecture (Vaswani et al , 2017) and can capture long-range pairwise or higher-order interactions between input elements. これらのモデルはトランスフォーマーアーキテクチャ(vaswani et al , 2017)を採用しており、入力要素間の長距離の対向あるいは高次相互作用を捉えることができる。 0.62
They utilize the selfattention mechanism(Vaswani et al , 2017) that enables shorter computation paths and provides parallelizable computation for learning to represent a sequential input data, like text. 彼らは、短い計算パスを可能にし、テキストのようなシーケンシャルな入力データを表現するための並列化可能な計算を提供するセルフアテンションメカニズム(vaswani et al , 2017)を利用している。 0.66
Transformer receives inputs in the general form of word tokens. transformerはワードトークンの一般的な形式で入力を受け取る。 0.71
The sequence of inputs is converted to vector embeddings that get repeatedly re-encoded via the self-attention mechanism. 入力のシーケンスはベクトル埋め込みに変換され、自己保持機構を介して繰り返しエンコードされる。 0.76
The self-attention can repeat for many layers, with each layer re-encoding and each layer maintaining the same sequence length. 自己アテンションは多くのレイヤで繰り返し、各レイヤは再エンコードされ、各レイヤは同じシーケンス長を保持する。 0.64
At each layer, it corresponds to the following operations to learn encoding of token at position i: 各層では、次の操作に対応して、位置 i: でトークンのエンコーディングを学ぶ。 0.71
αij = softmax(cid:0)(Wqhi) (cid:62)(Wkhj)/ αij = Softmax(cid:0)(Wqhi) (cid:62)(Wkhj)/ 0.45
d(cid:1) √ d(cid:1) √ 0.42
M(cid:88) ¯hi = M(第88回) シャイ=ヒ 0.48
αijWvhj h(cid:48) i = σ(¯hiWr + b1)Wo + b2. αijWvhj h(cid:48) i = σ( shiWr + b1)Wo + b2。 0.64
j=1 (1) (2) j=1 (1) (2) 0.38
(3) Here Wk is the key weight matrix, Wq is the query weight matrix,Wv is the value weight matrix, Wr and Wo are transformation matrices, and b1 and b2 are bias vectors. (3) ここでWkは鍵重み行列、Wqはクエリ重み行列、Wvは値重み行列、WrとWoは変換行列、b1とb2はバイアスベクトルである。
訳抜け防止モード: (3) ここで Wk は鍵重み行列である。 Wq はクエリ重み行列である。 Wvは値の重み行列です。 WrとWoは変換行列である。 b1とb2はバイアスベクトルです
0.57
3 Method State-of-the-art NLP models are large-scale with millions of neurons, due to large hidden sizes and multiple layers. 3方法 最先端のNLPモデルは、大きな隠れたサイズと複数のレイヤーのため、数百万のニューロンで大規模である。 0.68
We propose to simplify and view these foundation models (Bommasani et al , 2021) through two levels of granularity: (1) Word Level: that includes the position-level embeddings at each 我々は,これらの基礎モデル (Bommasani et al , 2021) を,(1) 単語レベル: それぞれの位置レベルの埋め込みを含む2段階の粒度で単純化・表示することを提案する。 0.80
'We like this food. 「この食べ物は好きです。」 0.64
''I liked the cabin crew. 「客室乗務員が好きだった。」 0.67
''I liked this aircraft. 「この飛行機が好きだった。 0.70
' The customer service was exceptionalTest Set Selection using Coverage 「カスタマサービスはカバレッジを用いた例外的なテストセット選択」 0.72
英語(論文から抽出)日本語訳スコア
Figure 2: A visual depiction of MNCOVER for masking neurons to measure coverage. 図2: カバレッジを測定するためにニューロンをマスキングするためのMNCOVERの視覚的描写。 0.66
layer and (2) Pairwise Attention Level: that includes the pairwise self-attention neurons between two positions at each layer. 層と(2)対方向の注意レベル:各層で2つの位置の間にある対方向の自己アテンションニューロンを含む。 0.71
In the rest of this paper, we denote the vector embeddings at location i for layer l as h(cid:48)l i and name these as the word level neurons at layer l. 残りの論文では、l層をh(cid:48)l i とする位置iにおけるベクトル埋め込みを記述し、これをl層における単語レベルニューロンと呼ぶ。 0.75
We also denote the αij at layer l and head h as αij lk, and call them as the attention level neurons at layer l. また、αij を層 l で、ヘッド h を αij lk と呼び、それらを層 l で注意レベルニューロンと呼ぶ。 0.65
3.1 Extending Neuron Coverage (COVER) for 3.1 拡張ニューロン被覆(COVER) 0.75
Testing NLP Model NLPモデルをテストする 0.73
Now we use the above two layers’ view we proposed, to adapt the vanilla neuron coverage concepts from the literature to NLP models. 現在、文献からNLPモデルへのバニラニューロンカバレッジ概念を適応するために、提案した2つのレイヤのビューを使用します。 0.66
First, we introduce a basic definition: "activated neuron bins" (Ma et al , 2018b): Definition 1 Activated Neuron Bins (ANB): For each neuron, we partition the range of its values (obtained from training data) into B bins/sections. まず、活性化ニューロンビン(Ma et al , 2018b):定義1活性化ニューロンビン(ANB):各ニューロンに対して、その値の範囲(トレーニングデータから得られる)をBビン/セクションに分割する。 0.61
We define ANB for a given text input if the input’s activation value from the target neuron falls into the corresponding bin range. 対象ニューロンからの入力の活性化値が対応するビン範囲に該当する場合、所定のテキスト入力に対してANBを定義する。 0.75
Then we adapt the above definition to the NLP model setting, by using the after-mentioned two layers’ view. 次に、後述の2つのレイヤのビューを使用して、上記の定義をNLPモデル設定に適用する。 0.70
We design two phrases: Word Neuron Bins, and Activated Word Neuron Bins in the following Definition (2). 単語ニューロンビンと活性化された単語ニューロンビンの2つのフレーズを次の定義で設計する(2)。 0.66
Definition 2 Activated Word Neuron Bins(AWB): We discretize the possible values of each neuron in h(cid:48)(cid:96) t (whose d-th embedding dimension is h(cid:48)(cid:96) dt) into B sections. 定義 2 Activated Word Neuron Bins (AWB): 我々は各ニューロンの可能な値をh(cid:48)(cid:96) t (d-th Embedding dimension) h(cid:48)(cid:96) dt) で識別する。 0.84
We propose a function φw who takes (cid:48)lb dt , x) for a given input x. 入力 x に対して (cid:48)lb dt , x) を取る関数 φw を提案する。 0.83
two arguments, as φw(h (cid:48)lb dt , x) = 1 if it is an activated word neuron φw(h bin (shortened as AWB), else 0 if not activated. φw(h (cid:48)lb dt , x) = 1 if it is an activated word neuron φw(h bin (shortened as AWB), else 0 if not activated。
訳抜け防止モード: φw(h ( cid:48)lb dt, x ) = 1 if である。 活性化語 φw(h bin)(awb と略される)である。 アクティベートしない場合は0。
0.65
Similarly, for our attention neuron at layer l, head k, word position i and position j: αlk ij , we introduce the definition of "attention neuron bins" and "Activated Attention Neuron Bins" in the fol- 同様に、l, head k, word position i and position j: αlk ij における注意ニューロンに対しては、folにおける「注意ニューロンビン」と「活動ニューロンビン」の定義を導入する。 0.64
lowing Definition (3). lowing definition (3) 0.31
Definition 3 Activated Attention Neuron Bins (AAB): We discretize the possible values of neuron ij into B sections. 定義3 活性化注意ニューロンビン(aab):ニューロンijの可能な値をbセクションに識別する。 0.68
We denote the state of the bth αlk section of this attention neuron using φa(αijb lk , x). 我々は、φa(αijb lk , x) を用いて、この注意ニューロンの bth αlk 切断の状態を表す。 0.72
φa(αijb lk , x) = 1 if it is an activated attention neuron bin (denoted by AAB) by an input x and φa(αijb φa(αijb lk , x) = 1 入力xと φa(αijb) による活性化注意ニューロンビン(aab)である場合 0.81
lk , x) = 0 if not activated. lk , x) = 0 である。 0.61
(cid:88) (cid:88) (cid:88)(cid:88) 0.37
ltdb N(AWB(x)) = ltdb N(AWB(x)) = 0.64
N(AAB(x)) = N(AAB(x)) = 0.42
φw(h φw(h) である。 0.43
(cid:48)lb dt , x) (cid:48)lb dt , x) 0.48
φa(αijb lk , x) φa(αijb) lk (複数形 lks) 0.38
(4) (5) ijbk (4) (5) イブク 0.46
The coverage, denoted by COVER, of a dataset T for a target model is then defined as the ratio between the number of “activated" neurons and total neurons: 次に、ターゲットモデルのためのデータセットTのカバー範囲を、活性化されたニューロンの数と全ニューロンの比率として定義する。 0.66
COVER = cover = カバー 0.48
N(AWB) + λN(AAB) N(WB) + λN(AB) N(AWB) + λN(AAB) N(WB) + λN(AB) 0.94
(6) Here, λ is a scaling factor. (6) ここで λ はスケーリング因子である。 0.62
Now let us assume the total number of layers be D, total number of heads H, maximum length L, total bins B and total embedding size be E. Considering the example case of the BERT(Devlin et al , 2019) model, total number of word level neurons to be measured are then L × E × D = 128×768×13 ∼ 0.1million. BERT(Devlin et al , 2019)モデルの例を踏まえると、測定対象のワードレベルニューロンの総数はL×E×D = 128×768×13,0.1ミリリオンとなる。
訳抜け防止モード: さて、レイヤーの総数はD、ヘッドの総数 H と仮定する。 BERT(Devlin et al, 2019 )モデルの場合を考えると、最大長L、総ビンB、総埋め込みサイズはEである。 測定対象のワードレベルニューロンの総数は、L × E × D = 128×768×13, 0.1ミリリオンとなる。
0.78
The total number of the attention level neurons is then L×L×H×D = 128 × 128 × 12 × 12 ∼ 2million. 注意レベルニューロンの総数は、L×L×H×D = 128 × 128 × 12 × 12 × 2ミリリオンとなる。 0.74
3.2 MASK NEURON COVERAGE (MNCOVER) However, accounting for every word and attention neuron’s behavior for a large pre-trained model like BERT is difficult for two reasons: (1). 3.2 MASK NEURON COVERAGE (MNCOVER) しかし、BERTのような大きな事前学習モデルに対するすべての単語と注意ニューロンの行動を説明することは、2つの理由により困難である。
訳抜け防止モード: 3.2 MASK NEURON COVERAGE (MNCOVER ) しかし、 BERTのような大きな事前訓練されたモデルに対するすべての単語と注意神経の行動を説明する 理由は2つある: ( 1 )
0.79
If we desire to test each neuron at the output of all transformer layers in each BERT layer, we need to account for the behavior of every neuron, which for a 各BERT層内のすべてのトランスフォーマー層の出力で各ニューロンをテストしたい場合、各ニューロンの振る舞いを考慮しなければなりません。 0.63
CoverageBinsb1b2b3bk asweetandmodeststory Transformer Layer l𝒉𝑎𝒉𝑠𝑤𝑒𝑒𝑡𝒉𝑎𝑛𝑑𝒉𝑚𝑜𝑑𝑒𝑠𝑡𝒉𝑠𝑡𝑜𝑟𝑦TEST INPUTasweetandmodest andWORD IMPORTANCEMASKVanill aCoverage=!" #!$" !" #!$" # !"̅ #!$"̅MaskedCoverage=! CoverageBinsb1b2b3bk asweetandmodeststory Transformer Layer lhahsweethandhmodest hstoryTEST INPUTasweetandmodest andWORD IMPORTANCEMASKVanill aCoverage=! 0.41
$"!" #! $" # !"̅ #! $"!" #! $" # !"̅ #! 0.29
$"̅andsweetandmodeststo ryInteraction Importance Mask𝜶,-../Attention 𝛼!"𝜶012𝜶,-. 仮面α,-./アテンションα!"α012α,-。 0.37
./𝜶012𝜶342.,/𝜶,/456b1bkMaskedActiv atedTrueFalseFalseTr ue!"̅!"!"!$"sweet ./α012α342.,/α,/456b1bkMaskedActiv atedTrueFalseFalseTr ue! 0.35
英語(論文から抽出)日本語訳スコア
Figure 3: Learning the masks prior to testing: Globally important words and interactions are learnt by masking inputs to a target model. 図3: テストの前にマスクを学ぶ: グローバルに重要な単語とインタラクションは、ターゲットモデルに入力をマスクすることで学習される。 0.75
large pre-trained model like BERT is in the order of millions. BERTのようなトレーニング済みの大きなモデルは数百万の順にあります。 0.65
(2). If we test every possible neuron, we need to track many neurons that are almost irrelevant for a target task and/or model. (2). あらゆる可能なニューロンをテストした場合、ターゲットのタスクやモデルにほぼ無関係な多くのニューロンを追跡する必要がある。 0.55
This type of redundancy makes the behavior testing less confident and much more expensive. この種の冗長性は、振る舞いテストの信頼性を低下させ、はるかに高価にする。 0.56
To mitigate these concerns, we propose to only focus on important words and their combinations that may potentially contain ‘surprising’ new information for the model and hence need to be tested. これらの懸念を緩和するために、私たちは重要な単語とその組み合わせにのみ焦点を絞ることを提案します。
訳抜け防止モード: これらの懸念を緩和する。 重要な単語とその組み合わせにのみ焦点を合わせ モデルに新たな情報が含まれている可能性があるため、テストする必要がある。
0.74
We assume we have access to a word level importance mask, denoted by MW ∈ {0, 1}|V | and the interaction importance mask by MA ∈ {0, 1}|V |×|V |. MW ∈ {0, 1}|V | で表される単語レベルの重要マスクと、MA ∈ {0, 1}|V |×|V | で表される相互作用の重要マスクにアクセスできると仮定する。 0.86
Each entry in MW wt ∈ {0, 1} represents the importance of word wt. MW wt ∈ {0, 1} の各項目は単語 wt の重要性を表す。 0.82
Similarly, each entry in MAxi,xj ∈ {0, 1} represents the importance of interaction between token wti and wtj . 同様に、MAxi,xj ∈ {0, 1} の各エントリは、トークン wti と wtj の間の相互作用の重要性を表す。 0.78
These masks aim for filtering out unimportant tokens (and their corresponding neurons at each layer) for measuring coverage signals. これらのマスクは、カバー信号を測定するために重要でないトークン(および各層で対応するニューロン)をフィルタリングすることを目的としている。
訳抜け防止モード: これらのマスクは カバー信号を測定するために重要でないトークン(および各層で対応するニューロン)をフィルタリングする。
0.76
We apply the two masks at each layer to mask out unimportant attention pairs to prevent them from being counted towards coverage calculation. 各レイヤに2つのマスクを適用して,重要でない注意ペアをマスクアウトして,カバレッジ計算へのカウントを防止した。 0.69
With the masks, the AWB and AAB are revised and we then define MASK NEURON COVERAGE (MNCOVER) accordingly: N(Mask-AWB(x)) = マスクでは、AWBとABが修正され、N(Mask-AWB(x)) = MASK NEURON COVERAGE (MNCOVER) が定義される。 0.77
Mwxt ∗ φw(h (cid:48)lb dt , x) Maxi,xj ∗ φa(αijb Mwxt ∗ φw(h (cid:48)lb dt , x) Maxi,xj ∗ φa(αijb) 0.45
lk , x) lk (複数形 lks) 0.42
N(Mask-AAB(x)) = N(Mask-AAB(x)) = 0.96
(cid:88) (cid:88) (cid:88)(cid:88) 0.37
ltdb ijkb MNCOVER = ltdb ijkb MNCOVER = 0.57
N(Mask-AWB) + λN(Mask-AAB) N(マスク-AWB) + λN(マスク-AAB) 0.70
N(WB) + λN(AB) N(WB) + λN(AB) 0.94
3.3 Learning Importance Masks 3.3 学習重要マスク 0.72
(7) In this section, we explain our mask learning strategy that enables us to learn globally important words and their pairwise combinations for a model’s prediction without modifying a target model’s parameters. (7) 本稿では,対象モデルのパラメータを変更することなく,世界規模で重要な単語とそのペアの組合せをモデル予測のために学習することのできるマスク学習戦略を説明する。 0.65
We learn the two masks through a bottleneck strategy, that we call WIMASK layer. 私たちは、WIMASK層と呼ばれるボトルネック戦略を通じて、2つのマスクを学びます。 0.61
Given a target model f, we insert this mask bottleneck layer ターゲットモデルfが与えられると このマスクボトルネック層を挿入し 0.73
between the word embedding layer of a pretrained NLP model and the rest layers of this model. 事前訓練されたNLPモデルの単語埋め込み層と、このモデルの残りの層の間に。 0.76
Figure 3 shows a high level overview of the mask bottleneck layer. 図3は、マスクボトルネック層の概要を示しています。 0.72
Using our information bottleneck layer, we learn two masks : (1) a word level mask MA, (2) an interaction mask MW . 情報ボトルネック層を用いて,(1)単語レベルマスクMA,(2)対話マスクMWの2つのマスクを学習する。 0.73
Learning Word-Pair Interaction Importance Mask: MA The interaction mask aims to discover which words globally interact for a prediction task. ma the interaction maskは、予測タスクのためにどの単語がグローバルに相互作用するかを発見することを目的としている。 0.65
We treat words as nodes and represent their interactions as edges in an interaction graph. 我々は、単語をノードとして扱い、その相互作用を相互作用グラフのエッジとして表現する。 0.61
We represent this unknown graph as a matrix MA = {MAij}V ×V . この未知グラフを行列 MA = {MAij}V ×V として表現する。 0.80
Each entry MAxi,xj ∈ {0, 1} is a binary random variable, such that MAij ∼ Sigmoid (λij), follows Bernoulli distribution with parameter Sigmoid (λij). それぞれのエントリ maxi,xj ∈ {0, 1} は二項確率変数であり、maij はシグモイド(λij)であり、パラメータシグモイド(λij)を持つベルヌーイ分布に従う。 0.74
MAij specifies the presence or absence of an interaction between word i and word j in the vocabulary V. Hence, learning the word interaction graph reduces to learning the parameter matrix λ = {λij}V ×V . maij は語彙 v における単語 i と単語 j の相互作用の有無を指定する。したがって、単語相互作用グラフの学習はパラメータ行列 λ = {λij}v ×v の学習に還元される。 0.77
In Section 3.3.1, we show how λ (and therefore MA) is learned through a variational information bottleneck loss formulation (details in Section (A.2)). 第3.3.1節では、λ(したがって MA)が変分情報ボトルネック損失の定式化によってどのように学習されるかを示す(A.2)。 0.61
Based on the learnt interaction mask MA, each word embedding xi is revised using a graph based summation from its interacting neighbors’ embedding xj, j ∈ N (i): 学習した相互作用マスクMAに基づいて、各単語埋め込みxiは、その相互作用する隣人の埋め込みxj, j ∈ N (i):からグラフベースの和を用いて修正される。 0.73
e(cid:48) i = xi + σ e(cid:48) i = xi + σ 0.49
1|N (i)| xjW 1|N (i)| xjW 0.43
(8) (cid:32) (8) (cid:32) 0.41
(cid:33) (cid:88) (cid:33) (cid:88) 0.39
j∈N (i) i (複数形 is) 0.42
σ(·) is the ReLU non-linear activation function and W ∈ RH×H is a weight matrix. σ(·) は ReLU の非線形活性化関数であり、W ∈ RH×H は重み行列である。 0.84
We denote the resulting word representation vector as e(cid:48) i. 結果の単語表現ベクトルを e(cid:48) i と表す。 0.76
Here j ∈ N (i), and N (i) denotes those neighbor nodes of xi on the graph MA and in x. ここで、j ∈ N (i) と N (i) はグラフ MA および x 上の xi の隣接するノードを表す。 0.80
Eq (8) is motivated by the design of Graph convolutional networks (GCNs) that were introduced to learn useful node representations that encode both node-level features and relationships between connected nodes (Kipf and Welling, 2016). Eq (8)は、ノードレベルの特徴と接続ノード間の関係をエンコードする有用なノード表現を学習するために導入されたグラフ畳み込みネットワーク(GCN)の設計によって動機付けられている(Kipf and Welling, 2016)。 0.80
Differently in our work, we need to learn the graph MA, through the λ parameter. 私たちの作業では、λパラメータを通じてグラフmaを学習する必要があります。 0.74
We can compute the simultaneous update of all words in input text x together by concatenati. 入力テキストx中のすべての単語の同時更新は、concatenatiによって同時に計算できる。 0.72
This gives us one matrix E(cid:48) ∈ ML×H ing all e(cid:48) W , where L is the length of input and H is the embedding dimension of xi. これにより、1つの行列 E(cid:48) ∈ ML×H ing all e(cid:48) W が得られ、ここで L は入力の長さ、 H は xi の埋め込み次元である。
訳抜け防止モード: これにより、E(cid:48 ) ∈ ML×H ing all e(cid:48 ) W, ここで L は入力の長さです そして H は xi の埋め込み次元である。
0.87
Learning Word Importance Mask: MW This word mask aims to learn a global attribution word mask MW . この単語マスクは、グローバルな帰属語である「MW」を学習することを目的としている。 0.67
Aiming for better word selection, MW is designed as a learnable stochastic layer 単語選択の改善を目的としたMWは、学習可能な確率層として設計されている 0.54
sweetandmodeststorys weetandmodeststoryLE ARNT INTERACTIONMASK 𝑀! スイーツ&モデストリーLEARNT InterACTIONMASK M! 0.47
LEARNT WORD MASK 𝑀"𝑿TEST MODEL 𝑓(FIXED PARAMETERS)𝑦%𝑬’𝒁𝑓(𝑿)Graph ConvsweetandINPUT 学習作業用MASK M"XTESTモデルf(有限パラメータ)y%E’Zf(X)Graph ConvsweetandInPUT 0.67
英語(論文から抽出)日本語訳スコア
with MW ∈ {0, 1}V . MW ∈ {0, 1}V である。 0.74
Each entry in MW (e g , MW w ∈ {0, 1} for word w) follows a Bernoulli distribution with parameter pw. MW (e g , MW w ∈ {0, 1} for word w) の各エントリは、パラメータ pw を持つベルヌーイ分布に従う。 0.77
The learning reduces to learning the parameter vector p. 学習はパラメータベクトルpの学習に還元される。 0.87
During inference, for an input text x, we get a binary vector MW x from MW that is of size L. Its i-th entry MW xi ∈ {0, 1} is a binary random variable associated with the word token at the i-th position. 推測中、入力テキスト x に対して、L の大きさの MW から二進ベクトル MW x を得る。
訳抜け防止モード: 推論中、入力テキスト x に対して、L の大きさの MW から二進ベクトル MW x を得る。 1 } は、i 番目の位置にある単語トークンに関連付けられた二進乱変数である。
0.64
MW x denotes how important each word is in an input text x. MW x は入力テキスト x における各単語の重要性を表す。 0.89
Then we use the following operation (a masking operation) to generate the final representation of the i-th word: zi = MW xie(cid:48) i. 次に、次の操作(マスキング操作)を使用して、i番目の単語の最終表現を生成する。 0.53
We then feed the resulting Z to the target model f. 次に、得られた Z を対象モデル f に供給する。 0.72
3.3.1 Learning Word and Interaction Masks 3.3.1 学習語とインタラクションマスク 0.65
for a target model f: ターゲットモデルfに対して 0.67
During training, we fix the parameters of target model f and only train the WIMASK layerto get two masks. トレーニング中、ターゲットモデルfのパラメータを固定し、WIMASK層のみをトレーニングして2つのマスクを得る。 0.73
We learn this trainable layer using the following loss objective, with the derivation of each term explained in the following section: L(x, f (x), ˆy) = (cid:96)f (x),ˆy + βsparse(cid:96)sparse + βi(cid:96)priorMW x + βg(cid:96)priorMAx L(x, f (x), sy) = (cid:96)f (x), y + βsparse(cid:96)sparse + βi(cid:96)priorMW x + βg(cid:96)priorMAx
訳抜け防止モード: 以下の節で説明する各用語の導出により、この学習可能な層を次の損失目標を用いて学習する。 f ( x ) , sy ) = ( cid:96)f (x), sparse(cid:96)sparse + βi(cid:96)priormw x + βg(cid:96)priormax
0.84
(9) First, we want to ensure that model predictions with WIMASK layer added are consistent with the original prediction f (x). (9) まず、WIMASK層を付加したモデル予測が元の予測f(x)と一致していることを確認する。 0.59
Hence, we minimize the cross entropy loss (cid:96)f (x),ˆy between f (x) and the newly predicted output ˆy (when with the bottleneck layer). したがって、f(x) と新たに予測された出力 sy の間の交叉エントロピー損失(cid:96)f(x) を最小化する(ボトルネック層の場合)。 0.81
Then (cid:96)sparse is the sparsity regularization on MAx, (cid:96)priorMW is the KL divergence between MW and a random bernoulli prior. このとき (cid:96) スパースは MAx 上の空間正規化であり (cid:96)priorMW は MW とランダムな bernoulli との KL 分岐である。 0.79
Similarly, (cid:96)priorMA is the KL divergence between MA and a random bernoulli prior. 同様に (cid:96)priorma は ma とランダムな bernoulli prior の間の kl の分岐である。 0.70
We provide detailed derivations in Section A.2. 第A.2節で詳細を導出する。 0.50
4 Experiments Our experiments are designed to answer the following questions: 4 実験 我々の実験は以下の質問に答えるように設計されている。 0.67
1. Will a test set filtered by MNCOVER find more 1.mncoverでフィルタリングされたテストセットがさらに見つかるか 0.72
errors from a SOTA NLP model? SOTA NLPモデルからのエラー? 0.79
2. Does MNCOVER achieve test adequacy faster, i.e. achieve higher coverage in fewer samples? 2.MNCOVERはより高速なテスト精度、すなわちより少ないサンプルで高いカバレッジを達成するか? 0.83
3. Does MNCOVER help us compare existing 3.MNCOVERは既存のものを比較するのに役立つか? 0.51
testing benchmarks? テストベンチマーク? 0.74
4. Can MNCOVER help us automatically select non-redundant samples for better augmentation? 4.MNCOVERは、改善のために非冗長サンプルを自動的に選択できますか? 0.67
Datasets and ModelsWe use pretrained model BERT-base(Devlin et al , 2019) and RoBERTabase(Liu et al , 2019) provided by (Morris et al , 2020) finetuned on SST-2 dataset and Quora Question Pair (QQP) dataset. データセットとモデル 私たちは、事前トレーニングされたモデルBERT-base(Devlin et al , 2019)とRoBERTabase(Liu et al , 2019)を使用して、(Morris et al , 2020)がSST-2データセットとQuora Question Pair(QQP)データセットに微調整した。
訳抜け防止モード: データセットとモデル 事前訓練されたモデルBERT-base(Devlin et al, 2019)を使用する SST-2データセットに微調整したRoBERTabase(Liu et al, 2019 ) そしてQuora Question Pair (QQP ) データセット。
0.78
For the QQP dataset, we use the model finetuned on the MRPC dataset. QQPデータセットでは、MRPCデータセットに微調整されたモデルを使用します。 0.66
We train a word level mask (MW ) and an interaction mask (MA) for each of these settings. これらの設定ごとにワードレベルマスク(MW)とインタラクションマスク(MA)をトレーニングする。 0.73
We use a learning rate of 1e − 05, βi = 0.001, βg = 0.001, and βs = 0.001 for all models. 学習速度は1e − 05, βi = 0.001, βg = 0.001, βs = 0.001である。 0.77
We have provided the test accuracy of the target models and the models trained with masks in Table 5. 対象モデルとマスクで訓練したモデルの試験精度を表5に示す。 0.64
Note that the ground truth labels here are the predictions from the target model f without the WIMASK layer, as our goal is to ensure fidelity of the WIMASK +f to the target model f. ここでの基底真理ラベルは、WIMASK層を持たない対象モデルfからの予測であり、我々の目標は、対象モデルfに対するWIMASK+fの忠実性を保証することである。 0.75
Table 5 shows that training the WIMASK +f model maintains the target model’s predictions f as indicated by higher accuracies. 表5は、WIMASK +fモデルのトレーニングが、より高い精度で示されるように、ターゲットモデルの予測fを維持することを示している。
訳抜け防止モード: 表5は wimask + fモデルのトレーニングは、より高い確率で示すように、ターゲットモデル の予測fを維持する。
0.67
4.1 Experiment 1: Removing Redundant Test 4.1 実験1:冗長テストの廃止 0.75
Inputs during Model Testing モデルテスト時の入力 0.87
MotivationCHECKLIST (Ribeiro et al , 2020) provides a method to generate a large number of test cases corresponding to a target template. MotivationCHECKLIST (Ribeiro et al , 2020) は、ターゲットテンプレートに対応する多数のテストケースを生成する方法を提供する。 0.75
It introduces different transformations that can be used to generate samples to check for a desired behavior/functionali ty. 望ましい振る舞い/機能をチェックするためにサンプルを生成するために使用できる、さまざまな変換が導入されている。 0.60
For example, to check for a model’s behavior w.r.t typos in input texts, it generates examples with typos and queries the target model. 例えば、入力テキスト中のモデルの振る舞いw.r.tタイプミスをチェックするために、タイプミスの例を生成し、ターゲットモデルに問い合わせる。 0.70
CHECKLIST then compares failure rates across models for the generated examples to identify failure modes. CHECKLISTは、生成された例のモデル間で失敗率を比較して、障害モードを特定する。
訳抜け防止モード: CHECKLISTは生成された例のモデル間で失敗率を比較する 障害モードを特定します
0.75
However, it does not provide a method to quantify the number of tests that need to be generated or to determine which examples provide the most utility in terms of fault detection. しかし、生成されたテストの数を定量化したり、どの例が障害検出の最も有用なものかを判断する手段を提供していない。 0.64
Such a blind generation strategy may suffer from sampling bias and give a false notion of a model’s failure modes. このようなブラインド生成戦略は、サンプリングバイアスに悩まされ、モデルの障害モードの誤った概念を与える可能性がある。 0.66
SetupWe evaluate MNCOVER’s ability to redundant test samples out of the generated tests for a target model. セットアップ ターゲットモデルの生成されたテストからサンプルを冗長化するMNCOVERの機能を評価します。 0.79
The different transformations used are summarized in Column I of Table 1, Table 2, and Table 6. 使用する変換は、テーブル1、テーブル2、テーブル6のカラムIで要約される。 0.69
We measure failure rate on an initial test set of size N = 1500. n = 1500の大きさの最初のテストセットで失敗率を測定した。 0.75
We then filter the generated tests based on our MNCOVER coverage criteria: if adding a test example into a test suite does not lead to an increase in its coverage, it is discarded. 次に、MNCOVERのカバレッジ基準に基づいて生成されたテストをフィルタリングします。テストスイートにテスト例を追加すると、カバレッジが増加しない場合、破棄されます。 0.73
We then measure failure rate of the new filtered test set. そして、新しいフィルタテストセットの失敗率を測定します。 0.78
ResultsIn Table 1, we observe that MNCOVER can select more failure cases for the BERT model 結果 表 1 では、mncover が bert モデルにより多くの障害ケースを選択できることを観察する。
訳抜け防止モード: 結果表1ではそれを観察する。 MNCOVERはBERTモデルのさらなる障害ケースを選択することができる
0.67
英語(論文から抽出)日本語訳スコア
Test Transformation Name change names add negative phrases protected: race used to,but now protected: sexual change locations change neutral words with BERT contractions 2 typos change numbers typos neutral words in context protected: religion add random urls and handles simple negations: not neutral is still neutral simple negations: not negative my opinion is what matters punctuation Q & A: yes Q & A: no simple negations: negative reducers intensifiers Average Improvement テスト変換名 性的変化の場所 BERTの収縮で中性的な単語を変更する 2つのタイプミス変更の数値 文脈で中性的な単語をタイプする 宗教はランダムにウルルを追加し、単純な否定を処理する 中立はいまだ中立ではない 単純否定: 否定的ではない 私の意見は句読点 Q & A: yes Q & A: no simple negations: no negative reducer intensifiers Average Improvement 0.71
D 5.14 6.80 68.00 29.87 86.83 8.69 9.80 2.90 11.60 3.20 6.60 96.73 96.83 15.40 97.93 10.40 41.53 5.40 0.40 85.20 6.13 0.13 1.33 - D 5.14 6.80 68.00 29.87 86.83 8.69 9.80 2.90 11.60 3.20 6.60 96.73 96.83 15.40 97.93 10.40 41.53 5.40 0.40 85.20 6.13 0.13 1.33 - 0.21
Failure Rate (%) D+COVER D+MNCOVER ∆D+MNCOVER 失敗率(%) D+Cover D+MNCOVER >D+MNCOVER 0.38
100.0016.86 100.0019.16 100.0073.02 53.3046.27 100.0087.31 21.438.31 20.0013.04 5.523.94 18.0011.14 7.143.94 10.006.45 100.0096.91 100.0093.42 14.639.17 100.0098.49 12.009.56 42.4936.79 6.805.37 1.330.50 86.3376.42 7.335.63 0.270.10 1.050.31 100.0016.86 100.0019.16 100.0073.02 53.3046.27 100.0087.31 21.438.31 20.0013.04 5.523.94 18.0011.14 7.143.94 10.006.45 100.0096.91 100.0093.42 14.639.17 100.0098.49 12.009.56 42.4936.79 6.805.37 1.330.50 86.3376.42 7.335.63 0.270.10 1.050.31 0.12
100.0016.86 99.3419.16 99.3772.13 53.3046.75 100.0088.99 21.438.31 20.8413.39 8.224.34 16.0010.87 7.143.29 10.006.24 100.0096.82 100.0098.02 17.8611.56 100.0098.34 12.429.90 43.1436.79 6.806.26 1.710.49 86.2277.16 7.125.70 1.030.10 1.831.01 100.0016.86 99.3419.16 99.3772.13 53.3046.75 100.0088.99 21.438.31 20.8413.39 8.224.34 16.0010.87 7.143.29 10.006.24 100.0096.82 100.0098.02 17.8611.56 100.0098.34 12.429.90 43.1436.79 6.806.26 1.710.49 86.2277.16 7.125.70 1.030.10 1.831.01 0.12
94.8611.73 92.5412.36 31.374.13 23.4316.88 13.172.15 12.74−0.38 11.043.59 5.321.44 4.40−0.73 3.940.09 3.40−0.36 3.270.09 3.171.19 2.46−3.84 2.070.41 2.02−0.50 1.61−4.74 1.400.86 1.310.09 1.02−8.04 0.99−0.44 0.90−0.03 0.49−0.33 94.8611.73 92.5412.36 31.374.13 23.4316.88 13.172.15 12.74−0.38 11.043.59 5.321.44 4.40−0.73 3.940.09 3.40−0.36 3.270.09 3.171.19 2.46−3.84 2.070.41 2.02−0.50 1.61−4.74 1.400.86 1.310.09 1.02−8.04 0.99−0.44 0.90−0.03 0.49−0.33 0.10
Dataset Size Reduction (%) D+COVER D+MNCOVER 62.84 75.99 43.54 84.61 86.83 86.93 73.88 34.80 10.00 88.44 10.00 28.50 89.67 87.60 46.03 80.37 84.32 9.11 83.14 83.12 78.71 66.77 66.96 Dataset Size Reduction (%) D+COVER D+MNCOVER 62.84 75.99 43.54 84.61 86.83 86.93 73.88 34.80 10.00 88.44 10.00 28.50 89.67 87.60 46.03 80.37 84.32 9.11 83.14 83.12 78.71 66.77 66.96 0.23
62.84 75.40 44.33 84.61 83.83 86.47 73.40 34.80 10.00 87.70 10.00 21.33 89.67 87.60 45.67 80.11 84.16 10.00 82.33 82.34 78.63 67.00 66.65 62.84 75.40 44.33 84.61 83.83 86.47 73.40 34.80 10.00 87.70 10.00 21.33 89.67 87.60 45.67 80.11 84.16 10.00 82.33 82.34 78.63 67.00 66.65 0.20
13.511.10 13.781.55 13.511.10 13.781.55 0.20
13.781.55 62.99 13.781.55 62.99 0.25
63.57 Table 1: Failure Rate(%) obtained using BERT model on the original dataset D, the dataset filtered using COVER coverage (D+COVER columns) and the dataset filtered with MNCOVER coverage (D+MNCOVER columns) from the Sentiment Test Suite. 63.57 表1: オリジナルのデータセットD上でBERTモデルを用いて得られた失敗率(%)、COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセット、およびSentiment Test SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。
訳抜け防止モード: 63.57 表1 : BERTモデルから得られた故障率(%) COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセットと、Sentiment Test SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。
0.57
We report both the max failure rate as well as the mean in the subscript across 10 thresholds of coverage. 本報告では,最大障害率と,10しきい値のサブスクリプトの平均値の両方を報告する。 0.70
Rows are sorted regarding the failure rate difference between the dataset filtered using MNCOVER and the original dataset (column ∆D+MNCOVER). MNCOVERを使用してフィルタリングされたデータセットと、元のデータセット(カラム:D+MNCOVER)とのフェールレート差をソートする。 0.65
across all 23 transformation on SST-2 dataset. SST-2データセット上の23の変換全体。 0.69
On average, both MNCOVER and COVER can help reduce more than 60% of the test suite size, and MNCOVER achieves a slight advantage over COVER. 平均して、MNCOVERとCOVERは、テストスイートサイズの60%以上を削減するのに役立ち、MNCOVERは、COVERに対してわずかに有利である。 0.66
In Table 2, when using RoBERTa model, MNCOVER based filtering wins over the original dataset in 21 of 23 cases. テーブル2では、RoBERTaモデルを使用する場合、23ケース中21ケースで、MNCOVERベースのフィルタリングが元のデータセットに勝つ。 0.68
The average improvement of MNCOVER regarding error detection is 7.29% on RoBERTa model and 13.78% on BERT model. MNCOVERのエラー検出に関する平均的な改善はRoBERTaモデルでは7.29%、BERTモデルでは13.78%である。
訳抜け防止モード: 誤り検出に関するMNCOVERの平均改善率はRoBERTaモデルで7.29%である and 13.78 % on BERT model 。
0.82
We include similar results on QQP dataset in Table 6. 同様の結果を表6のQQPデータセットに含めます。 0.76
4.2 Experiment 2: Achieving Higher Dataset 4.2 実験2: 高いデータセットの達成 0.72
Coverage with Fewer Data Points 少ないデータポイントによるカバレッジ 0.71
MotivationWe revisit the question: given a test generation strategy, does adding more test samples necessarily add more information? モチベーション テスト生成戦略を考えると、より多くのテストサンプルを追加することは、必ずしもより多くの情報を追加しますか?
訳抜け防止モード: モチベーション 質問を再検討する : テスト生成戦略が与えられたら さらなるテストサンプルの追加 情報追加は必要か?
0.81
In this set of experiments, we appeal to the software engineering notion of “coverage" as a metric of test adequacy. この一連の実験では、テスト精度の指標として"カバレッジ"というソフトウェアエンジニアリングの概念をアピールします。 0.65
We show that we can reach a target level of test adequacy faster, i.e. a higher coverage, hence achieving more rigorous behavior testing, with fewer test examples, by using coverage as an indicator of redundant test samples. その結果、冗長なテストサンプルの指標としてカバレッジを使用することで、より厳密な振る舞いテストを実現し、より少ないテスト例で、より厳密な振る舞いテストを実現することができることがわかった。 0.68
Setup:We use the training set as seed examples and generate samples using transformations used in the previous experiment listed in Table 1. セットアップ: トレーニングセットをシードサンプルとして使用し、前回の実験で使用された変換を使ってサンプルを生成します。 0.73
Similar to the previous set of examples, we disregard an example if the increase in its coverage is below threshold. 前回の例と同様に、そのカバレッジの増加がしきい値以下である場合は、例を無視します。 0.77
We vary these threshold values ∈ {1e−04, 1e−03, 1e−02, 1e−01, 0.0}. これらのしきい値 {1e−04, 1e−03, 1e−02, 1e−01, 0.0} は変化する。 0.56
Higher the threshold, more number of examples get fil- しきい値が高いほど、より多くの例がフィルタされる 0.64
tered out. Results:In Figure 4, we show that using our coverage guided filtering strategy, we are able to achieve coverage with a fewer number of samples than without coverage based filtering. 恐ろしかった 結果:第4図では、カバレッジに基づくフィルタリング戦略を用いることで、カバレッジベースのフィルタリングがなければ、少数のサンプルでカバレッジを実現することが可能であることが示されています。 0.44
Even with a threshold of 0.0, we are able to significantly reduce the number of samples that achieve the same coverage as the unfiltered set: we are able to achieve an average reduction across transformations (higher the better) of 71.17%, 45.94%, 28.52%, 11.33% and 2.83% for {0.0, 1e−04, 1e−03, 1e−02, 1e−01} thresholds respectively. しきい値が 0.0 であっても、未ろ過集合と同じカバレッジを達成するサンプルの数を著しく減少させることができる: 71.17%、45.94%、28.52%、11.33%、および2.83% の変換をそれぞれ {0.0, 1e−04, 1e−03, 1e−02, 1e−01} のしきい値で平均的に減少させることができる。 0.71
4.3 Experiment 3: MNCOVER as a Metric to 4.3 実験3:メートル法としてのmncover 0.67
Evaluate Testing Benchmarks ベンチマークテストを評価する 0.57
Motivation:In this set of experiments, we utilize coverage as a test/benchmark dataset evaluation measure. モチベーション:この一連の実験では、カバレッジをテスト/ベンチマークデータセット評価尺度として利用します。 0.68
Static test suites, such as the GLUE benchmark, saturate and become obsolete as models become more advanced. GLUEベンチマークのような静的テストスイートは、モデルがより進歩するにつれて飽和し、時代遅れになる。
訳抜け防止モード: GLUEベンチマークのような静的テストスイートが飽和する モデルが進歩するにつれて 時代遅れになります
0.66
To mitigate the saturation of static benchmarks with model advancement, (Kiela et al , 2021) introduced Dynabench, a dynamic benchmark for Natural Language Inference(NLI). モデル進歩を伴う静的ベンチマークの飽和を軽減するため、(Kiela et al , 2021)は自然言語推論(NLI)の動的ベンチマークであるDynabenchを導入した。 0.73
Dynabench introduced a novel humanand-model-in-th e-loop dataset, consisting of three rounds that progressively increase in difficulty and complexity. dynabench氏は、3つのラウンドからなる新しいhumanand-model-in-th e-loopデータセットを導入した。 0.47
This results in three sets of training, validation and test datasets, with increasing complexity testing datasets. これにより、3つのトレーニング、バリデーション、テストデータセットが作成され、複雑性テストデータセットが増加する。 0.64
We use MNCOVER as an additional validation measure for the datasets. MNCOVERをデータセットのさらなる検証指標として使用しています。 0.65
英語(論文から抽出)日本語訳スコア
Test Transformation Name Q & A: yes protected: race neutral words in context protected: religion protected: sexual simple negations: not neutral is still neutral add negative phrases Q & A: no simple negations: not negative 2 typos change neutral words with BERT intensifiers change names punctuation change locations typos simple negations: negative used to,but now my opinion is what matters contractions reducers change numbers add random urls and handles Average Improvement テスト変換名 q & a: yes protected: race neutral words in context protected: religion protected: not neutral is still neutral as still negations add negative phrases q & a: no simple negations: not simple negations: not negative 2 typos change neutral words with bert intensifiers change names punctuation change location typos simple negations: negative used to, but now my opinion is matters 収縮 (contract) reducers change numbers add random urls and handle average improvements (英語)
訳抜け防止モード: テスト変換名 q&a はい 保護 文脈保護における人種中立語 宗教保護 : 性的な単純否定 非中立性は依然として中立性である q & a : no simple negations : not negative 2 typos change neutral words with bert intensifiers change name punctuation change location typos simple negations : negative used to, しかし、今私の意見は、縮小と縮小、変更番号がランダムなurlを追加し、平均的な改善を処理していることです。
0.75
D 46.20 61.67 80.87 73.00 91.00 91.53 29.60 57.53 95.40 5.20 9.20 1.13 4.53 4.80 6.16 3.00 1.33 52.73 56.47 1.00 0.40 2.50 11.40 - D 46.20 61.67 80.87 73.00 91.00 91.53 29.60 57.53 95.40 5.20 9.20 1.13 4.53 4.80 6.16 3.00 1.33 52.73 56.47 1.00 0.40 2.50 11.40 - 0.21
Failure Rate (%) D+COVER D+MNCOVER ∆D+MNCOVER 失敗率(%) D+Cover D+MNCOVER >D+MNCOVER 0.38
100.0051.45 100.0066.00 100.0083.43 74.1962.31 100.0084.25 100.0092.93 36.4623.15 61.6753.60 100.0096.11 6.405.10 11.117.81 2.681.69 4.882.57 6.004.03 7.325.28 3.601.90 2.001.07 53.3046.27 59.0050.32 1.370.74 0.340.14 1.630.48 8.335.22 100.0051.45 100.0066.00 100.0083.43 74.1962.31 100.0084.25 100.0092.93 36.4623.15 61.6753.60 100.0096.11 6.405.10 11.117.81 2.681.69 4.882.57 6.004.03 7.325.28 3.601.90 2.001.07 53.3046.27 59.0050.32 1.370.74 0.340.14 1.630.48 8.335.22 0.12
100.0051.45 100.0066.00 100.0083.31 85.7163.64 100.0084.25 100.0092.24 36.7223.15 62.4153.60 100.0095.92 7.335.33 11.117.48 2.681.87 5.812.37 6.003.96 7.324.44 4.002.39 1.991.20 53.3045.58 56.8649.87 1.370.63 0.570.27 2.410.72 8.654.55 100.0051.45 100.0066.00 100.0083.31 85.7163.64 100.0084.25 100.0092.24 36.7223.15 62.4153.60 100.0095.92 7.335.33 11.117.48 2.681.87 5.812.37 6.003.96 7.324.44 4.002.39 1.991.20 53.3045.58 56.8649.87 1.370.63 0.570.27 2.410.72 8.654.55 0.12
6.68−1.10 7.29−1.85 6.68−1.10 7.29−1.85 0.15
53.805.25 38.334.34 19.132.44 12.71−9.36 9.00−6.75 8.470.71 7.12−6.45 4.87−3.93 4.600.52 2.130.13 1.91−1.72 1.550.73 1.28−2.16 1.20−0.84 1.16−1.72 1.00−0.61 0.65−0.13 0.56−7.16 0.39−6.60 0.37−0.37 0.17−0.13 −0.09−1.78 −2.75−6.85 7.29−1.85 53.805.25 38.334.34 19.132.44 12.71−9.36 9.00−6.75 8.470.71 7.12−6.45 4.87−3.93 4.600.52 2.130.13 1.91−1.72 1.550.73 1.28−2.16 1.20−0.84 1.16−1.72 1.00−0.61 0.65−0.13 0.56−7.16 0.39−6.60 0.37−0.37 0.17−0.13 −0.09−1.78 −2.75−6.85 7.29−1.85 0.09
Dataset Size Reduction (%) D+COVER D+MNCOVER 81.58 44.33 21.39 89.67 83.83 46.11 75.40 82.31 80.27 10.00 72.45 66.46 62.84 10.00 87.43 10.00 78.68 83.74 84.20 34.80 66.35 87.70 88.18 Dataset Size Reduction (%) D+COVER D+MNCOVER 81.58 44.33 21.39 89.67 83.83 46.11 75.40 82.31 80.27 10.00 72.45 66.46 62.84 10.00 87.43 10.00 78.68 83.74 84.20 34.80 66.35 87.70 88.18 0.23
82.37 44.33 21.27 89.67 83.83 45.87 75.40 82.31 80.14 10.00 73.40 66.65 62.84 10.00 86.47 10.00 78.63 84.61 84.20 34.80 67.05 87.70 87.60 82.37 44.33 21.27 89.67 83.83 45.87 75.40 82.31 80.14 10.00 73.40 66.65 62.84 10.00 86.47 10.00 78.63 84.61 84.20 34.80 67.05 87.70 87.60 0.20
63.01 62.95 63.01 62.95 0.29
Table 2: Failure Rate(%) obtained using RoBERTa model on the original dataset D, the dataset filtered using COVER coverage (D+COVER columns) and the dataset filtered with MNCOVER coverage (D+MNCOVER columns) from the Sentiment Test Suite. 表2: オリジナルのデータセットD上でRoBERTaモデルを使用して得られた失敗率(%)、COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセット、およびSentiment Test SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。
訳抜け防止モード: 表2 : RoBERTaモデルによる元データセットD上の故障率(%) COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセットと、Sentiment Test SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。
0.80
We report both the max failure rate as well as the mean in the subscript across 10 thresholds of coverage. 本報告では,最大障害率と,10しきい値のサブスクリプトの平均値の両方を報告する。 0.70
Rows are sorted regarding the failure rate difference between the dataset filtered using MNCOVER and the original dataset (column ∆D+MNCOVER). MNCOVERを使用してフィルタリングされたデータセットと、元のデータセット(カラム:D+MNCOVER)とのフェールレート差をソートする。 0.65
Test Set A1 A1 + A2 テストセット A1 A1 + A2 0.53
A1 + A2 + A3 A1 + A2 + A3 0.39
A2 A3 MNCOVER A2 A3 MNCOVER 0.39
0.175 0.182 0.185 0.179 0.181 0.175 0.182 0.185 0.179 0.181 0.22
Table 3: MNCOVER Values on the Dynabench test sets 表3:DynabenchテストセットのMNCOVER値 0.70
Setup:We test the ROBERTA-Large model provided by Dynabench trained on training data from all three rounds of the benchmark. セットアップ:Dynabenchが提供したROBERTA-Largeモデルを、ベンチマークの3ラウンドすべてからトレーニングデータに基づいてテストする。 0.72
We use 10 as the number of bins and λ = 1.0. 10 をビンの数と λ = 1.0 として使う。 0.82
Results:We measure coverage achieved by each of the test sets individually as well as in combination. 結果:各テストセットで達成されたカバレッジと組み合わせを測定します。 0.65
We have summarized the results in Table 3. 結果は表3にまとめている。 0.68
The test sets indeed provide more novel test inputs to the model as indicated by the increasing coverage as the test sets from each split are taken into consideration. テストセットは、各分割からのテストセットを考慮して、カバレッジの増加によって示されるように、モデルに対してより新しいテスト入力を提供する。 0.74
The low values arise from a large architecture, (24-layer, 1024-hidden, 16-heads) that is potentially still unexplored with 1000 samples from each test set. 低い値は大きなアーキテクチャ(24層、1024面、16面)から生まれ、各テストセットから1000個のサンプルがまだ探索されていない可能性がある。
訳抜け防止モード: 低い値は大きなアーキテクチャ(24層、1024層、16頭)から生じます。 それぞれのテストセットから1000個のサンプルを採取しています
0.75
4.4 Experiment 4: Coverage Guided 4.4 実験4: カバレッジガイド 0.80
Augmentation Motivation:Data augmentation refers to strategies for increasing the diversity of training examples without explicitly collecting new data. 増補 モチベーション(Motivation:Data augmentation)とは、トレーニングサンプルの多様性を高めるための戦略である。 0.62
This is usually achieved by transforming training examples using a transformation. これは通常、トランスフォーメーションを使用してトレーニング例を変換することで達成される。 0.56
A number of automated approaches have been proposed to automatically select these transformations including like (Xie et al , 2019). 多数の自動化 これらの変換を自動的に選択するアプローチが提案されている(xie et al , 2019)。 0.73
Since computing MNCOVER does not require retraining, and the input selection can indicate the usefulness of a new sample, we propose to use MNCOVER to select transformed samples, in order to add them into the training set for improving test accuracy. MNCOVERは再トレーニングを必要としないため、入力選択は新しいサンプルの有用性を示すことができるので、MNCOVERを用いて変換されたサンプルを選択することで、テスト精度を向上させるためのトレーニングセットに追加することを提案する。 0.72
Setup:In this set of experiments, we focus on using coverage to guide generation of augmented samples. セットアップ: この一連の実験では、拡張サンプルの生成をガイドするためにカバレッジを使うことに重点を置いている。 0.64
We propose a greedy search algorithm to coverage as guide to generate a new training set with selected augmentations. そこで我々は,選択した拡張を伴う新しいトレーニングセットを生成するためのガイドとして,グリージー検索アルゴリズムを提案する。
訳抜け防止モード: 欲求探索アルゴリズムを提案する。 ガイドとしてカバー範囲を拡大して 新たなトレーニングセットを作成します
0.70
The procedure is described in Algorithm 1 and is motivated by a similar procedure from (Tian et al , 2018). この手順はアルゴリズム1で説明され、Tian et al , 2018 の同様の手順によって動機付けられている。 0.69
This is a coverage-guided greedy search technique for efficiently finding combinations of transformations that result in higher coverage. これは、より高いカバレッジをもたらす変換の組み合わせを効率的に見つけるための、カバレッジ誘導の欲求検索技術である。 0.51
We use transformations described in Section (A.3) and BERT model pretrained on the datasets. セクション(A.3)で記述された変換と、データセットで事前トレーニングされたBERTモデルを使用します。 0.49
We then add the coverage selected samples into the training set and retrain a target model. 次に、選択したサンプルをトレーニングセットに追加し、ターゲットモデルを再トレーニングします。 0.65
Using BERT model as base, Table 4 shows the test accuracy, when with or without adding the selected samples into the training set. BERTモデルをベースとして、テーブル4は、選択したサンプルをトレーニングセットに追加するかどうかに関わらず、テスト精度を示す。
訳抜け防止モード: BERTモデルをベースとして使う 表4はテストの正確さを示します。 選抜されたサンプルを 訓練セットに加える。
0.77
We also show the size of the augmentation set. 拡張集合のサイズも示します。 0.44
Our results show that using MNCOVER to guide data augmentation can improve test accuracy in both SST-2 and QQP. 以上の結果から,MNCOVERを用いてデータ拡張を誘導することにより,SST-2とQQPの試験精度が向上することが示された。 0.57
英語(論文から抽出)日本語訳スコア
Figure 4: MNCOVER is able to achieve higher coverage with a fewer number of samples than without coverage based filtering. 図4: MNCOVERは、カバレッジベースのフィルタリングなしでより少ないサンプル数で、より高いカバレッジを達成できます。 0.74
For this experiment we use the RoBERTa model. この実験にはRoBERTaモデルを使用します。 0.84
In the top row, we do not shuffle the examples and the bottom row with shuffling. トップ行では、例と下行をシャッフルでシャッフルしません。 0.46
Even with a threshold of 0.0, we are able to significantly reduce the number of samples that achieve the same coverage as the unfiltered set: we are able to achieve an average reduction (across transformations) of 28.83%, 54.06% , 71.48% , 88.67% and 97.17% for {0.0, 1e − 04, 1e − 03, 1e − 02, 1e − 01} thresholds respectively. 1e − 04, 1e − 03, 1e − 02, 1e − 02, 1e − 01} のしきい値に対して,28.83%, 54.06% , 71.48% , 88.67%, 97.17% の平均還元(across transformations)を達成した。
訳抜け防止モード: 閾値が 0.0 であっても フィルターなしの集合と同じカバレッジを達成するサンプルの数を大幅に減らす : 平均減少率28.83%を達成することができる。 54.06 %, 71.48 %, 88.67 % and 97.17 % for { 0.0, 1e − 04, 1e − 03, 1e − 02, 1e − 01 } の閾値であった。
0.83
Dataset SST-2 データセット SST-2 0.46
QQP Coverage Threshold Baseline Random MNCOVER Baseline Random MNCOVER QQP カバレッジしきい値ランダムmncoverベースラインランダムmncover 0.46
Test Size of Accuracy Augmented Set テスト 大きさ 精度向上セット 0.73
90.22 90.45 90.41 90.91 90.96 91.03 90.22 90.45 90.41 90.91 90.96 91.03 0.22
0 6541 6541 0 6541 6541 0.42
0 14005 14005 0 14005 14005 0.43
Table 4: The test accuracy after adding the augmented set generated using coverage guidance to the training set on SST2 and QQP dataset. 表4: SST2データセットとQQPデータセットのトレーニングセットにカバレッジガイダンスを使用して生成された拡張セットの追加後のテスト精度。 0.75
5 Related Work Our work connects to a few topics in the literature. 5 関連作業 私たちの仕事は文学のいくつかの話題に結びついている。 0.69
Testing for Natural Language ProcessingRecent literature has shown that deep learning models often exhibit unexpectedly poor behavior when deployed “in the wild". 自然言語処理のためのテスト 初期の文献では、深層学習モデルが“野放し”された場合、予期せぬほど悪い行動を示すことが示されている。
訳抜け防止モード: 自然言語処理のテスト : 最近の文献 ディープラーニングモデルでは,“野生”にデプロイされた場合,予期せぬ振る舞いが現れることが多い。
0.66
This has led to a growing interest in testing NLP models. これにより、NLPモデルのテストへの関心が高まった。 0.66
The pioneering work in this domain is CHECKLIST (Ribeiro et al , 2020), that provides a behavioral testing template for deep NLP models. このドメインにおける先駆的な仕事はchecklist (ribeiro et al , 2020)で、深層nlpモデルの振る舞いテストテンプレートを提供する。 0.76
A different paradigm is proposing more thorough and extensive evaluation sets. 異なるパラダイムは、より徹底的で広範な評価セットを提案している。 0.51
For example, (Kiela et al , 2021) and (Koh et al , 2021) proposed new test sets reflecting distribution shifts that naturally arise in real-world language applications. 例えば (Kiela et al , 2021) と (Koh et al , 2021) は、現実世界の言語アプリケーションで自然に発生する分布シフトを反映した新しいテストセットを提案した。 0.85
On a similar line, (Belinkov and Glass, 2019; Naik et al , 2018) introduced challenge set based testing. 同様の路線で(Belinkov and Glass, 2019; Naik et al , 2018)、チャレンジセットベースのテストを導入した。 0.83
Another line of work has focused on perturbation techniques for evaluating models, such as logical consistency (Ribeiro et al , 2019), robustness to noise (Belinkov and Bisk, 2017), name changes (Prabhakaran et al , 2019), and adversaries (Ribeiro et al , 2018). もうひとつの研究は、論理一貫性(ribeiro et al , 2019)、雑音に対する堅牢性(belinkov and bisk, 2017)、名前の変更(prabhakaran et al , 2019)、敵(ribeiro et al , 2018)など、モデル評価のための摂動技法に焦点を当てている。 0.73
Subset SelectionOur MNCOVER can be used as a guide for filtering test inputs, and hence is a data selection approach. Subset SelectionOur MNCOVERはテスト入力をフィルタリングするガイドとして使用できるため、データ選択アプローチである。 0.77
Previous work have looked at finding representative samples from training and/or interpretation perspectives. これまでの研究は、トレーニングや解釈の観点から代表的なサンプルを見つけることに注目してきた。 0.41
For example, submodular optimization from (Lin and Bilmes, 2009, 2010) provides a framework for selecting examples that minimize redundancy with each other to select representative subsets from large data sets. 例えば、lin and bilmes, 2009)のサブモジュール最適化は、大きなデータセットから代表サブセットを選択するために互いに冗長性を最小化する例を選択するためのフレームワークを提供する。 0.83
These methods are part of the “training the model" stage, targeting to achieve higher accuracy with fewer training samples. これらの手法は“モデルのトレーニング”ステージの一部であり、トレーニングサンプルが少なくて高い精度を達成することを目指している。
訳抜け防止モード: これらのメソッドは、“モデルのトレーニング”ステージの一部です。 訓練サンプルを減らして より高い精度を 達成する目標です
0.77
Moreover, Influence Functions from (Koh and Liang, 2020) provide a strategy to interpret black box models by discovering important representative training samples. さらに、(koh and liang, 2020)の影響関数は、重要な代表的なトレーニングサンプルを発見してブラックボックスモデルを解釈する戦略を提供する。
訳抜け防止モード: さらに (koh and liang, 2020) の影響関数は戦略を提供する 重要な代表的なトレーニングサンプルを発見してブラックボックスモデルを解釈する。
0.83
The influence function can explain and attribute a model’s prediction back to its training samples. 影響関数は、モデルの予測をトレーニングサンプルに説明し、属性付けすることができる。 0.82
Differently, MNCOVER is a test suite evaluation approach. 異なることに、MNCOVERはテストスイート評価アプローチである。 0.70
6 Conclusion This paper proposes MNCOVER to perform whitebox coverage-based behavior testing on NLP models. 6 結論 本稿では,NLPモデル上でのホワイトボックスカバレッジに基づく動作テストを行うためのMNCOVERを提案する。 0.64
We design MNCOVER to consider Transformer models’ properties, focusing on essential words and important word combinations. 我々は、重要な単語と重要な単語の組み合わせに着目し、トランスフォーマーモデルの特性を検討するためにMNCOVERを設計する。 0.62
Filtering test sets using the MNCOVER helps us reduce the test suite size and improve error detection rates. mncoverを使ったテストセットのフィルタリングは、テストスイートのサイズを削減し、エラー検出率を改善するのに役立ちます。
訳抜け防止モード: MNCOVERによるテストセットのフィルタリング テストスイートのサイズを縮小し、エラー検出率を改善する。
0.74
We also demonstrate that MNCOVER serves as a practical criterion for evaluating the quality of test sets. また,MNCOVERは,テストセットの品質を評価するための実践的基準であることを示す。 0.80
It can also help generate augmented training data to improve the model’s generalization. また、モデルの一般化を改善するために、強化されたトレーニングデータを生成するのに役立つ。 0.58
01000020000300004000 0Number of Examples0.100.150.20 0.250.300.350.40Cove rage Achievedchange numbers0200400600800 Number of Examples0.080.100.12 0.140.160.180.20Cove rage Achievedchange names010000200003000 04000050000Number of Examples0.10.20.30.4 0.5Coverage Achievedtypos 1Max ValueAlpha: 1.0 Without FilteringAlpha: 1.0 With Filtering threshold 0.0Alpha: 1.0 With Filtering threshold 1e-06Alpha: 1.0 With Filtering threshold 1e-05Alpha: 1.0 With Filtering threshold 1e-04Alpha: 1.0 With Filtering threshold 1e-03010000200003000 040000Number of Examples0.100.150.20 0.250.300.350.40Cove rage Achievedchange numbers0200400600800 Number of Examples0.080.100.12 0.140.160.180.20Cove rage Achievedchange names010000200003000 04000050000Number of Examples0.10.20.30.4 0.5Coverage Achievedtypos 1 01000020000300004000 0Number of Examples0.100.150.20 0.250.300.350.40Cove rage Achievedchange numbers0200400600800 Number of Examples0.080.100.12 0.140.160.180.20Cove rage Achievedchange names010000200003000 04000050000Number of Examples0.10.20.30.4 0.5Coverage Achievedtypos 1Max ValueAlpha: 1.0 Without FilteringAlpha: 1.0 With Filtering threshold 0.0Alpha: 1.0 With Filtering threshold 1e-06Alpha: 1.0 With Filtering threshold 1e-05Alpha: 1.0 With Filtering threshold 1e-04Alpha: 1.0 With Filtering threshold 1e-03010000200003000 040000Number of Examples0.100.150.20 0.250.300.350.40Cove rage Achievedchange numbers0200400600800 Number of Examples0.080.100.12 0.140.160.180.20Cove rage Achievedchange names010000200003000 04000050000Number of Examples0.10.20.30.4 0.5Coverage Achievedtypos 1 0.19
英語(論文から抽出)日本語訳スコア
References Yonatan Belinkov and Yonatan Bisk. ヨナタン・ベリンコフとヨナタン・ビスクを参照。 0.36
2017. Synthetic and natural noise both break neural machine translation. 2017. 合成と自然ノイズはどちらもニューラルマシン翻訳を破る。 0.56
arXiv preprint arXiv:1711.02173. arXiv preprint arXiv:1711.02173 0.36
Yonatan Belinkov and James Glass. ヨナタン・ベリンコフと ジェームズ・グラス 0.59
2019. Analysis methods in neural language processing: A survey. 2019. ニューラルネットワーク処理における分析手法:調査 0.51
Transactions of the Association for Computational Linguistics, 7:49–72. 計算言語学会』7:49-72頁。 0.55
Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al 2021. Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al 2021
訳抜け防止モード: Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg アントワーヌ・ボッセルト(Antoine Bosselut)、エマ・ブランスキル(Emma Brunskill)、そして2021年。
0.92
On the opportunities arXiv preprint and risks of foundation models. 基礎モデルのプレプリントとリスクの機会について 0.58
arXiv:2108.07258. arXiv:2108.07258。 0.24
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2019. Bert: Pre-training of deep bidirectional transformers for language understanding. 2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.61
Swaroopa Dola, Matthew B. Dwyer, and Mary Lou Soffa. スワルーパ・ドーラ、マシュー・B・ドワイヤー、メアリー・ルー・ソファ。 0.54
2021. Distribution-aware testing of neuIn 43rd ral networks using generative models. 2021. 生成モデルを用いたneuIn43rdラルネットワークの分布認識試験 0.61
IEEE/ACM International Conference on Software Engineering. IEEE/ACM International Conference on Software Engineering(英語) 0.71
To appear. Eric Jang, Shixiang Gu, and Ben Poole. 登場。 Eric Jang、Shixiang Gu、Ben Poole。 0.35
2016. Categorical reparameterization with gumbel-softmax. 2016. ガムベルソフトマックスによるカテゴリー再パラメータ化 0.50
arXiv preprint arXiv:1611.01144. arXiv preprint arXiv:1611.01144 0.36
Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, et al 2021. Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, et al 2021 0.40
Dynabench: Rethinking benchmarking in nlp. Dynabench: nlpのベンチマークを再考する。 0.67
arXiv preprint arXiv:2104.14337. arXiv preprint arXiv:2104.14337 0.36
Thomas N Kipf and Max Welling. トーマス・N・キップフとマックス・ウェリング。 0.58
2016. Semisupervised classification with graph convolutional networks. 2016. グラフ畳み込みネットワークを用いた半教師付き分類 0.54
arXiv preprint arXiv:1609.02907. arXiv preprint arXiv:1609.02907 0.36
Pang Wei Koh and Percy Liang. Pang Wei KohとPercy Liang。 0.37
2020. Understanding black-box predictions via influence functions. 2020. 理解 影響関数によるブラックボックス予測。 0.52
Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, et al 2021. Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, et al 2021
訳抜け防止モード: Pang Wei Koh, Sagawa Shiori, Henrik Marklund, Sang Michael Xie Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga リチャード・ラナス・フィリップス(Richard Lanas Phillips)、イレナ・ガオ(Irena Gao)、そして2021年。
0.89
Wilds: A benchmark of in-the-wild distribution In International Conference on Machine shifts. Wilds: In-the-Wild Distribution In International Conference on Machine shiftsのベンチマーク。 0.80
Learning, pages 5637–5664. 学習、5637-5664頁。 0.69
PMLR. Hui Lin and Jeff Bilmes. PMLR。 ヒューイ・リンとジェフ・ビルズ。 0.45
2009. How to select a good training-data subset for transcription: Submodular active selection for sequences. 2009. 転写のための優れたトレーニングデータサブセットの選択方法:シーケンスのサブモジュラーアクティブセレクション。 0.58
Technical report, WASHINGTON UNIV SEATTLE DEPT OF ELECTRICAL ENGINEERING. 電気工学分野におけるWashungton UNIV SEATTLE DEPT 0.54
Hui Lin and Jeff Bilmes. ヒューイ・リンとジェフ・ビルズ。 0.49
2010. An application of the submodular principal partition to training data subIn NIPS workshop on Discrete Optiset selection. 2010. 離散的オプティマイザ選択に関する学習データサブインnipsワークショップへのサブモジュラー主成分分割の適用 0.54
mization in Machine Learning. 機械学習におけるmization。 0.74
Citeseer. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. シーザー。 Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。
訳抜け防止モード: シーザー。 yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.52
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.52
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.36
Lei Ma, Felix Juefei-Xu, Fuyuan Zhang, Jiyuan Sun, Minhui Xue, Bo Li, Chunyang Chen, Ting Su, Li Li, Yang Liu, et al 2018a. Lei Ma, Felix Juefei-Xu, Fuyuan Zhang, Jiyuan Sun, Minhui Xue, Bo Li, Chunyang Chen, Ting Su, Li Li, Yang Liu, et al 2018a
訳抜け防止モード: レイ・マ、フェリックス・ジュフィー-xu、フユアン・ジン、ジユアン・サン ミンフイ・スー、ボ・リ、チュニャン・チェン、ティン・スー、 li li, yang liu, et al 2018aの略。
0.52
Deepgauge: Multigranularity testing criteria for deep learning sysIn Proceedings of the 33rd ACM/IEEE Intems. Deepgauge: ディープラーニングsysの粒度テスト基準 第33回ACM/IEEE Intemsの成果。 0.75
ternational Conference on Automated Software Engineering, pages 120–131. ternational Conference on Automated Software Engineering, page 120–131。 0.47
Lei Ma, Fuyuan Zhang, Minhui Xue, Bo Li, Yang Liu, Jianjun Zhao, and Yadong Wang. Lei Ma, Fuyuan Zhang, Minhui Xue, Bo Li, Yang Liu, Jianjun Zhao, Yadong Wang
訳抜け防止モード: レイ・マ、フユアン・zhang、minhui xue、bo li、 yang liu氏、jianjun zhao氏、yadong wang氏。
0.57
2018b. Combinatorial testing for deep learning systems. 2018年。 ディープラーニングシステムのための組合せテスト。 0.58
arXiv preprint arXiv:1806.07723. arXiv preprint arXiv:1806.07723 0.35
John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, and Yanjun Qi. John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi
訳抜け防止モード: John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby ディ・ジンとヤンジュン・カイ。
0.81
2020. Textattack: A framework for adversarial attacks, data augmentation, and adversarial training in nlp. 2020. textattack: nlpにおける敵の攻撃、データ拡張、敵のトレーニングのためのフレームワーク。 0.58
Aakanksha Naik, Abhilasha Ravichander, Norman Sadeh, Carolyn Rose, and Graham Neubig. Aakanksha Naik、Abhilasha Ravichander、Norman Sadeh、Carolyn Rose、Graham Neubig。 0.69
2018. Stress test evaluation for natural language inference. 2018. 自然言語推論のためのストレステスト評価 0.61
arXiv preprint arXiv:1806.00692. arXiv preprint arXiv:1806.00692 0.36
Kexin Pei, Yinzhi Cao, Junfeng Yang, and Suman Jana. Kexin Pei、Yinzhi Cao、Junfeng Yang、Suman Jana。 0.30
2017. Deepxplore: Automated whitebox testing of In proceedings of the 26th deep learning systems. 2017. Deepxplore: 第26回ディープラーニングシステムの手順における自動ホワイトボックステスト。 0.62
Symposium on Operating Systems Principles, pages 1–18. オペレーティングシステム原則に関するシンポジウム、1-18頁。 0.72
Vinodkumar Prabhakaran, Ben Hutchinson, and Margaret Mitchell. Vinodkumar Prabhakaran、Ben Hutchinson、Margaret Mitchell。 0.32
2019. Perturbation sensitivity analarXiv ysis to detect unintended model biases. 2019. 意図しないモデルバイアスを検出するための摂動感度 analarXiv ysis 0.53
preprint arXiv:1910.04210. arXiv:1910.04210 0.30
Danilo Rezende and Shakir Mohamed. ダニロ・レゼンデとシャキル・モハメド 0.45
2015. Variational inference with normalizing flows. 2015. 正規化流れによる変分推論 0.56
In International conference on machine learning, pages 1530– 1538. 機械学習に関する国際会議では、1530-1538頁。 0.71
PMLR. Marco Tulio Ribeiro, Carlos Guestrin, and Sameer Singh. PMLR。 Marco Tulio Ribeiro、Carlos Guestrin、Sameer Singh。 0.52
2019. Are red roses red? 2019. 赤いバラは赤ですか。 0.58
evaluating consistency of question-answering models. 質問応答モデルの一貫性を評価する。 0.50
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6174–6184. 第57回計算言語学会年次総会の議事録では、6174-6184頁が引用されている。 0.53
Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin. Marco Tulio Ribeiro、Sameer Singh、Carlos Guestrin。 0.64
2018. Semantically equivalent adversarial rules for debugging nlp models. 2018. nlpモデルをデバッグするための意味論的に等価な逆ルール。 0.44
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 856–865. 第56回計算言語学会年次総会(第1巻:長い論文)では、856-865頁。 0.54
Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, and Sameer Singh. マルコ・トゥリオ・リベイロ、トンジュアン・ウー、カルロス・ゲストリン、サマー・シン。 0.38
2020. Beyond accuracy: Behavioral testing of nlp models with checklist. 2020. 精度以上のもの:チェックリスト付きnlpモデルの振る舞いテスト。 0.59
Yuchi Tian, Kexin Pei, Suman Jana, and Baishakhi Ray. ユチ・天、ケキシン・ペイ、スマン・ジャナ、バイシャヒ・レイ。 0.39
2018. Deeptest: Automated testing of deep-neuralnetwork-d riven autonomous cars. 2018. Deeptest: ディープニューラルネットワーク駆動の自動運転車の自動テスト。 0.54
In Proceedings of the 40th international conference on software engineering, pages 303–314. 第40回ソフトウェアエンジニアリング国際会議Proceedings of the 40th International Conference on Software Engineering, page 303–314。 0.63
英語(論文から抽出)日本語訳スコア
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Sukasz Kaiser、Illia Polosukhin。
訳抜け防止モード: ashish vaswani, noam shazeer, niki parmar, jakob uszkoreit, リオン・ジョーンズ、エイダン・ン・ゴメス、ウカシュ・カイザー、イリア・ポロスクヒン。
0.40
2017. Attention is all In Advances in neural information proyou need. 2017. 注意はすべて、必要なニューラルネットワークの進歩にある。 0.52
cessing systems, pages 5998–6008. システム停止、5998-6008頁。 0.48
Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, and Quoc V Le. Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V Le 0.39
2019. Unsupervised data augmentation for consistency training. 2019. 一貫性トレーニングのための教師なしデータ拡張。 0.45
arXiv preprint arXiv:1904.12848. arXiv preprint arXiv:1904.12848 0.36
A Appendix A.1 A Appendix A.1 0.39
Deriving How Two Masks are Used To learn these global masks, we update each preloaded word embedding xi∀i ∈ {1, . . . , L} using embeddings from words that interact with xi as defined by the learnt interaction matrix MAx. 二つのマスクをどう使うかの導出 これらのグローバルマスクを学習するために、学習相互作用行列 MAx で定義される xi と相互作用する単語からの埋め込みを用いて、各プレロードされた単語埋め込み xi ∈ {1, . . . , L} を更新する。 0.70
Specifically, to get interaction-based word composition, we use the following formulation: 具体的には、相互作用に基づく単語合成を得るために、以下の定式化を用いる。 0.53
e(cid:48) i = (ei + g(MA[xi,:], E)) e(cid:48) i = (ei + g(ma[xi,:], e)) 0.38
(10) Here, e(cid:48) i is the updated word embedding for token xi after taking into account its interaction scores with other words in the sentence E = [e1, . . . , eL]. (10) ここで、e(cid:48)iは、E = [e1, . . . . . , eL]の文中の他の単語との相互作用スコアを考慮して、トークンxiの更新単語埋め込みである。 0.56
This is motivated from the message passing paradigm from (Kipf and Welling, 2016), where we treat each word in a sentence as a node in a graph. これは、文中の各単語をグラフ内のノードとして扱うメッセージパッシングパラダイム(Kipf and Welling, 2016)からの動機付けである。 0.68
Using Equation 10, we effectively augment a word’s embedding using information from words it interacts with. 等式10を用いて,対話する単語の情報を用いて,単語の埋め込みを効果的に強化する。
訳抜け防止モード: 方程式 10 を用いる。 単語の埋め込みを効果的に強化し 対話する言葉からの情報を使います
0.84
Note that we normalize MAx, using D−1/2MAxD−1/2, where D is the diagonal node degree matrix for MAx. ここで、d は max の対角節次行列である d−1/2maxd−1/2 を用いて、max を正規化する。 0.45
g(MAx, e{j}) ∀j ∈ {1, . . . , L} is the aggregation function. g(MAx, e{j}) , j ∈ {1, . . , L} は集合関数である。 0.78
Equation 10 formulation represents words and their local sentence level neighborhoods’ aggregated embeddings. 方程式10は単語とその局所文レベルの近傍の集合埋め込みを表す。 0.72
Specifically, we use g(MAx, Ex) = h(MAxEx). 具体的には、g(MAx, Ex) = h(MAxEx) を用いる。 0.89
Here, h is a nonlinearity function, we use the ReLU non linearity. ここで h は非線形函数であり、relu の非線型性を用いる。 0.78
Simplifying our interaction based aggregation, if two words xi, xj are related in a sentence, we represent each word using e(cid:48) i = (ei +σ(aij(ei +ej))). 相互作用に基づくアグリゲーションを単純化するため、2つの単語 xi, xj が文に関連付けられている場合、各単語を e(cid:48) i = (ei +σ(aij(ei +ej)) で表現する。 0.67
Similarly, e(cid:48) j = (ej + σ(aji(ei + ej))). 同様に、e(cid:48) j = (ej + σ(aji(ei + ej))) である。 0.92
Further, to select words based on interactions, we add a word level mask MW after the word embeddings, where MW = [MW x1, . . . , MW xL]. さらに,対話に基づく単語を選択するために,単語埋め込み後に単語レベルマスク MW を追加し,MW = [MW x1, . . . . , MW xL] となる。 0.85
i, where MW i ∈ {0, 1} is a binary random variable. ここで MW i ∈ {0, 1} は二進確率変数である。 0.69
Z = [z1, . . . , zL] represents word level embeddings input into a model for a specific input sentence after passing through the bottleneck layer. Z = [z1, . . , zL] は、ボトルネック層を通過した後、特定の入力文のモデルに入力される単語レベルの埋め込みを表す。 0.79
A.2 Deriving the Loss zi = MW i ∗ e(cid:48) A.2 損失の導出 zi = MW i ∗ e(cid:48) 0.48
We introduce a bottleneck loss: ボトルネック損失を紹介します 0.53
(cid:96)IB = maxZI(Z; Y) − βI(Z; X) (cid:96)IB = maxZI(Z; Y) − βI(Z; X) 0.49
(11) Given X, we assume E(cid:48) and MW are independent of each other. (11) X が与えられたとき、E(cid:48) とMW は互いに独立であると仮定する。 0.55
We write q(Z|X) = q(MW|X)q(E(cid:48)|X). q(Z|X) = q(MW|X)q(E(cid:48)|X) と書く。 0.80
From Equation 10, e(cid:48) i = ei+ReLU(MAxE[1,...,L]). 方程式 10 から e(cid:48) i = ei+ReLU(MAxE[1,...,L])。 0.77
q(E(cid:48)|X) can be written as q(MAx|X). q(E(cid:48)|X) は q(MAx|X) と書くことができる。 0.79
The lower bound to be maximized is: L = Eq(Z|xm)log(p(ym|MW , MA, xm)) −βiKL(q(MW|xm)||pr0(MW )) −βgKL(q(MA|xm)||pa0(MA)) L = Eq(Z|xm)log(p(ym|MW , MA, xm)) −βiKL(q(MW|xm)||pr0(MW )) −βgKL(q(MA|xm)||pa0(MA))
訳抜け防止モード: L = Eq(Z|xm)log(p(ym|MW) である。 MA , xm ) ) −βiKL(q(MW|xm)||pr0(MW ) ) −βgKL(q(MA|xm)||pa0(MA ) )
0.83
(12) bernoulli (12) ベルヌーリ 0.42
use We (a non word-pair we (複数形 wes) 0.51
the informative interaction pa0(MAx) = (cid:81)L 情報的相互作用 pa0(MAx) = (cid:81)L 0.64
prior distribution prior) each for qφ[MAxi,xj|xi, xj]. 先行分布) それぞれ qφ[MAxi,xj|xi,xj] に対して。 0.81
j=1 pa0(MAxi,xj ), hence pa0(MAxi,xj ) = Bernoulli(0.5). j = 1 pa0(MAxi,xj ) なので、pa0(MAxi,xj ) = Bernoulli(0.5) となる。 0.76
This leads to: (cid:81)L こうなる。 (cid:81)l 0.36
i=1 βgKL(q(MAx|xm)||pa0(MA)) = −βgHq(MAx|xm) (cid:81)L i=1 である。 βgKL(q(MAx|xm)||pa0(MA)) = −βgHq(MAx|xm) (cid:81)L 0.53
Similarly, distribution pr0(MW ) pr0(MW xi) = Bernoulli(0.5): 同様に、分布 pr0(MW ) pr0(MW xi) = Bernoulli(0.5): 0.91
we prior = use for 先行する= 利用 ですから 0.61
the same bernoulli the word mask, and その... 同じ ベルヌーイ 「マスク」という言葉と 0.50
i=1 pr0(MW xi), i=1 pr0(MW xi) 0.90
(13) βiKL(q(MW x|xm)||pa0(MW )) = −βrHq(MW x|xm) (13) βiKL(q(MW x|xm)||pa0(MW )) = −βrHq(MW x|xm) 0.41
(14) We also add a sparsity regularization on MAx to encourage learning of sparse interactions. (14) また、スパース相互作用の学習を促進するために、MAxにスパース正則化を加える。 0.50
Finally, we have the following loss function: 最後に、以下の損失関数がある。 0.74
L = −(Exp(y|xm, MA, MW )+ βiHq(MW|xm) +βgHq(MAx|xm))+ βsparse||MAx||1 L = −(Exp(y|xm, MA, MW )+ βiHq(MW|xm) + βgHq(MAx|xm))+ βsparse||MAx||1 0.72
(15) As MA is a binary graph sampled from a Bernoulli distribution with parameter γ, to train the learnt parameter γ, we use the GumbelSoftmax(Jang et al , 2016) trick to differentiate through the sampling layer. (15) MA は、パラメータ γ でベルヌーイ分布からサンプリングされた二進グラフであり、学習パラメータ γ を訓練するため、サンプリング層を通して微分するために GumbelSoftmax(Jang et al , 2016) のトリックを用いる。 0.62
To learn the word mask MW , we use the amortized variational inference(Rezende and Mohamed, 2015). マスク MW という単語を学習するために、償却変分推論(Rezende and Mohamed, 2015)を用いる。 0.69
We use a single-layer feedforward neural network as the inference network qφ(Rxt )|xt, whose parameters are optimized with the model parameters during training. 単層フィードフォワードニューラルネットワークを推論ネットワーク qφ(Rxt )|xt として使用し、トレーニング中にパラメータをモデルパラメータに最適化する。 0.85
We use Gumbel-Softmax for training with discrete word mask. 我々はGumbel-Softmaxを用いて個別のワードマスクによるトレーニングを行う。 0.56
英語(論文から抽出)日本語訳スコア
Figure 5: A schematic of k-multisection coverage in a DNN model. 図5: DNNモデルにおけるk-multisectionカバレッジのスキーマ。 0.81
WordSwapChangeLocati on, WordSwapChangeName, WordSwapChangeNumber , WordSwapContract, WordSwapExtend, WordSwapHomoglyphSwa p, WordSwapMaskedLM, WordSwapQWERTY, WordSwapNeighboringC haracterWordSwapRand omCharacterDeleSwap, WordSwapRandomCharac terInsertion, tion, WordSwapRandomCharac terSubstitution ,RandomSwap, and WordSwapWordNet. WordSwapChangeLocati on, WordSwapChangeName, WordSwapChangeNumber , WordSwapContract, WordSwapExtend, WordSwapHomoglyphSwa p, WordSwapMaskedLM, WordSwapQWERTY, WordSwapNeighboringC haracterWordSwapRand omCharacterDeleSwap, WordSwapRandomCharac terInsertion, tion, WordSwapRandomCharac terSubstitution , RandomSwap, WordSwapWordNet
訳抜け防止モード: WordSwapChangeLocati on, WordSwapChangeName, WordSwapChangeNumber , WordSwapContract, WordSwapExtend, WordSwapHomoglyphSwa p WordSwapMaskedLM, WordSwapQWERTY, WordSwapNeighboringW ordSwapRandomCharact erDeleSwap, WordSwapRandomCharac terInsertion, tion, WordSwapRandomCharac terSubstitution RandomSwap と WordSwapWordNet。
0.25
Algorithm 1: Coverage Guided Greedy Search to generate Augmented Set G Result: Test Set G Set of Transformations T , Initial Seed Test set S; while S is not empty do Algorithm 1: Coverage Guided Greedy Search to generate Augmented Set G Result: Test Set G Set of Transformations T , Initial Seed Test Set S; while S is not empty do
訳抜け防止モード: アルゴリズム1 : cover guided greedy search による拡張集合 g 結果の生成 : test set g set of transformations t, 初期シードテストセット s ; s は空でないが do
0.81
text0 = S.pop(); cov0 = cov(text0); text = text0; Tqueue = φ; iter = 0; while iter ≤ maxIter do text0 = s.pop(); cov0 = cov(text0); text = text0; tqueue = φ; iter = 0; while iter ≤ maxiter do 0.45
if Tqueue is not empty then T1 = Tqueue.dequeue(); Tqueue が空でない場合、T1 = Tqueue.dequeue(); 0.93
else T1 = RandomFrom(T ); その他 T1 = RandomFrom(T ); 0.51
end T2 = RandomFrom(T ); text1 = ApplyTransform(text, T1, T2); if covInc(text1, cov0) and CosineSim(text1, text) then end t2 = randomfrom(t ); text1 = applytransform(text, t1, t2); covinc(text1, cov0) と cosinesim(text1, text) がある場合 0.86
text = text1; Tqueue.enqueue(T1); Tqueue.enqueue(T2); G.append(text); break; text = text1; Tqueue.enqueue(T1); Tqueue.enqueue(T2); G.append(text); break; 0.92
iter += 1; iter += 1; 0.49
else end end その他 終わり 終わり 0.69
end Model BERT 終わり モデル バート 0.66
RoBERTa Dataset Test Accuracy SST-2 QQP SST-2 QQP ロベルタ データセットテスト精度SST-2 QQP SST-2 QQP 0.60
99.31 99.77 97.36 99.66 99.31 99.77 97.36 99.66 0.23
Table 5: Test accuracy (in %) of models trained with WIMASK layer. 表5: WIMASK層でトレーニングされたモデルの精度(%)をテストする。 0.83
Note that the ground truth labels here are the predictions from the target model f without the WIMASK layer, as our goal is to ensure fidelity of the WIMASK +f to the target model f. ここでの基底真理ラベルは、WIMASK層を持たない対象モデルfからの予測であり、我々の目標は、対象モデルfに対するWIMASK+fの忠実性を保証することである。 0.75
The original models’ accuracies are summarized in Table 4. オリジナルのモデルは表4にまとめられている。 0.67
A.3 More Details and Results on Experiments A.3 詳細と結果 実験 0.60
For Experiment 4.4 Coverage Guided Augmention, the set of transformations we consider are : RandomSynonymInserti on, WordSwapEmbedding, 実験4.4 包括的拡張について、我々が考慮する変換の集合 : RandomSynonym Insertion, WordSwapEmbedding 0.80
Activated NeuronBin(ANB)ℎ("#$)&ℎ!"𝑥 活性化ニューロンビン(anb)h("#$)&h!"x 0.49
英語(論文から抽出)日本語訳スコア
Test Transformation Name Change first name in one of the questions add one typo Product of paraphrases(q1) * paraphrases(q2) Replace synonyms in real pairs Symmetry: f(a, テスト変換名 1つの質問でファーストネームを変更する パラフラス(q1) * paraphrases(q2) のタイプポ積を1つ加える 実対対称性における同義語を置き換える: f(a,) 0.71
b) = f(b, a) Testing implications same adjectives, different people v3 same adjectives, different people Change same location in both questions Average Improvement b) = f(b, a)同じ形容詞、異なる人v3同じ形容詞、異なる人両方の質問において同じ位置を変えること 0.58
D 63.00 19.40 95.00 8.37 6.00 15.07 100.00 100.00 5.00 - D 63.00 19.40 95.00 8.37 6.00 15.07 100.00 100.00 5.00 - 0.24
Failure Rate (%) D+COVER D+MNCOVER ∆D+MNCOVER 失敗率(%) D+Cover D+MNCOVER >D+MNCOVER 0.38
100.0059.40 28.5723.17 100.00100.00 13.337.89 8.334.83 15.257.90 100.00100.00 100.00100.00 0.000.00 100.0059.40 28.5723.17 100.00100.00 13.337.89 8.334.83 15.257.90 100.00100.00 100.00100.00 0.000.00 0.13
100.0064.49 29.4123.52 100.00100.00 12.508.81 10.004.61 15.257.46 100.00100.00 100.00100.00 0.000.00 100.0064.49 29.4123.52 100.00100.00 12.508.81 10.004.61 15.257.46 100.00100.00 100.00100.00 0.000.00 0.13
5.96−0.96 6.15−0.33 5.96−0.96 6.15−0.33 0.15
37.001.49 10.014.12 5.005.00 4.130.44 4.00−1.39 0.19−7.60 0.000.00 0.000.00 −5.00−5.00 6.15−0.33 37.001.49 10.014.12 5.005.00 4.130.44 4.00−1.39 0.19−7.60 0.000.00 0.000.00 −5.00−5.00 6.15−0.33 0.11
Dataset Size Reduction (%) D+COVER D+MNCOVER 98.20 88.00 99.00 73.31 82.00 99.29 81.82 81.48 96.60 Dataset Size Reduction (%) D+COVER D+MNCOVER 98.20 88.00 99.00 73.31 82.00 99.29 81.82 81.48 96.60 0.26
98.20 88.00 99.00 73.31 82.00 99.29 81.82 81.48 96.60 98.20 88.00 99.00 73.31 82.00 99.29 81.82 81.48 96.60 0.21
88.86 88.86 88.86 88.86 0.29
Table 6: Failure Rate(%) obtained using BERT model on the original dataset D, the dataset filtered using COVER coverage (D+COVER columns) and the dataset filtered with MNCOVER coverage (D+MNCOVER columns) from the QQP Suite. 表6: オリジナルのデータセットD上でBERTモデルを用いて得られた失敗率(%)、COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセット、およびQQP SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。
訳抜け防止モード: 表6 : BERTモデルから得られた故障率(%) COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセットと、QQP SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。
0.85
We report both the max failure rate as well as the mean in the subscript across 10 thresholds of coverage. 本報告では,最大障害率と,10しきい値のサブスクリプトの平均値の両方を報告する。 0.70
Rows are sorted regarding the failure rate difference between the dataset filtered using MNCOVER and the original dataset (column ∆D+MNCOVER). MNCOVERを使用してフィルタリングされたデータセットと、元のデータセット(カラム:D+MNCOVER)とのフェールレート差をソートする。 0.65
We use 200 samples in this case. この場合200のサンプルを使用します。 0.83
                         ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。