Recent literature has seen growing interest in using black-box strategies
like CheckList for testing the behavior of NLP models. Research on white-box
testing has developed a number of methods for evaluating how thoroughly the
internal behavior of deep models is tested, but they are not applicable to NLP
models. We propose a set of white-box testing methods that are customized for
transformer-based NLP models. These include Mask Neuron Coverage (MNCOVER) that
measures how thoroughly the attention layers in models are exercised during
testing. We show that MNCOVER can refine testing suites generated by CheckList
by substantially reduce them in size, for more than 60\% on average, while
retaining failing tests -- thereby concentrating the fault detection power of
the test suite. Further we show how MNCOVER can be used to guide CheckList
input generation, evaluate alternative NLP testing methods, and drive data
augmentation to improve accuracy.
White-box Testing of NLP models with Mask Neuron Coverage
マスクニューロン被覆を有するNLPモデルのホワイトボックス試験
0.86
Arshdeep Sekhon and Yangfeng Ji and Matthew B. Dwyer and Yanjun Qi
Arshdeep SekhonとYangfeng JiとMatthew B. DwyerとYanjun Qi
0.43
University of Virginia, USA
ヴァージニア大学、アメリカ
0.60
2 2 0 2 y a M 0 1
2 2 0 2 y a m 0 1 である。
0.53
] L C . s c [ 1 v 0 5 0 5 0
]LC。 sc [ 1 v 0 5 0 5 0
0.30
. 5 0 2 2 : v i X r a
. 5 0 2 2 : v i X r a
0.42
Abstract Recent literature has seen growing interest in using black-box strategies like CHECKLIST for testing the behavior of NLP models.
概要 近年の文献では、NLPモデルの振る舞いをテストするためにCHECKLISTのようなブラックボックス戦略を使うことへの関心が高まっている。 訳抜け防止モード: 概要 近年の文献は black - チェックリストのようなボックス戦略を使ってnlpモデルの振る舞いをテストする。
0.54
Research on white-box testing has developed a number of methods for evaluating how thoroughly the internal behavior of deep models is tested, but they are not applicable to NLP models.
We show that MNCOVER can refine testing suites generated by CHECKLIST by substantially reduce them in size, for more than 60% on average, while retaining failing tests – thereby concentrating the fault detection power of the test suite.
Further we show how MNCOVER can be used to guide CHECKLIST input generation, evaluate alternative NLP testing methods, and drive data augmentation to improve accuracy.
Introduction 1 Previous NLP methods have used black-box testing to discover errors in NLP models.
はじめに 従来のNLP手法では,NLPモデルのエラー検出にブラックボックステストが用いられていた。
0.57
For instance, Checklist(Ribeiro et al , 2020) introduces a blackbox testing strategy as a new evaluation methodology for comprehensive behavioral testing of NLP models.
例えば、checklist(ribeiro et al , 2020)は、nlpモデルの包括的な振る舞いテストのための新しい評価手法としてブラックボックステスト戦略を導入している。
0.65
CheckList introduced different test types, such as prediction invariance in the presence of certain perturbations.
CheckListは、特定の摂動の存在下での予測不変性など、さまざまなテストタイプを導入した。
0.60
Black-box testing approaches, like Checklist, may produce distinct test inputs that yield very similar internal behavior from an NLP model.
Requiring that generated tests are distinct both from a black-box and a white-box perspective – that measures test similarity in terms of latent representations – has the potential to reduce the cost of testing without reducing its error-detection effectiveness.
Researchers have explored a range of white-box coverage techniques that focus on neu-
研究者たちは、neuにフォーカスしたホワイトボックスのカバレッジテクニックを探求した。
0.58
ron activations and demonstrated their benefit on architecturally simple feed-forward networks (Pei et al , 2017; Tian et al , 2018; Ma et al , 2018a; Dola et al , 2021).
ronは、アーキテクチャ上シンプルなフィードフォワードネットワーク(pei et al , 2017; tian et al , 2018; ma et al , 2018a; dola et al , 2021)で有効化し、そのメリットを実証した。
0.71
However, transformer-based NLP models incorporate more complex layer types, such as those computing self-attention, to which prior work is inapplicable.
In this paper, we propose a suite of white-box coverage metrics.
本稿では,ホワイトボックスのカバレッジ指標のスイートを提案する。
0.66
We first adapt the k-multisection neuron coverage measure from (Ma et al , 2018a) to Transformer architectures.
まず, (Ma et al , 2018a) からの k-multisection neuron coverage を Transformer アーキテクチャに適応させる。
0.76
Then we design a novel MNCOVER coverage metric, tailored to NLP models.
次に,NLPモデルに適した新しいMNCOVERカバレッジメトリックを設計する。
0.80
MNCOVER focuses on the neural modules that are important for NLP and designs strategies to ensure that those modules’ behavior is thoroughly exercised by a test set.
In this list, multiple sentences were generated with similar syntactic and semantic structure.
このリストでは、類似した構文と意味構造で複数の文が生成される。
0.63
These sentences cause the activation of sets of attention neurons that have substantial overlap.
これらの文は、かなりの重なりを持つ注意ニューロンのセットの活性化を引き起こす。
0.57
This represents a form of redundancy in testing an NLP model.
これは、NLPモデルをテストする際の冗長性を表す。
0.76
Coverage-based filtering seeks to identify when an input’s activation of attention neurons is subsumed by that of prior test inputs – such inputs are filtered.
As we show in §4 this form of filtering can substantially reduce test suite size while retaining tests that expose failures in modern NLP models, such as BERT.
• Demonstrating through experiments on 2 NLP models (BERT, Roberta), 2 datasets (SST-2, QQP), and 24 sentence transformations that MNCOVER can substantially reduce the size of test sets generated by CheckList, by 64% on average, while improving the failure detection of the resulting tests, by 13% on average.
• Demonstrating that MNCOVER provide an effective supplementary criterion for evaluating the quality of test sets and that it can be used to generate augmented training data that improves model accuracy.
2 Background Coverage for testing deep networksThe research of Coverage testing focuses on the concept of "adequacy criterion" that defines when “enough” testing has been performed.
The white-box coverage testing has been proposed by multiple recent studies to test deep neural networks (Pei et al , 2017; Ma et al , 2018a,b; Dola et al , 2021).
ホワイトボックスカバレッジテストは、ディープニューラルネットワークをテストする複数の研究によって提案されている(Pei et al , 2017; Ma et al , 2018a,b; Dola et al , 2021)。
0.79
DeepXplore (Pei et al , 2017), a white-box differential testing algorithm, introduced Neuron Coverage for DNNs to guide systematic exploration of DNN’s internal logic.
ホワイトボックスの差分テストアルゴリズムであるDeepXplore (Pei et al , 2017)は、DNNの内部ロジックの体系的な探索を導くために、DNNのためのニューロンカバレッジを導入した。
0.72
Let us use D to denote a set of test inputs (normally named as a test suite in behavior testing).
d を使って一連のテスト入力を表す(通常、振る舞いテストではテストスイートとして名付けられます)。
0.74
The Neuron Coverage regarding D is defined as the ratio between the number of unique activated neurons (activated by D) and the total number of neurons in that DNN under behavior testing.
A neuron is considered to be activated if its output is higher than a threshold value (e g , 0).
ニューロンは、その出力がしきい値(eg, 0)よりも高い場合、活性化されると考えられている。
0.76
Another closely related study, DeepTest (Tian et al , 2018), proposed a gray-box, neuron coverage-guided test suite generation strategy.
別の密接な研究であるdeeptest (tian et al, 2018)は、gray-box, neuron coverage-guided test suite generation戦略を提案した。
0.65
Then, the study DeepGauge (Ma et al , 2018a) expands the neuron coverage definition by introducing the kmultisection neuron coverage criteria to produce a multi-granular set of DNN coverage metrics.
次に、DeepGauge (Ma et al , 2018a) は、kmultisection neuron coverage criteriaを導入して、DNNカバレッジメトリクスの多粒集合を生成することにより、ニューロンカバレッジ定義を拡張した。
0.65
For a given neuron n, the kmultisection neuron coverage measures how thoroughly
与えられたニューロン n に対して k 分割ニューロンの被覆は
0.61
a given set of test inputs like D covers the range [lown, highn].
d のようなテスト入力のセットは、範囲 [lown, highn] をカバーする。
0.78
The range [lown, highn] is divided into k equal bins (i.e., k-multisections), for k > 0.
範囲 (lown, highn) は k > 0 に対して k 等しいビン (k-multisections) に分割される。
0.79
For D and the target neuron n, its k-multisection neuron coverage is then defined as the ratio of the number of bins covered by D and the total number of bins, i.e., k.
D と標的ニューロン n に対して、その k-多断面ニューロンのカバレッジは、D でカバーされるビンの数と、k でカバーされるビンの総数の比として定義される。
0.73
For an entire DNN model, the kmultisection neuron coverage is then the ratio of all the activated bins for all its neurons and the total number of bins for all neurons in the DNN.
Transformer architectureNLP is undergoing a paradigm shift with the rise of large scale Transformer models (e g , BERT, DALL-E, GPT-3) that are trained on unprecedented data scale and are adaptable to a wide range of downstream tasks(Bommasani et al , 2021).
トランスフォーマーアーキテクチャNLPは、前例のないデータスケールで訓練され、幅広い下流タスク(Bommasani et al , 2021)に適応できる大規模なトランスフォーマーモデル(例えばBERT, DALL-E, GPT-3)の台頭とともにパラダイムシフトを行っている。
0.75
These models embrace the Transformer architecture (Vaswani et al , 2017) and can capture long-range pairwise or higher-order interactions between input elements.
これらのモデルはトランスフォーマーアーキテクチャ(vaswani et al , 2017)を採用しており、入力要素間の長距離の対向あるいは高次相互作用を捉えることができる。
0.62
They utilize the selfattention mechanism(Vaswani et al , 2017) that enables shorter computation paths and provides parallelizable computation for learning to represent a sequential input data, like text.
彼らは、短い計算パスを可能にし、テキストのようなシーケンシャルな入力データを表現するための並列化可能な計算を提供するセルフアテンションメカニズム(vaswani et al , 2017)を利用している。
0.66
Transformer receives inputs in the general form of word tokens.
transformerはワードトークンの一般的な形式で入力を受け取る。
0.71
The sequence of inputs is converted to vector embeddings that get repeatedly re-encoded via the self-attention mechanism.
入力のシーケンスはベクトル埋め込みに変換され、自己保持機構を介して繰り返しエンコードされる。
0.76
The self-attention can repeat for many layers, with each layer re-encoding and each layer maintaining the same sequence length.
At each layer, it corresponds to the following operations to learn encoding of token at position i:
各層では、次の操作に対応して、位置 i: でトークンのエンコーディングを学ぶ。
0.71
αij = softmax(cid:0)(Wqhi) (cid:62)(Wkhj)/
αij = Softmax(cid:0)(Wqhi) (cid:62)(Wkhj)/
0.45
d(cid:1) √
d(cid:1) √
0.42
M(cid:88) ¯hi =
M(第88回) シャイ=ヒ
0.48
αijWvhj h(cid:48) i = σ(¯hiWr + b1)Wo + b2.
αijWvhj h(cid:48) i = σ( shiWr + b1)Wo + b2。
0.64
j=1 (1) (2)
j=1 (1) (2)
0.38
(3) Here Wk is the key weight matrix, Wq is the query weight matrix,Wv is the value weight matrix, Wr and Wo are transformation matrices, and b1 and b2 are bias vectors.
We propose to simplify and view these foundation models (Bommasani et al , 2021) through two levels of granularity: (1) Word Level: that includes the position-level embeddings at each
我々は,これらの基礎モデル (Bommasani et al , 2021) を,(1) 単語レベル: それぞれの位置レベルの埋め込みを含む2段階の粒度で単純化・表示することを提案する。
0.80
'We like this food.
「この食べ物は好きです。」
0.64
''I liked the cabin crew.
「客室乗務員が好きだった。」
0.67
''I liked this aircraft.
「この飛行機が好きだった。
0.70
' The customer service was exceptionalTest Set Selection using Coverage
「カスタマサービスはカバレッジを用いた例外的なテストセット選択」
0.72
英語(論文から抽出)
日本語訳
スコア
Figure 2: A visual depiction of MNCOVER for masking neurons to measure coverage.
図2: カバレッジを測定するためにニューロンをマスキングするためのMNCOVERの視覚的描写。
0.66
layer and (2) Pairwise Attention Level: that includes the pairwise self-attention neurons between two positions at each layer.
層と(2)対方向の注意レベル:各層で2つの位置の間にある対方向の自己アテンションニューロンを含む。
0.71
In the rest of this paper, we denote the vector embeddings at location i for layer l as h(cid:48)l i and name these as the word level neurons at layer l.
残りの論文では、l層をh(cid:48)l i とする位置iにおけるベクトル埋め込みを記述し、これをl層における単語レベルニューロンと呼ぶ。
0.75
We also denote the αij at layer l and head h as αij lk, and call them as the attention level neurons at layer l.
また、αij を層 l で、ヘッド h を αij lk と呼び、それらを層 l で注意レベルニューロンと呼ぶ。
0.65
3.1 Extending Neuron Coverage (COVER) for
3.1 拡張ニューロン被覆(COVER)
0.75
Testing NLP Model
NLPモデルをテストする
0.73
Now we use the above two layers’ view we proposed, to adapt the vanilla neuron coverage concepts from the literature to NLP models.
First, we introduce a basic definition: "activated neuron bins" (Ma et al , 2018b): Definition 1 Activated Neuron Bins (ANB): For each neuron, we partition the range of its values (obtained from training data) into B bins/sections.
まず、活性化ニューロンビン(Ma et al , 2018b):定義1活性化ニューロンビン(ANB):各ニューロンに対して、その値の範囲(トレーニングデータから得られる)をBビン/セクションに分割する。
0.61
We define ANB for a given text input if the input’s activation value from the target neuron falls into the corresponding bin range.
Then we adapt the above definition to the NLP model setting, by using the after-mentioned two layers’ view.
次に、後述の2つのレイヤのビューを使用して、上記の定義をNLPモデル設定に適用する。
0.70
We design two phrases: Word Neuron Bins, and Activated Word Neuron Bins in the following Definition (2).
単語ニューロンビンと活性化された単語ニューロンビンの2つのフレーズを次の定義で設計する(2)。
0.66
Definition 2 Activated Word Neuron Bins(AWB): We discretize the possible values of each neuron in h(cid:48)(cid:96) t (whose d-th embedding dimension is h(cid:48)(cid:96) dt) into B sections.
定義 2 Activated Word Neuron Bins (AWB): 我々は各ニューロンの可能な値をh(cid:48)(cid:96) t (d-th Embedding dimension) h(cid:48)(cid:96) dt) で識別する。
0.84
We propose a function φw who takes (cid:48)lb dt , x) for a given input x.
入力 x に対して (cid:48)lb dt , x) を取る関数 φw を提案する。
0.83
two arguments, as φw(h (cid:48)lb dt , x) = 1 if it is an activated word neuron φw(h bin (shortened as AWB), else 0 if not activated.
φw(h (cid:48)lb dt , x) = 1 if it is an activated word neuron φw(h bin (shortened as AWB), else 0 if not activated。 訳抜け防止モード: φw(h ( cid:48)lb dt, x ) = 1 if である。 活性化語 φw(h bin)(awb と略される)である。 アクティベートしない場合は0。
0.65
Similarly, for our attention neuron at layer l, head k, word position i and position j: αlk ij , we introduce the definition of "attention neuron bins" and "Activated Attention Neuron Bins" in the fol-
同様に、l, head k, word position i and position j: αlk ij における注意ニューロンに対しては、folにおける「注意ニューロンビン」と「活動ニューロンビン」の定義を導入する。
0.64
lowing Definition (3).
lowing definition (3)
0.31
Definition 3 Activated Attention Neuron Bins (AAB): We discretize the possible values of neuron ij into B sections.
定義3 活性化注意ニューロンビン(aab):ニューロンijの可能な値をbセクションに識別する。
0.68
We denote the state of the bth αlk section of this attention neuron using φa(αijb lk , x).
The coverage, denoted by COVER, of a dataset T for a target model is then defined as the ratio between the number of “activated" neurons and total neurons:
Now let us assume the total number of layers be D, total number of heads H, maximum length L, total bins B and total embedding size be E. Considering the example case of the BERT(Devlin et al , 2019) model, total number of word level neurons to be measured are then L × E × D = 128×768×13 ∼ 0.1million.
BERT(Devlin et al , 2019)モデルの例を踏まえると、測定対象のワードレベルニューロンの総数はL×E×D = 128×768×13,0.1ミリリオンとなる。 訳抜け防止モード: さて、レイヤーの総数はD、ヘッドの総数 H と仮定する。 BERT(Devlin et al, 2019 )モデルの場合を考えると、最大長L、総ビンB、総埋め込みサイズはEである。 測定対象のワードレベルニューロンの総数は、L × E × D = 128×768×13, 0.1ミリリオンとなる。
0.78
The total number of the attention level neurons is then L×L×H×D = 128 × 128 × 12 × 12 ∼ 2million.
3.2 MASK NEURON COVERAGE (MNCOVER) However, accounting for every word and attention neuron’s behavior for a large pre-trained model like BERT is difficult for two reasons: (1).
If we desire to test each neuron at the output of all transformer layers in each BERT layer, we need to account for the behavior of every neuron, which for a
This type of redundancy makes the behavior testing less confident and much more expensive.
この種の冗長性は、振る舞いテストの信頼性を低下させ、はるかに高価にする。
0.56
To mitigate these concerns, we propose to only focus on important words and their combinations that may potentially contain ‘surprising’ new information for the model and hence need to be tested.
(7) In this section, we explain our mask learning strategy that enables us to learn globally important words and their pairwise combinations for a model’s prediction without modifying a target model’s parameters.
MAij specifies the presence or absence of an interaction between word i and word j in the vocabulary V. Hence, learning the word interaction graph reduces to learning the parameter matrix λ = {λij}V ×V .
maij は語彙 v における単語 i と単語 j の相互作用の有無を指定する。したがって、単語相互作用グラフの学習はパラメータ行列 λ = {λij}v ×v の学習に還元される。
0.77
In Section 3.3.1, we show how λ (and therefore MA) is learned through a variational information bottleneck loss formulation (details in Section (A.2)).
Based on the learnt interaction mask MA, each word embedding xi is revised using a graph based summation from its interacting neighbors’ embedding xj, j ∈ N (i):
学習した相互作用マスクMAに基づいて、各単語埋め込みxiは、その相互作用する隣人の埋め込みxj, j ∈ N (i):からグラフベースの和を用いて修正される。
0.73
e(cid:48) i = xi + σ
e(cid:48) i = xi + σ
0.49
1|N (i)| xjW
1|N (i)| xjW
0.43
(8) (cid:32)
(8) (cid:32)
0.41
(cid:33) (cid:88)
(cid:33) (cid:88)
0.39
j∈N (i)
i (複数形 is)
0.42
σ(·) is the ReLU non-linear activation function and W ∈ RH×H is a weight matrix.
σ(·) は ReLU の非線形活性化関数であり、W ∈ RH×H は重み行列である。
0.84
We denote the resulting word representation vector as e(cid:48) i.
結果の単語表現ベクトルを e(cid:48) i と表す。
0.76
Here j ∈ N (i), and N (i) denotes those neighbor nodes of xi on the graph MA and in x.
ここで、j ∈ N (i) と N (i) はグラフ MA および x 上の xi の隣接するノードを表す。
0.80
Eq (8) is motivated by the design of Graph convolutional networks (GCNs) that were introduced to learn useful node representations that encode both node-level features and relationships between connected nodes (Kipf and Welling, 2016).
Eq (8)は、ノードレベルの特徴と接続ノード間の関係をエンコードする有用なノード表現を学習するために導入されたグラフ畳み込みネットワーク(GCN)の設計によって動機付けられている(Kipf and Welling, 2016)。
0.80
Differently in our work, we need to learn the graph MA, through the λ parameter.
私たちの作業では、λパラメータを通じてグラフmaを学習する必要があります。
0.74
We can compute the simultaneous update of all words in input text x together by concatenati.
入力テキストx中のすべての単語の同時更新は、concatenatiによって同時に計算できる。
0.72
This gives us one matrix E(cid:48) ∈ ML×H ing all e(cid:48) W , where L is the length of input and H is the embedding dimension of xi.
これにより、1つの行列 E(cid:48) ∈ ML×H ing all e(cid:48) W が得られ、ここで L は入力の長さ、 H は xi の埋め込み次元である。 訳抜け防止モード: これにより、E(cid:48 ) ∈ ML×H ing all e(cid:48 ) W, ここで L は入力の長さです そして H は xi の埋め込み次元である。
0.87
Learning Word Importance Mask: MW This word mask aims to learn a global attribution word mask MW .
この単語マスクは、グローバルな帰属語である「MW」を学習することを目的としている。
0.67
Aiming for better word selection, MW is designed as a learnable stochastic layer
Each entry in MW (e g , MW w ∈ {0, 1} for word w) follows a Bernoulli distribution with parameter pw.
MW (e g , MW w ∈ {0, 1} for word w) の各エントリは、パラメータ pw を持つベルヌーイ分布に従う。
0.77
The learning reduces to learning the parameter vector p.
学習はパラメータベクトルpの学習に還元される。
0.87
During inference, for an input text x, we get a binary vector MW x from MW that is of size L. Its i-th entry MW xi ∈ {0, 1} is a binary random variable associated with the word token at the i-th position.
推測中、入力テキスト x に対して、L の大きさの MW から二進ベクトル MW x を得る。 訳抜け防止モード: 推論中、入力テキスト x に対して、L の大きさの MW から二進ベクトル MW x を得る。 1 } は、i 番目の位置にある単語トークンに関連付けられた二進乱変数である。
0.64
MW x denotes how important each word is in an input text x.
MW x は入力テキスト x における各単語の重要性を表す。
0.89
Then we use the following operation (a masking operation) to generate the final representation of the i-th word: zi = MW xie(cid:48) i.
次に、次の操作(マスキング操作)を使用して、i番目の単語の最終表現を生成する。
0.53
We then feed the resulting Z to the target model f.
次に、得られた Z を対象モデル f に供給する。
0.72
3.3.1 Learning Word and Interaction Masks
3.3.1 学習語とインタラクションマスク
0.65
for a target model f:
ターゲットモデルfに対して
0.67
During training, we fix the parameters of target model f and only train the WIMASK layerto get two masks.
We learn this trainable layer using the following loss objective, with the derivation of each term explained in the following section: L(x, f (x), ˆy) = (cid:96)f (x),ˆy + βsparse(cid:96)sparse + βi(cid:96)priorMW x + βg(cid:96)priorMAx
L(x, f (x), sy) = (cid:96)f (x), y + βsparse(cid:96)sparse + βi(cid:96)priorMW x + βg(cid:96)priorMAx 訳抜け防止モード: 以下の節で説明する各用語の導出により、この学習可能な層を次の損失目標を用いて学習する。 f ( x ) , sy ) = ( cid:96)f (x), sparse(cid:96)sparse + βi(cid:96)priormw x + βg(cid:96)priormax
0.84
(9) First, we want to ensure that model predictions with WIMASK layer added are consistent with the original prediction f (x).
(9) まず、WIMASK層を付加したモデル予測が元の予測f(x)と一致していることを確認する。
0.59
Hence, we minimize the cross entropy loss (cid:96)f (x),ˆy between f (x) and the newly predicted output ˆy (when with the bottleneck layer).
したがって、f(x) と新たに予測された出力 sy の間の交叉エントロピー損失(cid:96)f(x) を最小化する(ボトルネック層の場合)。
0.81
Then (cid:96)sparse is the sparsity regularization on MAx, (cid:96)priorMW is the KL divergence between MW and a random bernoulli prior.
Similarly, (cid:96)priorMA is the KL divergence between MA and a random bernoulli prior.
同様に (cid:96)priorma は ma とランダムな bernoulli prior の間の kl の分岐である。
0.70
We provide detailed derivations in Section A.2.
第A.2節で詳細を導出する。
0.50
4 Experiments Our experiments are designed to answer the following questions:
4 実験 我々の実験は以下の質問に答えるように設計されている。
0.67
1. Will a test set filtered by MNCOVER find more
1.mncoverでフィルタリングされたテストセットがさらに見つかるか
0.72
errors from a SOTA NLP model?
SOTA NLPモデルからのエラー?
0.79
2. Does MNCOVER achieve test adequacy faster, i.e. achieve higher coverage in fewer samples?
2.MNCOVERはより高速なテスト精度、すなわちより少ないサンプルで高いカバレッジを達成するか?
0.83
3. Does MNCOVER help us compare existing
3.MNCOVERは既存のものを比較するのに役立つか?
0.51
testing benchmarks?
テストベンチマーク?
0.74
4. Can MNCOVER help us automatically select non-redundant samples for better augmentation?
4.MNCOVERは、改善のために非冗長サンプルを自動的に選択できますか?
0.67
Datasets and ModelsWe use pretrained model BERT-base(Devlin et al , 2019) and RoBERTabase(Liu et al , 2019) provided by (Morris et al , 2020) finetuned on SST-2 dataset and Quora Question Pair (QQP) dataset.
データセットとモデル 私たちは、事前トレーニングされたモデルBERT-base(Devlin et al , 2019)とRoBERTabase(Liu et al , 2019)を使用して、(Morris et al , 2020)がSST-2データセットとQuora Question Pair(QQP)データセットに微調整した。 訳抜け防止モード: データセットとモデル 事前訓練されたモデルBERT-base(Devlin et al, 2019)を使用する SST-2データセットに微調整したRoBERTabase(Liu et al, 2019 ) そしてQuora Question Pair (QQP ) データセット。
0.78
For the QQP dataset, we use the model finetuned on the MRPC dataset.
QQPデータセットでは、MRPCデータセットに微調整されたモデルを使用します。
0.66
We train a word level mask (MW ) and an interaction mask (MA) for each of these settings.
これらの設定ごとにワードレベルマスク(MW)とインタラクションマスク(MA)をトレーニングする。
0.73
We use a learning rate of 1e − 05, βi = 0.001, βg = 0.001, and βs = 0.001 for all models.
We have provided the test accuracy of the target models and the models trained with masks in Table 5.
対象モデルとマスクで訓練したモデルの試験精度を表5に示す。
0.64
Note that the ground truth labels here are the predictions from the target model f without the WIMASK layer, as our goal is to ensure fidelity of the WIMASK +f to the target model f.
However, it does not provide a method to quantify the number of tests that need to be generated or to determine which examples provide the most utility in terms of fault detection.
The different transformations used are summarized in Column I of Table 1, Table 2, and Table 6.
使用する変換は、テーブル1、テーブル2、テーブル6のカラムIで要約される。
0.69
We measure failure rate on an initial test set of size N = 1500.
n = 1500の大きさの最初のテストセットで失敗率を測定した。
0.75
We then filter the generated tests based on our MNCOVER coverage criteria: if adding a test example into a test suite does not lead to an increase in its coverage, it is discarded.
Test Transformation Name change names add negative phrases protected: race used to,but now protected: sexual change locations change neutral words with BERT contractions 2 typos change numbers typos neutral words in context protected: religion add random urls and handles simple negations: not neutral is still neutral simple negations: not negative my opinion is what matters punctuation Q & A: yes Q & A: no simple negations: negative reducers intensifiers Average Improvement
テスト変換名 性的変化の場所 BERTの収縮で中性的な単語を変更する 2つのタイプミス変更の数値 文脈で中性的な単語をタイプする 宗教はランダムにウルルを追加し、単純な否定を処理する 中立はいまだ中立ではない 単純否定: 否定的ではない 私の意見は句読点 Q & A: yes Q & A: no simple negations: no negative reducer intensifiers Average Improvement
63.57 Table 1: Failure Rate(%) obtained using BERT model on the original dataset D, the dataset filtered using COVER coverage (D+COVER columns) and the dataset filtered with MNCOVER coverage (D+MNCOVER columns) from the Sentiment Test Suite.
63.57 表1: オリジナルのデータセットD上でBERTモデルを用いて得られた失敗率(%)、COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセット、およびSentiment Test SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。 訳抜け防止モード: 63.57 表1 : BERTモデルから得られた故障率(%) COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセットと、Sentiment Test SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。
0.57
We report both the max failure rate as well as the mean in the subscript across 10 thresholds of coverage.
本報告では,最大障害率と,10しきい値のサブスクリプトの平均値の両方を報告する。
0.70
Rows are sorted regarding the failure rate difference between the dataset filtered using MNCOVER and the original dataset (column ∆D+MNCOVER).
We show that we can reach a target level of test adequacy faster, i.e. a higher coverage, hence achieving more rigorous behavior testing, with fewer test examples, by using coverage as an indicator of redundant test samples.
Similar to the previous set of examples, we disregard an example if the increase in its coverage is below threshold.
前回の例と同様に、そのカバレッジの増加がしきい値以下である場合は、例を無視します。
0.77
We vary these threshold values ∈ {1e−04, 1e−03, 1e−02, 1e−01, 0.0}.
これらのしきい値 {1e−04, 1e−03, 1e−02, 1e−01, 0.0} は変化する。
0.56
Higher the threshold, more number of examples get fil-
しきい値が高いほど、より多くの例がフィルタされる
0.64
tered out. Results:In Figure 4, we show that using our coverage guided filtering strategy, we are able to achieve coverage with a fewer number of samples than without coverage based filtering.
Even with a threshold of 0.0, we are able to significantly reduce the number of samples that achieve the same coverage as the unfiltered set: we are able to achieve an average reduction across transformations (higher the better) of 71.17%, 45.94%, 28.52%, 11.33% and 2.83% for {0.0, 1e−04, 1e−03, 1e−02, 1e−01} thresholds respectively.
To mitigate the saturation of static benchmarks with model advancement, (Kiela et al , 2021) introduced Dynabench, a dynamic benchmark for Natural Language Inference(NLI).
モデル進歩を伴う静的ベンチマークの飽和を軽減するため、(Kiela et al , 2021)は自然言語推論(NLI)の動的ベンチマークであるDynabenchを導入した。
0.73
Dynabench introduced a novel humanand-model-in-th e-loop dataset, consisting of three rounds that progressively increase in difficulty and complexity.
We use MNCOVER as an additional validation measure for the datasets.
MNCOVERをデータセットのさらなる検証指標として使用しています。
0.65
英語(論文から抽出)
日本語訳
スコア
Test Transformation Name Q & A: yes protected: race neutral words in context protected: religion protected: sexual simple negations: not neutral is still neutral add negative phrases Q & A: no simple negations: not negative 2 typos change neutral words with BERT intensifiers change names punctuation change locations typos simple negations: negative used to,but now my opinion is what matters contractions reducers change numbers add random urls and handles Average Improvement
テスト変換名 q & a: yes protected: race neutral words in context protected: religion protected: not neutral is still neutral as still negations add negative phrases q & a: no simple negations: not simple negations: not negative 2 typos change neutral words with bert intensifiers change names punctuation change location typos simple negations: negative used to, but now my opinion is matters 収縮 (contract) reducers change numbers add random urls and handle average improvements (英語) 訳抜け防止モード: テスト変換名 q&a はい 保護 文脈保護における人種中立語 宗教保護 : 性的な単純否定 非中立性は依然として中立性である q & a : no simple negations : not negative 2 typos change neutral words with bert intensifiers change name punctuation change location typos simple negations : negative used to, しかし、今私の意見は、縮小と縮小、変更番号がランダムなurlを追加し、平均的な改善を処理していることです。
Table 2: Failure Rate(%) obtained using RoBERTa model on the original dataset D, the dataset filtered using COVER coverage (D+COVER columns) and the dataset filtered with MNCOVER coverage (D+MNCOVER columns) from the Sentiment Test Suite.
表2: オリジナルのデータセットD上でRoBERTaモデルを使用して得られた失敗率(%)、COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセット、およびSentiment Test SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。 訳抜け防止モード: 表2 : RoBERTaモデルによる元データセットD上の故障率(%) COVERカバレッジ(D+COVER列)を使用してフィルタリングされたデータセットと、Sentiment Test SuiteからMNCOVERカバレッジ(D+MNCOVER列)でフィルタリングされたデータセット。
0.80
We report both the max failure rate as well as the mean in the subscript across 10 thresholds of coverage.
本報告では,最大障害率と,10しきい値のサブスクリプトの平均値の両方を報告する。
0.70
Rows are sorted regarding the failure rate difference between the dataset filtered using MNCOVER and the original dataset (column ∆D+MNCOVER).
Results:We measure coverage achieved by each of the test sets individually as well as in combination.
結果:各テストセットで達成されたカバレッジと組み合わせを測定します。
0.65
We have summarized the results in Table 3.
結果は表3にまとめている。
0.68
The test sets indeed provide more novel test inputs to the model as indicated by the increasing coverage as the test sets from each split are taken into consideration.
The low values arise from a large architecture, (24-layer, 1024-hidden, 16-heads) that is potentially still unexplored with 1000 samples from each test set.
Augmentation Motivation:Data augmentation refers to strategies for increasing the diversity of training examples without explicitly collecting new data.
This is usually achieved by transforming training examples using a transformation.
これは通常、トランスフォーメーションを使用してトレーニング例を変換することで達成される。
0.56
A number of automated approaches have been proposed to automatically select these transformations including like (Xie et al , 2019).
多数の自動化 これらの変換を自動的に選択するアプローチが提案されている(xie et al , 2019)。
0.73
Since computing MNCOVER does not require retraining, and the input selection can indicate the usefulness of a new sample, we propose to use MNCOVER to select transformed samples, in order to add them into the training set for improving test accuracy.
In the top row, we do not shuffle the examples and the bottom row with shuffling.
トップ行では、例と下行をシャッフルでシャッフルしません。
0.46
Even with a threshold of 0.0, we are able to significantly reduce the number of samples that achieve the same coverage as the unfiltered set: we are able to achieve an average reduction (across transformations) of 28.83%, 54.06% , 71.48% , 88.67% and 97.17% for {0.0, 1e − 04, 1e − 03, 1e − 02, 1e − 01} thresholds respectively.
1e − 04, 1e − 03, 1e − 02, 1e − 02, 1e − 01} のしきい値に対して,28.83%, 54.06% , 71.48% , 88.67%, 97.17% の平均還元(across transformations)を達成した。 訳抜け防止モード: 閾値が 0.0 であっても フィルターなしの集合と同じカバレッジを達成するサンプルの数を大幅に減らす : 平均減少率28.83%を達成することができる。 54.06 %, 71.48 %, 88.67 % and 97.17 % for { 0.0, 1e − 04, 1e − 03, 1e − 02, 1e − 01 } の閾値であった。
0.83
Dataset SST-2
データセット SST-2
0.46
QQP Coverage Threshold Baseline Random MNCOVER Baseline Random MNCOVER
QQP カバレッジしきい値ランダムmncoverベースラインランダムmncover
0.46
Test Size of Accuracy Augmented Set
テスト 大きさ 精度向上セット
0.73
90.22 90.45 90.41 90.91 90.96 91.03
90.22 90.45 90.41 90.91 90.96 91.03
0.22
0 6541 6541
0 6541 6541
0.42
0 14005 14005
0 14005 14005
0.43
Table 4: The test accuracy after adding the augmented set generated using coverage guidance to the training set on SST2 and QQP dataset.
5 Related Work Our work connects to a few topics in the literature.
5 関連作業 私たちの仕事は文学のいくつかの話題に結びついている。
0.69
Testing for Natural Language ProcessingRecent literature has shown that deep learning models often exhibit unexpectedly poor behavior when deployed “in the wild".
This has led to a growing interest in testing NLP models.
これにより、NLPモデルのテストへの関心が高まった。
0.66
The pioneering work in this domain is CHECKLIST (Ribeiro et al , 2020), that provides a behavioral testing template for deep NLP models.
このドメインにおける先駆的な仕事はchecklist (ribeiro et al , 2020)で、深層nlpモデルの振る舞いテストテンプレートを提供する。
0.76
A different paradigm is proposing more thorough and extensive evaluation sets.
異なるパラダイムは、より徹底的で広範な評価セットを提案している。
0.51
For example, (Kiela et al , 2021) and (Koh et al , 2021) proposed new test sets reflecting distribution shifts that naturally arise in real-world language applications.
例えば (Kiela et al , 2021) と (Koh et al , 2021) は、現実世界の言語アプリケーションで自然に発生する分布シフトを反映した新しいテストセットを提案した。
0.85
On a similar line, (Belinkov and Glass, 2019; Naik et al , 2018) introduced challenge set based testing.
同様の路線で(Belinkov and Glass, 2019; Naik et al , 2018)、チャレンジセットベースのテストを導入した。
0.83
Another line of work has focused on perturbation techniques for evaluating models, such as logical consistency (Ribeiro et al , 2019), robustness to noise (Belinkov and Bisk, 2017), name changes (Prabhakaran et al , 2019), and adversaries (Ribeiro et al , 2018).
もうひとつの研究は、論理一貫性(ribeiro et al , 2019)、雑音に対する堅牢性(belinkov and bisk, 2017)、名前の変更(prabhakaran et al , 2019)、敵(ribeiro et al , 2018)など、モデル評価のための摂動技法に焦点を当てている。
0.73
Subset SelectionOur MNCOVER can be used as a guide for filtering test inputs, and hence is a data selection approach.
Previous work have looked at finding representative samples from training and/or interpretation perspectives.
これまでの研究は、トレーニングや解釈の観点から代表的なサンプルを見つけることに注目してきた。
0.41
For example, submodular optimization from (Lin and Bilmes, 2009, 2010) provides a framework for selecting examples that minimize redundancy with each other to select representative subsets from large data sets.
例えば、lin and bilmes, 2009)のサブモジュール最適化は、大きなデータセットから代表サブセットを選択するために互いに冗長性を最小化する例を選択するためのフレームワークを提供する。
0.83
These methods are part of the “training the model" stage, targeting to achieve higher accuracy with fewer training samples.
Moreover, Influence Functions from (Koh and Liang, 2020) provide a strategy to interpret black box models by discovering important representative training samples.
さらに、(koh and liang, 2020)の影響関数は、重要な代表的なトレーニングサンプルを発見してブラックボックスモデルを解釈する戦略を提供する。 訳抜け防止モード: さらに (koh and liang, 2020) の影響関数は戦略を提供する 重要な代表的なトレーニングサンプルを発見してブラックボックスモデルを解釈する。
0.83
The influence function can explain and attribute a model’s prediction back to its training samples.
影響関数は、モデルの予測をトレーニングサンプルに説明し、属性付けすることができる。
0.82
Differently, MNCOVER is a test suite evaluation approach.
異なることに、MNCOVERはテストスイート評価アプローチである。
0.70
6 Conclusion This paper proposes MNCOVER to perform whitebox coverage-based behavior testing on NLP models.
We also demonstrate that MNCOVER serves as a practical criterion for evaluating the quality of test sets.
また,MNCOVERは,テストセットの品質を評価するための実践的基準であることを示す。
0.80
It can also help generate augmented training data to improve the model’s generalization.
また、モデルの一般化を改善するために、強化されたトレーニングデータを生成するのに役立つ。
0.58
01000020000300004000 0Number of Examples0.100.150.20 0.250.300.350.40Cove rage Achievedchange numbers0200400600800 Number of Examples0.080.100.12 0.140.160.180.20Cove rage Achievedchange names010000200003000 04000050000Number of Examples0.10.20.30.4 0.5Coverage Achievedtypos 1Max ValueAlpha: 1.0 Without FilteringAlpha: 1.0 With Filtering threshold 0.0Alpha: 1.0 With Filtering threshold 1e-06Alpha: 1.0 With Filtering threshold 1e-05Alpha: 1.0 With Filtering threshold 1e-04Alpha: 1.0 With Filtering threshold 1e-03010000200003000 040000Number of Examples0.100.150.20 0.250.300.350.40Cove rage Achievedchange numbers0200400600800 Number of Examples0.080.100.12 0.140.160.180.20Cove rage Achievedchange names010000200003000 04000050000Number of Examples0.10.20.30.4 0.5Coverage Achievedtypos 1
01000020000300004000 0Number of Examples0.100.150.20 0.250.300.350.40Cove rage Achievedchange numbers0200400600800 Number of Examples0.080.100.12 0.140.160.180.20Cove rage Achievedchange names010000200003000 04000050000Number of Examples0.10.20.30.4 0.5Coverage Achievedtypos 1Max ValueAlpha: 1.0 Without FilteringAlpha: 1.0 With Filtering threshold 0.0Alpha: 1.0 With Filtering threshold 1e-06Alpha: 1.0 With Filtering threshold 1e-05Alpha: 1.0 With Filtering threshold 1e-04Alpha: 1.0 With Filtering threshold 1e-03010000200003000 040000Number of Examples0.100.150.20 0.250.300.350.40Cove rage Achievedchange numbers0200400600800 Number of Examples0.080.100.12 0.140.160.180.20Cove rage Achievedchange names010000200003000 04000050000Number of Examples0.10.20.30.4 0.5Coverage Achievedtypos 1
0.19
英語(論文から抽出)
日本語訳
スコア
References Yonatan Belinkov and Yonatan Bisk.
ヨナタン・ベリンコフとヨナタン・ビスクを参照。
0.36
2017. Synthetic and natural noise both break neural machine translation.
2017. 合成と自然ノイズはどちらもニューラルマシン翻訳を破る。
0.56
arXiv preprint arXiv:1711.02173.
arXiv preprint arXiv:1711.02173
0.36
Yonatan Belinkov and James Glass.
ヨナタン・ベリンコフと ジェームズ・グラス
0.59
2019. Analysis methods in neural language processing: A survey.
2019. ニューラルネットワーク処理における分析手法:調査
0.51
Transactions of the Association for Computational Linguistics, 7:49–72.
計算言語学会』7:49-72頁。
0.55
Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al 2021.
Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman, Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg, Antoine Bosselut, Emma Brunskill, et al 2021 訳抜け防止モード: Rishi Bommasani, Drew A Hudson, Ehsan Adeli, Russ Altman Simran Arora, Sydney von Arx, Michael S Bernstein, Jeannette Bohg アントワーヌ・ボッセルト(Antoine Bosselut)、エマ・ブランスキル(Emma Brunskill)、そして2021年。
0.92
On the opportunities arXiv preprint and risks of foundation models.
基礎モデルのプレプリントとリスクの機会について
0.58
arXiv:2108.07258.
arXiv:2108.07258。
0.24
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova.
Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova
0.38
2019. Bert: Pre-training of deep bidirectional transformers for language understanding.
2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。
0.61
Swaroopa Dola, Matthew B. Dwyer, and Mary Lou Soffa.
スワルーパ・ドーラ、マシュー・B・ドワイヤー、メアリー・ルー・ソファ。
0.54
2021. Distribution-aware testing of neuIn 43rd ral networks using generative models.
2021. 生成モデルを用いたneuIn43rdラルネットワークの分布認識試験
0.61
IEEE/ACM International Conference on Software Engineering.
IEEE/ACM International Conference on Software Engineering(英語)
0.71
To appear. Eric Jang, Shixiang Gu, and Ben Poole.
登場。 Eric Jang、Shixiang Gu、Ben Poole。
0.35
2016. Categorical reparameterization with gumbel-softmax.
2016. ガムベルソフトマックスによるカテゴリー再パラメータ化
0.50
arXiv preprint arXiv:1611.01144.
arXiv preprint arXiv:1611.01144
0.36
Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, et al 2021.
Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger, Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia, et al 2021
0.40
Dynabench: Rethinking benchmarking in nlp.
Dynabench: nlpのベンチマークを再考する。
0.67
arXiv preprint arXiv:2104.14337.
arXiv preprint arXiv:2104.14337
0.36
Thomas N Kipf and Max Welling.
トーマス・N・キップフとマックス・ウェリング。
0.58
2016. Semisupervised classification with graph convolutional networks.
2016. グラフ畳み込みネットワークを用いた半教師付き分類
0.54
arXiv preprint arXiv:1609.02907.
arXiv preprint arXiv:1609.02907
0.36
Pang Wei Koh and Percy Liang.
Pang Wei KohとPercy Liang。
0.37
2020. Understanding black-box predictions via influence functions.
2020. 理解 影響関数によるブラックボックス予測。
0.52
Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, et al 2021.
Pang Wei Koh, Shiori Sagawa, Henrik Marklund, Sang Michael Xie, Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga, Richard Lanas Phillips, Irena Gao, et al 2021 訳抜け防止モード: Pang Wei Koh, Sagawa Shiori, Henrik Marklund, Sang Michael Xie Marvin Zhang, Akshay Balsubramani, Weihua Hu, Michihiro Yasunaga リチャード・ラナス・フィリップス(Richard Lanas Phillips)、イレナ・ガオ(Irena Gao)、そして2021年。
0.89
Wilds: A benchmark of in-the-wild distribution In International Conference on Machine shifts.
Wilds: In-the-Wild Distribution In International Conference on Machine shiftsのベンチマーク。
0.80
Learning, pages 5637–5664.
学習、5637-5664頁。
0.69
PMLR. Hui Lin and Jeff Bilmes.
PMLR。 ヒューイ・リンとジェフ・ビルズ。
0.45
2009. How to select a good training-data subset for transcription: Submodular active selection for sequences.
Citeseer. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov.
シーザー。 Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 訳抜け防止モード: シーザー。 yinhan liu, myle ott, naman goyal, jingfei du, マンダー・ジョシ、ダンチー・チェン、オマー・レヴィ、マイク・ルイス ルーク・ゼトルモイヤー(luke zettlemoyer)とヴェセリン・ストヤノフ(veslin stoyanov)。
0.52
2019. Roberta: A robustly optimized bert pretraining approach.
2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。
0.52
arXiv preprint arXiv:1907.11692.
arXiv preprint arXiv:1907.11692
0.36
Lei Ma, Felix Juefei-Xu, Fuyuan Zhang, Jiyuan Sun, Minhui Xue, Bo Li, Chunyang Chen, Ting Su, Li Li, Yang Liu, et al 2018a.
Lei Ma, Felix Juefei-Xu, Fuyuan Zhang, Jiyuan Sun, Minhui Xue, Bo Li, Chunyang Chen, Ting Su, Li Li, Yang Liu, et al 2018a 訳抜け防止モード: レイ・マ、フェリックス・ジュフィー-xu、フユアン・ジン、ジユアン・サン ミンフイ・スー、ボ・リ、チュニャン・チェン、ティン・スー、 li li, yang liu, et al 2018aの略。
0.52
Deepgauge: Multigranularity testing criteria for deep learning sysIn Proceedings of the 33rd ACM/IEEE Intems.
ternational Conference on Automated Software Engineering, pages 120–131.
ternational Conference on Automated Software Engineering, page 120–131。
0.47
Lei Ma, Fuyuan Zhang, Minhui Xue, Bo Li, Yang Liu, Jianjun Zhao, and Yadong Wang.
Lei Ma, Fuyuan Zhang, Minhui Xue, Bo Li, Yang Liu, Jianjun Zhao, Yadong Wang 訳抜け防止モード: レイ・マ、フユアン・zhang、minhui xue、bo li、 yang liu氏、jianjun zhao氏、yadong wang氏。
0.57
2018b. Combinatorial testing for deep learning systems.
2018年。 ディープラーニングシステムのための組合せテスト。
0.58
arXiv preprint arXiv:1806.07723.
arXiv preprint arXiv:1806.07723
0.35
John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, and Yanjun Qi.
John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby, Di Jin, Yanjun Qi 訳抜け防止モード: John X. Morris, Eli Lifland, Jin Yong Yoo, Jake Grigsby ディ・ジンとヤンジュン・カイ。
0.81
2020. Textattack: A framework for adversarial attacks, data augmentation, and adversarial training in nlp.
2019. Perturbation sensitivity analarXiv ysis to detect unintended model biases.
2019. 意図しないモデルバイアスを検出するための摂動感度 analarXiv ysis
0.53
preprint arXiv:1910.04210.
arXiv:1910.04210
0.30
Danilo Rezende and Shakir Mohamed.
ダニロ・レゼンデとシャキル・モハメド
0.45
2015. Variational inference with normalizing flows.
2015. 正規化流れによる変分推論
0.56
In International conference on machine learning, pages 1530– 1538.
機械学習に関する国際会議では、1530-1538頁。
0.71
PMLR. Marco Tulio Ribeiro, Carlos Guestrin, and Sameer Singh.
PMLR。 Marco Tulio Ribeiro、Carlos Guestrin、Sameer Singh。
0.52
2019. Are red roses red?
2019. 赤いバラは赤ですか。
0.58
evaluating consistency of question-answering models.
質問応答モデルの一貫性を評価する。
0.50
In Proceedings of the 57th Annual Meeting of the Association for Computational Linguistics, pages 6174–6184.
第57回計算言語学会年次総会の議事録では、6174-6184頁が引用されている。
0.53
Marco Tulio Ribeiro, Sameer Singh, and Carlos Guestrin.
Marco Tulio Ribeiro、Sameer Singh、Carlos Guestrin。
0.64
2018. Semantically equivalent adversarial rules for debugging nlp models.
2018. nlpモデルをデバッグするための意味論的に等価な逆ルール。
0.44
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 856–865.
第56回計算言語学会年次総会(第1巻:長い論文)では、856-865頁。
0.54
Marco Tulio Ribeiro, Tongshuang Wu, Carlos Guestrin, and Sameer Singh.
マルコ・トゥリオ・リベイロ、トンジュアン・ウー、カルロス・ゲストリン、サマー・シン。
0.38
2020. Beyond accuracy: Behavioral testing of nlp models with checklist.
2020. 精度以上のもの:チェックリスト付きnlpモデルの振る舞いテスト。
0.59
Yuchi Tian, Kexin Pei, Suman Jana, and Baishakhi Ray.
ユチ・天、ケキシン・ペイ、スマン・ジャナ、バイシャヒ・レイ。
0.39
2018. Deeptest: Automated testing of deep-neuralnetwork-d riven autonomous cars.
2018. Deeptest: ディープニューラルネットワーク駆動の自動運転車の自動テスト。
0.54
In Proceedings of the 40th international conference on software engineering, pages 303–314.
第40回ソフトウェアエンジニアリング国際会議Proceedings of the 40th International Conference on Software Engineering, page 303–314。
0.63
英語(論文から抽出)
日本語訳
スコア
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin.
Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Sukasz Kaiser、Illia Polosukhin。 訳抜け防止モード: ashish vaswani, noam shazeer, niki parmar, jakob uszkoreit, リオン・ジョーンズ、エイダン・ン・ゴメス、ウカシュ・カイザー、イリア・ポロスクヒン。
0.40
2017. Attention is all In Advances in neural information proyou need.
2017. 注意はすべて、必要なニューラルネットワークの進歩にある。
0.52
cessing systems, pages 5998–6008.
システム停止、5998-6008頁。
0.48
Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, and Quoc V Le.
Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V Le
0.39
2019. Unsupervised data augmentation for consistency training.
2019. 一貫性トレーニングのための教師なしデータ拡張。
0.45
arXiv preprint arXiv:1904.12848.
arXiv preprint arXiv:1904.12848
0.36
A Appendix A.1
A Appendix A.1
0.39
Deriving How Two Masks are Used To learn these global masks, we update each preloaded word embedding xi∀i ∈ {1, . . . , L} using embeddings from words that interact with xi as defined by the learnt interaction matrix MAx.
二つのマスクをどう使うかの導出 これらのグローバルマスクを学習するために、学習相互作用行列 MAx で定義される xi と相互作用する単語からの埋め込みを用いて、各プレロードされた単語埋め込み xi ∈ {1, . . . , L} を更新する。
0.70
Specifically, to get interaction-based word composition, we use the following formulation:
具体的には、相互作用に基づく単語合成を得るために、以下の定式化を用いる。
0.53
e(cid:48) i = (ei + g(MA[xi,:], E))
e(cid:48) i = (ei + g(ma[xi,:], e))
0.38
(10) Here, e(cid:48) i is the updated word embedding for token xi after taking into account its interaction scores with other words in the sentence E = [e1, . . . , eL].
Note that we normalize MAx, using D−1/2MAxD−1/2, where D is the diagonal node degree matrix for MAx.
ここで、d は max の対角節次行列である d−1/2maxd−1/2 を用いて、max を正規化する。
0.45
g(MAx, e{j}) ∀j ∈ {1, . . . , L} is the aggregation function.
g(MAx, e{j}) , j ∈ {1, . . , L} は集合関数である。
0.78
Equation 10 formulation represents words and their local sentence level neighborhoods’ aggregated embeddings.
方程式10は単語とその局所文レベルの近傍の集合埋め込みを表す。
0.72
Specifically, we use g(MAx, Ex) = h(MAxEx).
具体的には、g(MAx, Ex) = h(MAxEx) を用いる。
0.89
Here, h is a nonlinearity function, we use the ReLU non linearity.
ここで h は非線形函数であり、relu の非線型性を用いる。
0.78
Simplifying our interaction based aggregation, if two words xi, xj are related in a sentence, we represent each word using e(cid:48) i = (ei +σ(aij(ei +ej))).
Similarly, distribution pr0(MW ) pr0(MW xi) = Bernoulli(0.5):
同様に、分布 pr0(MW ) pr0(MW xi) = Bernoulli(0.5):
0.91
we prior = use for
先行する= 利用 ですから
0.61
the same bernoulli the word mask, and
その... 同じ ベルヌーイ 「マスク」という言葉と
0.50
i=1 pr0(MW xi),
i=1 pr0(MW xi)
0.90
(13) βiKL(q(MW x|xm)||pa0(MW )) = −βrHq(MW x|xm)
(13) βiKL(q(MW x|xm)||pa0(MW )) = −βrHq(MW x|xm)
0.41
(14) We also add a sparsity regularization on MAx to encourage learning of sparse interactions.
(14) また、スパース相互作用の学習を促進するために、MAxにスパース正則化を加える。
0.50
Finally, we have the following loss function:
最後に、以下の損失関数がある。
0.74
L = −(Exp(y|xm, MA, MW )+ βiHq(MW|xm) +βgHq(MAx|xm))+ βsparse||MAx||1
L = −(Exp(y|xm, MA, MW )+ βiHq(MW|xm) + βgHq(MAx|xm))+ βsparse||MAx||1
0.72
(15) As MA is a binary graph sampled from a Bernoulli distribution with parameter γ, to train the learnt parameter γ, we use the GumbelSoftmax(Jang et al , 2016) trick to differentiate through the sampling layer.
(15) MA は、パラメータ γ でベルヌーイ分布からサンプリングされた二進グラフであり、学習パラメータ γ を訓練するため、サンプリング層を通して微分するために GumbelSoftmax(Jang et al , 2016) のトリックを用いる。
0.62
To learn the word mask MW , we use the amortized variational inference(Rezende and Mohamed, 2015).
マスク MW という単語を学習するために、償却変分推論(Rezende and Mohamed, 2015)を用いる。
0.69
We use a single-layer feedforward neural network as the inference network qφ(Rxt )|xt, whose parameters are optimized with the model parameters during training.
Algorithm 1: Coverage Guided Greedy Search to generate Augmented Set G Result: Test Set G Set of Transformations T , Initial Seed Test set S; while S is not empty do
Algorithm 1: Coverage Guided Greedy Search to generate Augmented Set G Result: Test Set G Set of Transformations T , Initial Seed Test Set S; while S is not empty do 訳抜け防止モード: アルゴリズム1 : cover guided greedy search による拡張集合 g 結果の生成 : test set g set of transformations t, 初期シードテストセット s ; s は空でないが do
0.81
text0 = S.pop(); cov0 = cov(text0); text = text0; Tqueue = φ; iter = 0; while iter ≤ maxIter do
text0 = s.pop(); cov0 = cov(text0); text = text0; tqueue = φ; iter = 0; while iter ≤ maxiter do
0.45
if Tqueue is not empty then T1 = Tqueue.dequeue();
Tqueue が空でない場合、T1 = Tqueue.dequeue();
0.93
else T1 = RandomFrom(T );
その他 T1 = RandomFrom(T );
0.51
end T2 = RandomFrom(T ); text1 = ApplyTransform(text, T1, T2); if covInc(text1, cov0) and CosineSim(text1, text) then
text = text1; Tqueue.enqueue(T1); Tqueue.enqueue(T2); G.append(text); break;
text = text1; Tqueue.enqueue(T1); Tqueue.enqueue(T2); G.append(text); break;
0.92
iter += 1;
iter += 1;
0.49
else end end
その他 終わり 終わり
0.69
end Model BERT
終わり モデル バート
0.66
RoBERTa Dataset Test Accuracy SST-2 QQP SST-2 QQP
ロベルタ データセットテスト精度SST-2 QQP SST-2 QQP
0.60
99.31 99.77 97.36 99.66
99.31 99.77 97.36 99.66
0.23
Table 5: Test accuracy (in %) of models trained with WIMASK layer.
表5: WIMASK層でトレーニングされたモデルの精度(%)をテストする。
0.83
Note that the ground truth labels here are the predictions from the target model f without the WIMASK layer, as our goal is to ensure fidelity of the WIMASK +f to the target model f.
Test Transformation Name Change first name in one of the questions add one typo Product of paraphrases(q1) * paraphrases(q2) Replace synonyms in real pairs Symmetry: f(a,
b) = f(b, a) Testing implications same adjectives, different people v3 same adjectives, different people Change same location in both questions Average Improvement
b) = f(b, a)同じ形容詞、異なる人v3同じ形容詞、異なる人両方の質問において同じ位置を変えること
Table 6: Failure Rate(%) obtained using BERT model on the original dataset D, the dataset filtered using COVER coverage (D+COVER columns) and the dataset filtered with MNCOVER coverage (D+MNCOVER columns) from the QQP Suite.