Active learning, which effectively collects informative unlabeled data for
annotation, reduces the demand for labeled data. In this work, we propose to
retrieve unlabeled samples with a local sensitivity and hardness-aware
acquisition function. The proposed method generates data copies through local
perturbations and selects data points whose predictive likelihoods diverge the
most from their copies. We further empower our acquisition function by
injecting the select-worst case perturbation. Our method achieves consistent
gains over the commonly used active learning strategies in various
classification tasks. Furthermore, we observe consistent improvements over the
baselines on the study of prompt selection in prompt-based few-shot learning.
These experiments demonstrate that our acquisition guided by local sensitivity
and hardness can be effective and beneficial for many NLP tasks.
In this work, we propose to retrieve unlabeled samples with a local sensitivity and hardnessaware acquisition function.
本研究では,局所感度とハードネスアウェア取得機能を備えたラベルなしサンプルの検索を提案する。
0.72
The proposed method generates data copies through local perturbations and selects data points whose predictive likelihoods diverge the most from their copies.
提案手法では,局所摂動を通じてデータコピーを生成し,予測可能性が最も高いデータポイントを選択する。
0.76
We further empower our acquisition function by injecting the select-worst case perturbation.
我々は,選択型ケース摂動を注入することで,獲得機能をさらに強化する。
0.58
Our method achieves consistent gains over the commonly used active learning strategies in various classification tasks.
These experiments demonstrate that our acquisition guided by local sensitivity and hardness can be effective and beneficial for many NLP tasks.
これらの実験は,局所的感度と硬さに導かれた獲得が多くのnlpタスクに有効かつ有益であることを示す。
0.61
Introduction 1 Crowdsourcing annotations (Rajpurkar et al , 2016; Bowman et al , 2015) has become a common practice for developing NLP benchmark datasets.
はじめに 1.1クラウドソーシングアノテーション(Rajpurkar et al , 2016; Bowman et al , 2015)は、NLPベンチマークデータセットを開発する一般的なプラクティスになっている。
0.60
Rich prior works (Pavlick and Kwiatkowski, 2019; Nie et al , 2020; Ferracane et al , 2021) show that the time-consuming and expensive manual labeling in crowdsourcing annotations are not an annotation artifact but rather core linguistic phenomena.
リッチ先行作品(Pavlick and Kwiatkowski, 2019; Nie et al , 2020; Ferracane et al , 2021)は、クラウドソーシングアノテーションにおける時間と費用のかかる手作業によるラベル付けは、アーティファクトではなく、むしろ中核的な言語現象であることを示している。
0.66
Active Learning (AL) is introduced to efficiently acquire data for annotation from a (typically large) pool of unlabeled data.
Its goal is to concentrate the human labeling effort on the most informative data in hopes of maximizing the model performance while minimizing the data annotation cost.
dicts with low-confidence (Lewis and Gale, 1994; Culotta and McCallum, 2005; Settles, 2009).
信頼度は低い(Lewis and Gale, 1994; Culotta and McCallum, 2005; Settles, 2009)。
0.37
Diversity sampling selects batches of unlabeled examples that are prototypical of the unlabeled pool to exploit heterogeneity in the feature space (Xu et al , 2003; Bodó et al , 2011).
多様性サンプリングは、特徴空間における不均一性を利用するために、ラベルなしプールの原型であるラベルなし例のバッチを選択する(Xu et al , 2003; Bodó et al , 2011)。
0.70
Different from these two perspectives, recent works focus on the informativeness of the selected data.
これらの2つの視点とは異なり、最近の研究は選択したデータのインフォメーション性に焦点を当てている。
0.55
For example, Zhang and Plank (2021) acquire informative unlabeled data using the training dynamics based on the model predictive log likelihood.
Margatina et al (2021) construct contrastive examples in the input feature space.
Margatina et al (2021) は入力特徴空間において対照的な例を構成する。
0.74
However, these methods either ignore the local sensitivity of the input features or take no consideration of the difficulty of the learning data.
しかし,これらの手法は入力特徴の局所的な感度を無視するか,学習データの難易度を考慮しない。
0.85
Consequently, they may ignore examples around the decision boundary, or select hard-to-train or even noisy examples.
したがって、決定境界周辺の例を無視したり、訓練が難しい例や騒がしい例を選択できる。
0.70
Their performance may further suffer under some practical settings, such as those with imbalanced labels and when there is a very limited annotation budget.
In this work, we determine the informativeness by considering both the local sensitivity and learning difficulty.
本研究では,局所的感度と学習難易度の両方を考慮して,情報性を決定する。
0.67
For local sensitivity, we take the classical definition from Chapelle et al (2009), which is widely used in both classic machine learning problems (e g Blum and Chawla, 2001; Chapelle et al , 2002; Seeger, 2000; Zhu et al , 2003; Zhou et al , 2004) and recent deep learning settings (e g Wang et al , 2018b; Sohn et al , 2020; Xu et al , 2021).
局所的感度については、古典的な機械学習問題(g blum and chawla, 2001; chapelle et al , 2002; seeger, 2000; zhu et al , 2003; zhou et al , 2004; zhou et al , 2004)と最近のディープラーニング設定(e g wang et al , 2018b; sohn et al , 2020; xu et al , 2021)の両方で広く使われているchapele et al (2009)の古典的な定義を取り上げる。
0.87
Specifying a local region Rregion(x) around an example x, we assume in our prior that all examples in Rregion(x) have the same labels.2
例 x の周りの局所領域 R Region(x) を指定すると、R Region(x) のすべての例が同じラベルを持つと仮定する。
0.82
If the examples in Rregion(x) give us different labels, we say the local region of x is sensitive.
R Region(x) の例が異なるラベルを与えるなら、x の局所領域は感受性があると言う。
0.77
Data augmentation has been chosen as the way to create label-equivalent local regions in many recent works (e g , Berthelot et al , 2019b; Xie et al , 2020).
データ拡張は、最近の多くの作品(例えば berthelot et al , 2019b; xie et al , 2020)において、ラベル等価なローカル領域を作成する方法として選ばれている。
0.72
We utilize data augmentation as a tool to capture the
我々はデータ拡張をキャプチャーのツールとして利用する
0.74
2See the paragraph ‘unlabeled bias as regions’ and the
2「地域としてのラベルなしバイアス」及び項を参照。
0.62
section ‘Regions and Smoothness’ for details.
詳細は「地域と滑らかさ」を参照。
0.70
英語(論文から抽出)
日本語訳
スコア
local sensitivity and hardness of inputs and present ALLSH: Active Learning guided by Local Sensitivity and Hardness.
入力の局所感度と硬さと現在のALSH: 局所感度と硬さによるアクティブラーニング
0.75
Through various designs on local perturbations, ALLSH selects unlabeled data points from the pool whose predictive likelihoods diverge the most from their augmented copies.
Figure 1 illustrates the scheme of the proposed acquisition strategy.
図1は、提案された買収戦略のスキームを示します。
0.71
We conduct a comprehensive evaluation of our approach on datasets ranging from sentiment analysis, topic classification, natural language inference, to paraphrase detection.
To measure the proposed acquisition function in more realistic settings where the samples stem from a dissimilar input distribution, we (1) set up an out-of-domain test dataset and (2) leak out-of-domain data (e g , adversarial perturbations) into the selection pool.
We further expand the proposed acquisition to a more challenging setting: prompt-based few-shot learning (Zhao et al , 2021), where we query a fixed pre-trained language model via a natural language prompt containing a few training examples.
プロンプトベースの少数ショット学習(zhao et al, 2021)では、いくつかのトレーニング例を含む自然言語プロンプトを通じて、固定された事前学習された言語モデルをクエリします。
0.70
We focus on selecting the most valuable prompts for a given test task (e g , selecting 4 prompts for one given dataset).
We adapt our acquisition function to retrieve prompts for the GPT-2 model.
我々は、GPT-2モデルのプロンプトを取得するために、取得関数に適応する。
0.60
Furthermore, we provide extensive ablation studies on different design choices for the acquisition function, including the designs of augmentations and divergences.
Our contributions are summarized as follows: (1) Present a new acquisition strategy, embracing local sensitivity and learning difficulty, such as paraphrasing the inputs through data augmentation and adversarial perturbations, into the selection procedure.
(2) Verify the effectiveness and general applicability of the proposed method in more practical settings with imbalanced datasets and extremely few labeled data.
(3) Provide comprehensive study and experiments of the proposed selection criteria in classification tasks (both in-domain and out-ofdomain evaluations) and prompt-based few-shot learning.
2 Method In this section we present in detail our proposed method, ALLSH (Algorithm 1).
2 方法 本稿では,提案手法であるALSH(Algorithm 1)について詳述する。
0.56
2.1 Active Learning Loop The active learning setup consists of an unlabeled dataset Dpool, the current training set Dlabel, and a model M whose output probability is pθ(· | x) for input x.
2.1 active learning loop アクティブラーニングのセットアップは、ラベルのないデータセットdpool、現在のトレーニングセットdlabel、入力xの出力確率がpθ(· | x)であるモデルmで構成される。
0.84
The model M is generally a pre-trained model for NLP tasks (Lowell et al , 2018).
Mモデルは一般的にNLPタスクのための事前訓練されたモデルである(Lowell et al , 2018)。
0.74
At each iteration, we train a model on Dlabel and then use the acquisition function to acquire sacq sentences in a batch T from Dpool.
2.2 Acquisition Function Design To fully capture the data informativeness and train a model with a limited amount of data, we consider two data-selection principals: local sensitivity and learning hardness.
Local Sensitivity Based on theoretical works on the margin theory for active learning, the examples lying close to the decision boundary are informative and worth labeling (Ducoffe and Precioso, 2018; Margatina et al , 2021).
局所感性(Local Sensitivity) アクティブラーニングのマージン理論に関する理論的研究に基づいて、決定境界に近い例は情報的かつ価値あるラベル付けである(Ducoffe and Precioso, 2018; Margatina et al , 2021)。
0.82
Uncertainty sampling suffers from the sampling bias problem as the model is only trained with few examples in the early phase of training.
In addition, high uncertainty samples given the current model state may not be that representative to the whole unlabeled data (Ru et al , 2020).
さらに、現在のモデル状態が与えられた高い不確実性サンプルは、ラベルのないデータ全体(ru et al , 2020)の代表ではないかもしれない。
0.68
For example, if an input has high confidence while its local perturbation generates low-confidence output, then it is likely that this input lies close to the model decision boundary.
This information can be captured by measuring the difference between an input example and its augmentation in the output feature space.
この情報は、入力例と出力特徴空間における拡張との差を測定することで取得することができる。
0.84
We utilize the back-translation (Sennrich et al , 2016; Edunov et al , 2018; Zhang et al , 2021b) and TF-IDF (Xie et al , 2020) as effective augmentation methods which can generate diverse paraphrases while preserving the semantics of the original inputs (Yu et al , 2018b).
我々は,元の入力のセマンティクスを保存しながら,多様なパラフレーズを生成できる効果的な拡張法として,バック翻訳(Sennrich et al , 2016; Edunov et al , 2018; Zhang et al , 2021b)とTF-IDF(Xie et al , 2020)を利用する。
0.81
Instead of simply using augmentation, adversarial perturbation can measure the local Lipschitz and sensitivity more effectively.
単に拡張を用いる代わりに、逆摂動は局所リプシッツと感度をより効果的に測定することができる。
0.56
We therefore further
したがって、さらに
0.71
英語(論文から抽出)
日本語訳
スコア
exploit adversarial perturbation to more accurately measure local sensitivity.
敵の摂動を利用して より正確に局所感度を測定します
0.55
For NLP problems, generating exact adversarial perturbations in a discrete space usually requires combinatorial optimization, which often suffers from the curse of dimensionality (Madry et al , 2017; Lei et al , 2018).
NLP問題の場合、離散空間における正確な逆摂動を生成するには、通常は組合せ最適化が必要である(Madry et al , 2017; Lei et al , 2018)。
0.66
Hence, we choose the hardest augmentation over K random augmentations as a “lightweight” variant of adversarial input augmentation which optimizes the worst case loss over the augmented data.
Learning Hardness: From Easy to Hard Learning from easy examples or propagating labels from high-confidence examples is the key principle for curriculum learning (Bengio et al , 2009) and label propagation based semi-supervised learning algorithms (Chapelle et al , 2009).
学習困難性: 簡単な例から簡単に学ぶこと、高信頼の例からラベルを伝播することまでが、カリキュラム学習(Bengio et al , 2009)とラベル伝搬に基づく半教師付き学習アルゴリズム(Chapelle et al , 2009)の鍵となる原則である。
0.79
For example, FixMatch (Sohn et al , 2020), a SOTA semi-supervised method, applies an indicator function to select high confident examples at each iteration.
例えば、SOTA の半教師付き手法である FixMatch (Sohn et al , 2020) は、各イテレーションで高い信頼度を持つ例を選択するために指標関数を適用している。
0.64
This will facilitate the label information from high confidence examples to low-confidence ones (Chapelle et al , 2009).
これは、高信頼の例から低信頼の例までラベル情報を促進する(Chapelle et al , 2009)。
0.75
In our selection criterion, as the model is trained with limited data, we also want to avoid the hard-to-learn examples, which in some cases frequently correspond to mislabeled or erroneous instances (Swayamdipta et al , 2020; Zhang and Plank, 2021).
私たちの選択基準では、モデルが限られたデータでトレーニングされているため、しばしば誤記や誤記の例に対応している(swayamdipta et al , 2020; zhang and plank, 2021)ような難解な例も避けたいと考えています。
0.71
These examples may stuck the model performance at the beginning of the selection.
これらの例は、選択の開始時にモデルパフォーマンスを損なう可能性がある。
0.69
2.3 Acquisition with Local Sensitivity and
2.3 局所感度と買収
0.77
Hardness We come to the definition of our acquisition function.
硬さ 私たちは取得機能の定義にたどり着きます。
0.69
Given a model pθ and an input x, we compute the output distribution pθ(· | x) and a noised version pθ(· | x(cid:48)) by injecting a random transformation x(cid:48) = g(x) to the inputs.
Here, g(·) is sampled from a family of transformations and these random transformations stand for data augmentations.
ここで、g(·) は変換の族からサンプリングされ、これらのランダム変換はデータ拡張を表す。
0.69
This procedure can select examples that are insensitive to transformation g(·) and hence smoother with respect to the changes in the input space (Berthelot et al , 2019b,a; Sohn et al , 2020).
この手順は、変換 g(·) に敏感で、入力空間の変化に関してより滑らかな例を選ぶことができる(Berthelot et al , 2019b,a; Sohn et al , 2020)。
(1) where D denotes a statistical distance such as the Kullback–Leibler (KL) divergence (Kullback and Leibler, 1951).
1) D はKullback-Leibler (KL) divergence (Kullback and Leibler, 1951) のような統計的な距離を表す。
0.85
Model pθ here can be a pretrained language model such as BERT (Devlin et al , 2018).
モデル pθ は BERT (Devlin et al , 2018) のような事前訓練された言語モデルである。
0.81
Data Paraphrasing via Augmentation Paraphrase generation can improve language models (Yu et al , 2018a) by handling language varia-
オーグメンテーションによるデータパラフラージング : 言語変動の処理による言語モデル(yu et al , 2018a)の改善
0.70
Figure 1: Overview of active learning framework guided by local sensitivity and hardness.
図1: ローカル感度とハードネスによるアクティブラーニングフレームワークの概要。
0.72
Some notations are labeled along with corresponding components.
いくつかの表記は対応するコンポーネントとともにラベル付けされる。
0.52
‘Select’ refers to the select worst-case augmentation.
選択」とは、最悪の場合の増大を指す。
0.65
tion. TF-IDF and backtranslation can generate diverse inputs while preserving the semantic meaning (Singh et al , 2019; Xie et al , 2020).
ティメント TF-IDFとバックトランスレーションは意味を保ちながら多様な入力を生成することができる(Singh et al , 2019; Xie et al , 2020)。
0.48
For TF-IDF, we replace uninformative words with low TF-IDF scores while keeping those with high.
TF-IDFでは,非形式的単語を低いTF-IDFスコアに置き換えつつ高いスコアを維持する。
0.64
Specifically, Suppose IDF(w) is the IDF score for word w computed on the whole corpus, and TF(w) is the TF score for word w in a sentence.
具体的には、IDF(w) を全コーパスで計算されたワード w の IDF スコアとし、TF(w) を文中のワード w の TF スコアとする。 訳抜け防止モード: 具体的には、IDF(w ) を全コーパス上で計算されたワード w の IDF スコアとする。 TF(w) は文中の単語 w に対する TF スコアである。
0.81
We compute the TF-IDF score as TFIDF(w) = TF(w)IDF(w).
TF-IDFスコアを TFIDF(w) = TF(w)IDF(w) とする。
0.79
For backtranslation, we use a pre-trained EN-DE and DE-EN translation models (Ng et al , 2019) to perform backtranslation on each sentence.
逆翻訳には、事前訓練されたEN-DEおよびDE-EN翻訳モデル(Ng et al , 2019)を用いて各文の逆翻訳を行う。
0.67
We denote x as (x0,··· , xn).
x を (x0,···· , xn) と表記する。
0.73
Here, n denotes the original length of the input.
ここで n は入力の元の長さを表す。
0.81
For x, we pass them through two translation models to get x(cid:48) = (x(cid:48) m), where m denotes the length after backtranslating.
x については、2つの翻訳モデルを通して x(cid:48) = (x(cid:48) m) を得る。 訳抜け防止モード: x では 2つの翻訳モデルを通して x(cid:48 ) = (x(cid:48 ) m ) を得るには、m は逆変換後の長さを表す。
0.75
More details can be found in Appendix A.
詳細はAppendix Aで確認できる。
0.60
0,··· , x(cid:48)
0,··· , x(cid:48)
0.47
Select Worst-Case Augmentation (WCA) In order to construct effective local sensitivity, the most direct approach is calculating the local Lipschitz constant or finding the worst case adversarial perturbation.
However, estimating the Lipschitz constant for a neural network is either model dependent or computationally hard (Scaman and Virmaux, 2018; Fazlyab et al , 2019).
しかしながら、ニューラルネットワークのリプシッツ定数の推定はモデル依存か計算的に難しい(Scaman and Virmaux, 2018; Fazlyab et al , 2019)。
0.67
Instead, we select worst-case augmentation over K copies, which can still roughly measure the norm of the first-order gradient without a huge computation cost and is easy to implement.
Given input examples x, and i}K K augmentation of x as {x(cid:48) i=1, we propose the following acquisition function to select data:
入力例 x と i}K K を {x(cid:48) i=1 とすると、データを選択するための次の取得関数を提案する。
0.83
(cid:96)max(x) = max i∈[K]
(cid:96)max(x) = max i∂[K]
0.47
(cid:96)(x, x(cid:48) i).
(cid:96)(x, x(cid:48) i)。
0.86
(2) Inspired by some simple and informal analysis in continuous space, we draw the connection between calculating (cid:96)max(x) and local sensitivity by
(3) Recent works in computer vision (Gong et al , 2020; Wang et al , 2021) have provided more formal connections between local gradient norm estimation and K-worst perturbations.
(3) コンピュータビジョンにおける最近の研究(Gong et al , 2020; Wang et al , 2021)は、局所勾配ノルム推定とK-Worst摂動の間のより正式な関係を提供した。
0.57
The text sentences in NLP are in the discrete space, which lacks the definition of local Lipschitz, but finding the worst perturbation in a local discrete set can still be a better measurement of local sensitivity in the semantic space.
Choice of Divergence We use the KL divergence as the primary measure of the statistical distance between the distribution of the original examples and that over augmented examples.
We also empirically provide detailed analysis of the Jensen–Shannon Distance (JSD) (Endres and Schindelin, 2003) and α-divergence (Minka et al , 2005) as a complementary measure in Section 5.
また、第5節の補完尺度として、Jensen-Shannon Distance (JSD) (Endres and Schindelin, 2003) と α-divergence (Minka et al , 2005) の詳細な分析を経験的に提供している。
0.75
The α-divergence (Pillutla et al , 2021) is a general divergence family, which includes the most popular KL divergence and reverse KL divergence.
α-発散(Pillutla et al , 2021)は、一般的な発散族であり、最も一般的なKL発散と逆KL発散を含む。
0.67
Different value of α makes the divergence trade-off between overestimation and underestimation.
αの異なる値は、過大評価と過小評価の間の分岐トレードオフをもたらす。
0.62
JSD is a metric function based on a mathematical definition which is symmetric and bounded within the range [0, 1].
i (4) where p is the output probability distribution of an example, q is the output probability distribution of an augmented example, and m = 1 Local Sensitivity and Informativeness The divergence objective exploits unlabeled data by measuring predictions across slightly-distorted versions of each unlabeled sample.
私は (4) p が例の出力確率分布である場合、q は拡張例の出力確率分布であり、m = 1 局所感度と情報性 発散の目的は、各ラベルなしサンプルのわずかに歪んだバージョン間の予測を測定することによってラベル付きデータを利用する。
0.58
The diverse and adversarial augmentations capture the local sensitivity and informativeness of inputs and project examples to the
多様な対角的な拡張は、入力の局所的な感度と情報性、およびプロジェクト例を捉える。
0.57
2 (p + q).
2 (p + q) である。
0.88
decision boundary (Ducoffe and Precioso, 2018).
決定境界 (Ducoffe and Precioso, 2018)。
0.68
Thus, the examples and their copies with highly inconsistent model predictions lie close to the decision boundary of the model (Gao et al , 2020).
したがって、非常に矛盾したモデル予測の例とそれらのコピーは、モデルの決定境界に近い(Gao et al , 2020)。
0.79
These examples are valuable to have human annotations because they
これらの例は人間のアノテーションを持つのに価値がある。
0.57
1) contain high-confidence region in a local perturbation and are therefore easy to train
1)局地摂動における高信頼領域を含むため、訓練が容易である
0.78
2) are highly likely to promote the model with large-margin improvements (see example in Figure 2).
2) 大きなマージン改善でモデルを促進する可能性が高い(図2の例を参照)。
0.87
Under our local sensitivity and hardness guided acquisition, we argue the selected examples would not be necessarily the examples with the highest uncertainty, which do not always benefit the training.
For instance, an example may have low-confidence prediction of both original inputs and augmented inputs thus making the samples most hard to train.
例えば、サンプルは元の入力と拡張入力の両方の信頼度が低いので、サンプルを訓練するのが最も難しい。
0.69
2.4 More Details Compute Distance We compute the divergence in the model predictive probabilities for the pairs of the input and its augmentations in Eqn (1).
Specifically, we use a pretrained BERT in classification tasks and GPT-2 in prompt-based few-shot learning as the base model pθ to obtain the output probabilities for all unlabeled data points in Dpool.
We then compute the divergence value with Eqn (1).
次に、Eqn (1) で発散値を計算する。
0.73
Rank and Select Candidates We apply these steps to all candidate examples from Dpool and obtain the divergence value for each.
Rank and Select Candidates これらのステップをDpoolのすべての候補例に適用し、それぞれに発散値を得る。
0.82
Our acquisition function selects the top sacq examples that have the highest divergence value from the acquired batch T .
取得関数は、取得したバッチTから最も発散値の高いトップサック例を選択する。
0.62
3 Experimental Settings Table 1 shows the experimental data configuration.
3 実験的設定 表1は実験データ構成を示す。
0.87
In classification tasks, we use five datasets, including Stanford Sentiment Treebank (SST-2; (Socher et al , 2013)), Internet Movie Database (IMDB; (Maas et al , 2011)), AG’s News Corpus (AG News; (Zhang et al , 2015)), Quora Question Pairs (QQP; (Wang et al , 2018a)), and Question NLI (QNLI; (Wang et al , 2018a)).
分類タスクでは,Stanford Sentiment Treebank (SST-2; (Socher et al , 2013)), Internet Movie Database (IMDB; (Maas et al , 2011)), AG's News Corpus (AG News; (Zhang et al , 2015)), Quora Question Pairs (QQP; (Wang et al , 2018a)), Question NLI (QNLI; (Wang et al , 2018a) の5つのデータセットを使用する。
0.79
The validation and test splits are provided in Margatina et al (2021).
検証とテストの分割はMargatina et al (2021)で提供される。
0.82
Following Desai and Durrett (2020), we test domain generalization and robustness on three challenging outof-domain (OD) datasets.
desai と durrett (2020) に続いて、3つの挑戦的な out of domain (od) データセットでドメインの一般化と堅牢性をテストする。
0.58
For sentiment analysis, SST-2 and IMDB are the source and target domains, respectively, and vice versa; for paraphrase detection, TwitterPPDB (Lan et al , 2019) serves as the out-of-domain test dataset for QQP.
感情分析では、SST-2とIMDBがそれぞれソースドメインとターゲットドメインであり、その逆である。パラフレーズ検出では、TwitterPPDB(Lan et al , 2019)がQQPのドメイン外テストデータセットとして機能する。
0.69
In the prompt-based few-shot learning, we fol-
プロンプト・ベース・マイ・ショット学習におけるfol-
0.47
英語(論文から抽出)
日本語訳
スコア
Algorithm 1: Acquisition with Local Sensitivity and Hardness
アルゴリズム1:局所感度と硬度による獲得
0.76
1: Input: labeled data Dlabel, unlabeled data Dpool, acquisition size sacq, model M with output probability pθ(· | x).
2: while Select examples before reaching the budget do 3: for x in Dpool do Generate K augmentations, {x(cid:48) i}i=1,··· ,K ← g (x).
2: 予算 do 3 に到達する前にサンプルを選定する: dpool の x は k の増補を生成する: {x(cid:48) i}i=1,··· ,k ] g (x)。
0.82
4: Compute pθ(· | x) and pθ(· | x(cid:48) i) for i = 1, . . . , K. 5: Select the worst case augmentation x(cid:48) for each input x as (cid:96)max(x) = maxi=1,··· ,K (cid:96)(x, x(cid:48) 6: i).
4: 計算 pθ(· | x) と pθ(· | x(cid:48) i) for i = 1, . , K. 5: それぞれの入力 x に対して (cid:96)max(x) = maxi=1,·· ,K (cid:96)(x, x(cid:48) 6: i) として最悪の場合 x(cid:48) を選択する。
0.90
7: end for 8: Select top sacq largest examples in Dpool, according to the value of D(pθ(· | x), pθ(· | x(cid:48))).
7: end for 8: Select top sacq largest examples in Dpool, according the value of D(pθ(· | x), pθ(· | x(cid:48)))。 訳抜け防止モード: 7 : end for 8 : Select top sacq largest example in Dpool。 D(pθ ( · | x ) の値による。 pθ ( · | x (cid:48 ) ) ) である。
0.90
9: Label these sacq examples.
9: これらのsaqの例を示す。
0.57
10: end while 11: Curriculum learning the model parameters with Eqn (5).
10: end while 11: Curriculum learning the model parameters with Eqn (5)。
0.40
//data paraphrasing via augmentation //compute probabilities
拡張によるデータパラフレージング //計算確率
0.58
Dataset SST-2 IMDB AG News QNLI QQP SST-2 TREC RTE
The top block is for the classification tasks and the bottom block is for the prompt-based few-shot learning.
一番上のブロックは分類タスク、一番下のブロックはプロンプトベースの少数ショット学習用です。
0.74
OD represents out-ofdomain datasets.
ODはドメイン外のデータセットを表す。
0.51
low Zhao et al (2021) to use SST-2 (Socher et al , 2013) for sentiment analysis, TREC (Voorhees and Tice, 2000) for question classification, and RTE (Dagan et al , 2005) for recognizing textual entailment.
感情分析にSST-2(Socher et al , 2013)、質問分類にTREC(Voorhees and Tice, 2000)、テキスト関係の認識にRTE(Dagan et al , 2005)を使用するZhao et al (2021)。
0.68
See Appendix A for more details of the data.
データの詳細についてはAppendix Aを参照してください。
0.73
3.1 Classification Task We compare the proposed ALLSH against four baseline methods.
3.1 分類タスク 提案する allsh を4つのベースラインメソッドと比較する。
0.70
We choose these baselines as they cover a spectrum of acquisition functions (uncertainty, batch-mode, and diversity-based).
It acquires data from Dpool by first passing the input through the trained model and computing the gradient embedding with respect to the parameters of the model’s last layer.
3.2 Prompt-based Few-Shot Learning Following Zhao et al (2021), we adapt our acquisition function for state-of-the-art generation based model GPT-2 and propose to retrieve examples that are semantics and sensitivity aware to formulate its corresponding prompts.
3.2 zhao et al (2021) に続くプロンプトベース・マイノショット学習では,最先端生成モデル gpt-2 に我々の獲得関数を適応させ,そのプロンプトを定式化するために意味論的かつ感度の高い例を検索することを提案する。
0.65
We compare ALLSH’s acquisition function with random, contextual calibrated, and uncertainty prompt.
ALLSHの取得機能と、ランダム、文脈的校正、不確実性のプロンプトを比較した。
0.57
For random prompt, we randomly select in-context examples from the training set for each test sentence.
ランダムプロンプトの場合、各テスト文のトレーニングセットから文脈内サンプルをランダムに選択する。
0.76
For Calibrated, Zhao et al (2021) inject calibration parameters that cause the prediction for each test input to be uniform across answers.
校正のために、zhao et al (2021) は各テスト入力の予測を回答間で均一にする校正パラメータを注入する。
0.81
See Zhao et al (2021) for more details.
詳細はZhao et al (2021)を参照。
0.68
For Uncertain, we sample the highest uncertain prompt for the test sentences.
不確実性については、テスト文の最も確実なプロンプトをサンプリングする。
0.57
For ALLSH, we augment the in-context examples and select the prompts with the highest divergence of the predicted likelihood between the original examples and their augmentations.
Implementation Details 3.3 For classification, we use BERT-base (Devlin et al , 2018) from the HuggingFace library (Wolf et al , 2020).
実施内容 3.3 分類には、HuggingFaceライブラリ(Wolf et al , 2020)のBERTベース(Devlin et al , 2018)を使用します。
0.59
We train all models with batch size 16, learning rate 2× 10−5, and AdamW optimizer with epsilon 1×10−8.
バッチサイズ16、学習率2×10−5、エプシロン1×10−8のAdamWオプティマイザを訓練する。
0.63
For all datasets, we set the default annotation budget as 1%, the maximum annotation budget as 15%, initial accumulated labeled data set Dlabel as 0.1% of the whole unlabeled data, and acquisition size as 50 instances for each active learning iterations, following prior work (e g , Gissin and Shalev-Shwartz, 2019; Dor et al , 2020; Ru et al , 2020).
すべてのデータセットに対して、デフォルトのアノテーション予算を1%、最大アノテーション予算を15%、初期蓄積されたラベル付きデータセット Dlabelを全ラベル付きデータの0.1%、取得サイズを各アクティブな学習イテレーション毎のインスタンスとして設定しました(例えば、GissinとShalev-Shwartz, 2019; Dor et al , 2020; Ru et al , 2020)。
0.76
Curriculum Learning (CL) We further combine our acquisition function with advances in semi-supervised learning (SSL) (Berthelot et al , 2019a; Sohn et al , 2020), which also integrates abundant unlabeled data into learning.
カリキュラム学習(cl) さらに、取得関数と半教師付き学習(ssl)の進歩(berthelot et al , 2019a; sohn et al , 2020)を組み合わせることで、豊富なラベルのないデータを学習に統合します。
0.75
A recent line of work in SSL utilizes data aug-
SSLにおける最近の作業は、データバグを利用する
0.72
英語(論文から抽出)
日本語訳
スコア
mentations, such as TF-IDF and back-translation, to enforce local consistency of the model (Sajjadi et al , 2016; Miyato et al , 2018).
TF-IDFやバックトランスレーションのようなメンテーションは、モデルの局所的な一貫性を強制する(Sajjadi et al , 2016; Miyato et al , 2018)。
0.66
Here SSL can further distill information from unlabeled data and gradually propagate label information from labeled examples to unlabeled one during the training stage (Xie et al , 2020; Zhang et al , 2021c).
ここでSSLは、ラベル付きデータからさらに情報を抽出し、ラベル付きデータからラベル付きデータへのラベル情報をトレーニング段階で徐々に伝播させる(Xie et al , 2020; Zhang et al , 2021c)。
0.65
We construct the overall loss function as
全体の損失関数を構成する。
0.72
L = LS + α · Ex∼Dpool
l = ls + α · エクシドプール
0.52
(cid:124) (cid:123)(cid:122)
(cid:124) (cid:123)(cid:122)
0.38
LU D(pθ(· | x), pθ(· | x(cid:48)))
ルル D(pθ(· | x), pθ(· | x(cid:48))
0.47
, (5) (cid:125)
, (5) (明暦125年)
0.44
where LS is the cross-entropy supervised learning loss over labeled samples, LU is the consistency regularization term, and α is a coefficient (Tarvainen and Valpola, 2017; Berthelot et al , 2019b).
LSはラベル付きサンプルよりもクロスエントロピーで教師付き学習損失であり、LUは一貫性正規化項であり、αは係数である(Tarvainen and Valpola, 2017; Berthelot et al , 2019b)。
0.72
For prompt-based few-shot learning, we run experiments on 1.5B-parameters GPT-2 (Radford et al , 2019), a Transformer (Vaswani et al , 2017) based language model.
素早い数発学習では,1.5Bパラメータ GPT-2 (Radford et al , 2019), Transformer (Vaswani et al , 2017) ベースの言語モデルを用いて実験を行った。
0.80
It largely follows the details of the OpenAI GPT model (Radford et al , 2018).
これは主にOpenAI GPTモデルの詳細に従う(Radford et al , 2018)。
0.72
We take the TF-IDF as the default augmentation method and provide a rich analysis of other augmentation methods in Section 5.
TF-IDFをデフォルト拡張法とし,第5節の他の拡張法をリッチに解析する。
0.71
More detailed experimental settings are included in Appendix A.
より詳細な実験設定はAppendix Aに記載されている。
0.68
4 Experiments We evaluate the performance of our acquisition and learning framework in this section.
4 実験では,本節における獲得・学習フレームワークの性能を評価する。
0.77
We bold the best results within Random, Entropy, BADGE, CAL, and the proposed ALLSH (Ours) in tables.
With a constrained annotation budget, we see substantial gains on test accuracy with our proposed acquisition: ALLSH and selecting worst-case augmentation.
In addition, requiring clustering for high dimensional data, BADGE is computationally heavy as its complexity grows exponentially with the acquisition size (Yuan et al , 2020).
さらに、高次元データにクラスタリングを必要とするため、BADGEは計算的に重くなり、その複雑さは取得サイズとともに指数関数的に増加する(Yuan et al , 2020)。
0.64
We provide rich analysis of the sampling efficiency and running time for each method in Appendix A and include the results in Table 13.
Also, ALLSH outperforms the common uncertainty sampling in most cases.
また、ALSHはほとんどの場合、一般的な不確実性サンプリングよりも優れている。
0.40
Given the current model state, uncertainty sampling chooses the samples that are not representative to the whole unlabeled data, leading to ineffective sampling.
CAL has an effective contrastive acquiring on QNLI.
CALはQNLIに対して効果的なコントラスト獲得を持っている。
0.51
We hypothesize that due to the presence of lexical and syntactic ambiguity between a pair of sentence, the contrastive examples can be used to push away the inputs in the feature space.
QQP Acquired dataset size: Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours: + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL
QQP データセットサイズ:ランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CL
With curriculum learning, the results are continually improved.
カリキュラム学習では、結果が継続的に改善される。
0.67
The performance gains on out-of-domain are often greater than the gains on in-domain, implying that ALLSH can significantly help the model to generalize across domains.
On QQP, ALLSH achieves comparable results as CAL without curriculum learning while the performance can be further improved by adding curriculum learning.
Table 3: Results of out-of-domain (OD) generalization.
表3: out-of-domain (od) の一般化の結果。
0.62
We report the out-of-domain accuracy on the target domain.
対象領域の領域外精度について報告する。
0.43
ID refers to in-domain dataset.
IDはドメイン内のデータセットを指す。
0.62
OD refers to out-of-domain dataset.
ODはドメイン外のデータセットを指す。
0.58
4.3 Prompt-Based Few-Shot Learning
4.3 プロンプトベース・マイノショット学習
0.78
Results We present the prompt-based few-shot learning results with GPT-2 in Table 4, in which we follow the setting (4-shot, 8-shot, and 12-shot) in Zhao et al (2021).
結果 表4では,zhao et al (2021) の設定(4ショット,8ショット,12ショット)に従うgpt-2を用いて,プロンプトベースの少数ショット学習結果を示す。
0.72
Few-shot learners suffer from the quality of labeled data (Sohn et al , 2020), and previous acquisition functions usually fail to boost the performance from labeling random sampled data.
ラベル付きデータの品質(Sohn et al , 2020)に悩まされる学習者はほとんどおらず、以前の取得関数はランダムなサンプルデータのラベル付けによってパフォーマンスを向上できない。
0.71
In Table 4, we observe that uncertain prompts performs similar to random selected prompts.
表4では、不確定なプロンプトがランダムに選択されたプロンプトと類似していることを観察する。
0.55
A potential reason is that an under-trained model treats all examples as uncertainty examples and hard to distinguish the informativeness.
As our acquisition focuses on local sensitivity and informativeness, it tends to select examples close to the decision boundary.
我々の買収は、局所的な感度と情報性に焦点を当てているため、決定境界に近い例を選択する傾向にある。
0.60
Once too many positive examples and few negative examples are labeled, the local perturbation around negative samples are easy to be positive, and thus ALLSH selects examples that are close to the negative examples.
We select different divergences in the statistical distance family and study their abilities in encoding different information.
統計距離系における異なる多様性を選択し,異なる情報をエンコーディングする能力について検討する。
0.66
Corresponding to Section 2.3, we present the results in Table 7.
第2.3節に対応して、結果を表7に示す。
0.67
We experiment on the KL divergence, JSD, and α-divergence (Minka et al , 2005) with the α value set as −0.5 or 0.5.
我々は,α値が −0.5 または 0.5 の kl 分岐,jsd および α-ダイバージェンス (minka et al , 2005) について実験を行った。
0.73
We notice that for our case the difference between different divergences is small.
私たちの場合、異なる相違点の違いは小さいことに気付きます。
0.81
A possible reason is that the number of class categories is small and therefore the choice of divergence does not have a large influence.
考えられる理由は、クラスカテゴリの数が少ないため、分岐の選択が大きな影響を及ぼさないためである。
0.71
Can we use the proposed acquisition with extremely few labeled data?
極めて少ないラベルデータで、提案された買収を利用できますか?
0.61
We have presented the results under very limited annotation budgets in Table 2.
結果は非常に限定的なアノテーション予算で表2に示しました。
0.72
We set the annotation budget as 0.8% and 0.4%.
注記予算を0.8%と0.4%に設定した。
0.66
The key observation is that the degradation of performance in the other acquisition functions are dramatic.
重要な観察は、他の取得関数のパフォーマンスの劣化が劇的であることである。
0.80
For example, in IMDB, the uncertainty sampling (Entropy) shows the obvious performance drop.
例えばimdbでは、不確実性サンプリング(エントロピー)が明らかなパフォーマンス低下を示している。
0.60
It suffers from the sampling bias problem because of the frequent variation of the decision boundary in the early phase of training with very few labeled data available, which results in ineffective sampling.
6 Related Work Active Learning Active Learning has been widely used in many applications in NLP (Lowell et al , 2018; Dor et al , 2020; Ru et al , 2020).
6 関連する仕事のアクティブラーニング アクティブラーニングは、NLP(Lowell et al , 2018; Dor et al , 2020; Ru et al , 2020)の多くのアプリケーションで広く使われている。
0.81
The uncertainty-based methods (Fletcher et al ,
不確実性に基づく手法 (Fletcher et al )
0.70
2008) have become the most common strategy.
2008年)が最も一般的な戦略となった。
0.70
KL JSD α = −0.5 α = 0.5
KL JSD α = −0.5 α = 0.5
0.38
SST-2 86.37 86.25 86.31 86.39
SST-2 86.37 86.25 86.31 86.39
0.22
IMDB AG News 77.57 77.38 77.42 77.53
IMDB AG News 77.57 77.38 77.42 77.53
0.29
88.57 88.41 88.43 88.61
88.57 88.41 88.43 88.61
0.23
Table 7: Ablation study on different choices of divergences.
表7: 発散の異なる選択に関するアブレーション研究。
0.84
We report KL, JSD, and α-divergence, and set α = ±0.5 respectively.
Sheng et al (2008) study the tradeoff between collecting multiple labels per example versus annotating more examples.
sheng et al (2008) は、サンプル毎に複数のラベルを収集することと、より多くの例を注釈することの間のトレードオフについて研究している。 訳抜け防止モード: Sheng et al (2008 ) によるトレードオフの研究 サンプルごとに複数のラベルを収集します
0.64
On the other hand, different labeling strategies such as providing fine-grained rationales (Dua et al , 2020), active learning (Kirsch et al , 2019), and the training dynamics approach (Swayamdipta et al , 2020) are studied.
一方,きめ細かい理論(dua et al ,2020),アクティブラーニング(kirsch et al ,2019),トレーニングダイナミクスアプローチ(swayamdipta et al ,2020)など,異なるラベリング戦略が研究されている。 訳抜け防止モード: 一方で,きめ細かな根拠を提供する(dua et al, 2020)など,異なるラベリング戦略が提案されている。 アクティブラーニング(kirsch et al, 2019)とトレーニングダイナミクスアプローチ(swayamdipta et al, 2020)について研究した。
0.76
Except standard classification, class-imbalance (Mussmann et al , 2020a) or noisy label cases (Fan et al , 2021; Chen et al , 2021) have also been explored.
標準分類を除いて、クラスバランス(Mussmann et al , 2020a)、またはノイズラベル(Fan et al , 2021; Chen et al , 2021)も検討されている。
0.84
We utilize active learning to explore the labeling strategies and aim to select the most informative data for annotations.
subjective acts and intents in conversational discourse.
会話における主観的な行為と意図。
0.69
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1626–1644, Online.
the association for computational linguistics: human language technologies, pages 1626–1644, online. 2021 conference of the north american chapter of the association for computational linguistics: human language technologies, pp. 1626–1644 訳抜け防止モード: 計算言語学会北米支部2021年会紀要 : 人間言語技術 1626-1644頁、オンライン。
0.46
Association for Computational Linguistics. Alyson K Fletcher, Sundeep Rangan, and Vivek K Goyal.
計算言語学会会員。 Alyson K Fletcher、Sundeep Rangan、Vivek K Goyal。
0.44
2008. Resolution limits of sparse coding in high dimensions.
2008. 高次元におけるスパース符号化の分解能限界
0.56
In NIPS, pages 449–456.
NIPS 449-456頁。
0.30
Mingfei Gao, Zizhao Zhang, Guo Yu, Sercan Ö Arık, Larry S Davis, and Tomas Pfister.
2020. Fixmatch: Simplifying semi-supervised learning with consistency and confidence.
2020. Fixmatch: 一貫性と信頼性を備えた半教師付き学習の簡略化。
0.49
Advances in Neural Information Processing Systems, 33.
神経情報処理システムの進歩33。
0.59
Aixin Sun, Ee-Peng Lim, and Ying Liu.
Aixin Sun、Ee-Peng Lim、Ying Liu。
0.81
2009. On strategies for imbalanced text classification using svm: A comparative study.
2009. svmを用いた不均衡テキスト分類の戦略について:比較研究
0.63
Decision Support Systems, 48(1):191–201.
意思決定支援システム 48(1):191–201。
0.79
Swabha Swayamdipta, Roy Schwartz, Nicholas Lourie, Yizhong Wang, Hannaneh Hajishirzi, Noah A. Smith, and Yejin Choi.
Swabha Swayamdipta、Roy Schwartz、Nicholas Lourie、Yizhong Wang、Hannaneh Hajishirzi、Noah A. Smith、Yejin Choi。
0.75
2020. Dataset cartography: Mapping and diagnosing datasets with training dyIn Conference on Empirical Methods in namics.
2020. dataset cartography: トレーニングdyin conference on empirical methods in namicsによるデータセットのマッピングと診断。
0.65
Natural Language Processing. Antti Tarvainen and Harri Valpola.
自然言語処理。 Antti TarvainenとHarri Valpola。
0.56
2017. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning In Proceedings of the 31st International results.
2018b. Identifying generalization properties in neural networks.
2018年。 ニューラルネットワークにおける一般化特性の同定
0.61
arXiv preprint arXiv:1809.07402.
arXiv preprint arXiv:1809.07402
0.36
Thomas Wolf, Julien Chaumond, Lysandre Debut, Victor Sanh, Clement Delangue, Anthony Moi, Pierric Cistac, Morgan Funtowicz, Joe Davison, Sam Shleifer, et al 2020.
thomas wolf、julien chaumond、lysandre debut、victor sanh、clement delangue、anthony moi、pierric cistac、morgan funtowicz、joe davison、sam shleiferなど。 訳抜け防止モード: トーマス・ウルフ、ジュリアン・チャウモンド、リサンドル・デビュー、ヴィクター・サン。 clement delangue、anthony moi、pierric cistac、morgan funtowicz。 joe davison, sam shleifer, et al 2020など。
0.72
Transformers: State-of-theart natural language processing.
Transformers: 最先端の自然言語処理。
0.78
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45.
Advances in Neural Information Processing Systems, 34.
神経情報処理システムの進歩34。
0.61
Adams Wei Yu, David Dohan, Minh-Thang Luong, R. Zhao, Kai Chen, Mohammad Norouzi, and Quoc V. Le.
Adams Wei Yu, David Dohan, Minh-Thang Luong, R. Zhao, Kai Chen, Mohammad Norouzi, Quoc V. Le 訳抜け防止モード: アダムス・ワイユー、デヴィッド・ドハン、ミン - タン・ルオン。 r. zhao, kai chen, mohammad norouzi, quoc v. le。
0.55
2018a. Qanet: Combining local convolution with global self-attention for reading comprehension.
Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, and Quoc V Le.
Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, Quoc V Le 訳抜け防止モード: アダムス・ワイユー、デヴィッド・ドハン、ミン - タン・ルオン。 rui zhao氏、kai chen氏、mohammad norouzi氏、quoc v le氏。
0.47
2018b. Qanet: Combining local convolution with global self-attention for reading comprehension.
Table 10: Full results across different choices of the training examples (the prompt format is fixed).
表10: トレーニング例のさまざまな選択(プロンプトフォーマットは固定されている)の完全な結果。
0.88
The language model at here is GPT-2XL (1.5B).
ここでの言語モデルは GPT-2XL (1.5B) である。
0.64
A.2 Classification Task Hyperparameters
A.2 分類タスクハイパーパラメーター
0.55
and Experimental Settings Our implementation is based on the BERT-base (Devlin et al , 2018) from HuggingFace Transformers (Wolf et al , 2020).
実験的な設定で 実装はHuggingFace Transformers(Wolf et al , 2020)のBERTベース(Devlin et al , 2018)に基づいています。
0.62
We optimize the KL divergence as the objective with the Adam optimizer (Kingma and Ba, 2014) and batch size is set to 16 for all experiments.
我々は、Adam Optimizationr (Kingma and Ba, 2014) を用いて KL の発散を最適化し、全ての実験に対してバッチサイズを16に設定する。
0.77
The curriculum learning is trained for 200 iterations.
カリキュラム学習は200回のイテレーションで訓練される。
0.74
The learning rate is 2 × 10−5.
学習率は2×10−5である。
0.76
The α in Eqn (5) is set as 0.01 for all experiments.
eqn (5) の α はすべての実験で 0.01 と設定される。
0.86
With longer input texts such as IMDB, we use 256 as the maximum sequence length.
IMDBのような長い入力テキストでは、最大シーケンス長として256を使用します。
0.75
For others, we use 128.
その他の場合は、128を使います。
0.61
Following Ash et al (2020) and Margatina et al (2021), for the initial training set Dlabel, we begin the active learning loop by
Ash et al (2020) と Margatina et al (2021) に続いて、Dlabel の最初のトレーニングセットとして、アクティブラーニングループを開始する。
0.78
SST-2 IMDB
SST-2 IMDB
0.36
AG News QNLI
AGニュース QNLI
0.60
QQP Acquired dataset size: Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours: + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL
QQP データセットサイズ:ランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CL
TF-IDF based data augmentation (Xie et al , 2020) aims to generate both diverse and valid examples.
TF-IDFに基づくデータ拡張(Xie et al , 2020)は、多種多様な実例と有効例の両方を生成することを目的としている。
0.56
It is designed to retain keywords and replace uninformative words with other uninformative words.
キーワードを保持し、他の不規則な単語に置き換えるように設計されている。
0.54
BERT is used as the word tokenizer.
BERT はトークン化語として使われる。
0.69
We set IDF(w) is the IDF score for word w computed on the whole corpus, and TF(w) is the TF score for word w in a sentence.
idf(w)をコーパス全体の単語wのidfスコアとし、tf(w)を文中の単語wのtfスコアとする。 訳抜け防止モード: We set IDF(w ) is the IDF score for word w computed on the whole corpus。 TF(w ) は文中の単語 w に対する TF スコアである。
0.79
Then, we compute the TF-IDF score as TFIDF(w) = TF(w)IDF(w).
次に、TF-IDFスコアを TFIDF(w) = TF(w)IDF(w) として計算する。
0.85
Suppose the maximum TF-IDF score in a sentence x is C = maxi TFIDF(xi).
文 x における最大 tf-idf スコアを c = maxi tfidf(xi) とする。
0.77
We set the probability to min(p(C - TFIDF(xi))/Z, 1), where p is a hyperparameter that controls the magnitude of the augmentation and we set p =0.3.
Answer Type: The motor industry accounts for as much as 40 percent of the 450,000 installed industrial robots True, False worldwide but their use is changing and applications are expanding.
Question: The most common use for robots is the manufacture of automobiles.
質問: ロボットの最も一般的な用途は自動車の製造である。
0.83
True or False? Answer: True
真実か偽か? 答え:真実です
0.64
Arroyo was the favorite of investors because of her experience as a trained economist and government manager.
アロヨは経済学者や政府のマネージャーとしての経験から投資家のお気に入りだった。
0.59
Question: Arroyo has experience as an economist and as a government manager.
質問:アロヨは経済学者、政府マネジャーとしての経験がある。
0.61
True or False? Answer:
真実か偽か? 答えは
0.60
Table 12: The different prompts we use for SST-2, TREC, and RTE.
表12: SST-2、TREC、RTEで使用する異なるプロンプト。
0.64
One training example per task is presented.
タスク毎に1つのトレーニング例が提示される。
0.49
The language model is used to predicted the label probability as shown in the right column.
言語モデルは右列に示すようにラベル確率を予測するために使用される。
0.82
on each sentence. A.3
それぞれの文で A.3
0.56
Prompt-based Few-Shot Learning
プロンプトに基づくFew-Shot Learning
0.49
Hyperparameters and Experimental Settings
ハイパーパラメータと実験的設定
0.75
We use the 1.5B parameters GPT-2 (Radford et al , 2019), with a Transformer (Vaswani et al , 2017) based architecture.
1.5Bパラメータ GPT-2 (Radford et al , 2019) を Transformer (Vaswani et al , 2017) ベースのアーキテクチャで使用しています。
0.85
The model largely follows the details of the OpenAI GPT model (Radford et al , 2018) with a few modifications.
このモデルは、いくつかの変更を加えたOpenAI GPTモデルの詳細(Radford et al , 2018)に従っている。
0.77
Layer normalization (Ba et al , 2016; Fan et al , 2020; Zhang et al , 2021a) is moved to the input of each sub-block and an additional layer normalization is added after the final self-attention block.
層正規化(Ba et al , 2016; Fan et al , 2020; Zhang et al , 2021a)は各サブブロックの入力に移動され、最終自己保持ブロック後に追加層正規化が追加される。
0.76
Following the settings in Zhao et al (2021), the maximum input length is 2048 tokens or 1500 words.
Zhao et al (2021)の設定に従って、最大入力長は2048トークンまたは1500ワードである。
0.80
In Table 12, we show the default prompt format for SST-2, TREC, and RTE.
表12では、SST-2、TREC、RTEのデフォルトプロンプトフォーマットを示す。
0.67
For datasets, Stanford Sentiment Treebank (SST-2) (Socher et al , 2013) is one of benchmarks in General Language Understanding Evaluation (GLUE) (Wang et al , 2018a).
データセットについては、Stanford Sentiment Treebank (SST-2) (Socher et al , 2013) がGeneral Language Understanding Evaluation (GLUE) (Wang et al , 2018a) のベンチマークの1つである。
0.75
With fully labeled parse tress, This corpus allows a complete analysis of the compositional effects of sentiment in language.
AVG. refers the average acquisition time for all three datasets.
avgだ 3つのデータセットの平均取得時間を参照。
0.67
For each acquisition, we report the running time under three adversarial attacks respectively
買収毎に、それぞれ3つの敵の攻撃下の実行時間を報告します。
0.58
A.4 Sampling Efficiency and Running Time We mask m as the number of labeled data in Dlabel, n the number of unlabeled data in Dpool, C the number of classes in the downstream classification task, d the dimension of embeddings, l the maximum sequence length, and sacq the acquisition size.
Experiments in this part are performed on a Tesla V100 GPU.
この部分の実験はTesla V100 GPU上で行われる。
0.84
We keep sacq = 100, d = 768, t = 10, and l = 128.
私たちは sacq = 100, d = 768, t = 10, l = 128 を保持する。
0.94
For IMDB, we change the maximum sequence length to 256.
IMDBの場合、最大シーケンス長を256に変更する。
0.73
As demonstrated in Table 13, BADGE requires a significantly amount of running time, since it has to cluster high-dimensional vectors and is a very computationally-heav y method.
CAL also requires relative long running time as it needs to find the contrastive examples by finding nearest neighbors and computing contrastive score for unlabeled
candidates. Our method achieves the second best efficiency.
候補者だ この方法は2番目に効率が良い。
0.67
Even with the select worst-case augmentation, our acquisition function is still computationally productive as the augmentation and ranking candidates can be well deployed in the current computational machines.