論文の概要、ライセンス

# (参考訳) allsh: 局所的感受性と硬さによるアクティブラーニング [全文訳有]

ALLSH: Active Learning Guided by Local Sensitivity and Hardness ( http://arxiv.org/abs/2205.04980v1 )

ライセンス: CC BY 4.0
Shujian Zhang, Chengyue Gong, Xingchao Liu, Pengcheng He, Weizhu Chen, Mingyuan Zhou(参考訳) アノテーションのための有能なラベルなしデータを効果的に収集するアクティブラーニングは、ラベル付きデータに対する需要を減らす。 本研究では,局所感度と硬度認識獲得機能を備えたラベル付きサンプルの検索を提案する。 提案手法では,局所摂動を通じてデータコピーを生成し,予測可能性が最も高いデータポイントを選択する。 我々は,選択型ケース摂動を注入することで,獲得機能をさらに強化する。 本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。 さらに,promply-based few-shot learningにおいて,プロンプト選択の研究におけるベースラインに対する一貫した改善が観察された。 これらの実験は,局所的感度と硬さに導かれた獲得が多くのnlpタスクに有効かつ有益であることを示す。

Active learning, which effectively collects informative unlabeled data for annotation, reduces the demand for labeled data. In this work, we propose to retrieve unlabeled samples with a local sensitivity and hardness-aware acquisition function. The proposed method generates data copies through local perturbations and selects data points whose predictive likelihoods diverge the most from their copies. We further empower our acquisition function by injecting the select-worst case perturbation. Our method achieves consistent gains over the commonly used active learning strategies in various classification tasks. Furthermore, we observe consistent improvements over the baselines on the study of prompt selection in prompt-based few-shot learning. These experiments demonstrate that our acquisition guided by local sensitivity and hardness can be effective and beneficial for many NLP tasks.
公開日: Tue, 10 May 2022 15:39:11 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
ALLSH: Active Learning Guided by Local Sensitivity and Hardness allsh: 局所的感受性と硬さによるアクティブラーニング 0.71
Shujian Zhang1,2, Chengyue Gong1, Xingchao Liu1, Pengcheng He2, 周慈庵張1,2・陳慶江1・新茶王Liu1・Pengcheng He2 0.47
1The University of Texas at Austin 1テキサス大学オースティン校 0.59
2Microsoft Azure AI 2Microsoft Azure AI 0.47
Weizhu Chen2, Mingyuan Zhou1 Weizhu Chen2,Mingyuan Zhou1 0.43
{szhang42, cygong, xcliu}@utexas.edu {szhang42, cygong, xcliu}@utexas.edu 0.45
{penhe, wzchen}@microsoft.com {penhe, wzchen}@microsoft.com 0.47
mingyuan.zhou@mccomb s.utexas.edu 明元.zhou@mccombs.utexas .edu 0.40
2 2 0 2 y a M 0 1 2 2 0 2 y a m 0 1 である。 0.53
] L C . s c [ 1 v 0 8 9 4 0 ]LC。 sc [ 1 v 0 8 9 4 0 0.30
. 5 0 2 2 : v i X r a . 5 0 2 2 : v i X r a 0.42
Abstract Active learning, which effectively collects informative unlabeled data for annotation, reduces the demand for labeled data. 概要 アノテーションのための有能なラベルなしデータを効果的に収集するアクティブラーニングは、ラベル付きデータに対する需要を減らす。 0.51
In this work, we propose to retrieve unlabeled samples with a local sensitivity and hardnessaware acquisition function. 本研究では,局所感度とハードネスアウェア取得機能を備えたラベルなしサンプルの検索を提案する。 0.72
The proposed method generates data copies through local perturbations and selects data points whose predictive likelihoods diverge the most from their copies. 提案手法では,局所摂動を通じてデータコピーを生成し,予測可能性が最も高いデータポイントを選択する。 0.76
We further empower our acquisition function by injecting the select-worst case perturbation. 我々は,選択型ケース摂動を注入することで,獲得機能をさらに強化する。 0.58
Our method achieves consistent gains over the commonly used active learning strategies in various classification tasks. 本手法は,様々な分類タスクにおいてよく用いられるアクティブラーニング戦略よりも一貫した利得が得られる。 0.60
Furthermore, we observe consistent improvements over the baselines on the study of prompt selection in prompt-based few-shot learning. さらに,promply-based few-shot learningにおいて,プロンプト選択の研究におけるベースラインに対する一貫した改善が観察された。 0.61
These experiments demonstrate that our acquisition guided by local sensitivity and hardness can be effective and beneficial for many NLP tasks. これらの実験は,局所的感度と硬さに導かれた獲得が多くのnlpタスクに有効かつ有益であることを示す。 0.61
Introduction 1 Crowdsourcing annotations (Rajpurkar et al , 2016; Bowman et al , 2015) has become a common practice for developing NLP benchmark datasets. はじめに 1.1クラウドソーシングアノテーション(Rajpurkar et al , 2016; Bowman et al , 2015)は、NLPベンチマークデータセットを開発する一般的なプラクティスになっている。 0.60
Rich prior works (Pavlick and Kwiatkowski, 2019; Nie et al , 2020; Ferracane et al , 2021) show that the time-consuming and expensive manual labeling in crowdsourcing annotations are not an annotation artifact but rather core linguistic phenomena. リッチ先行作品(Pavlick and Kwiatkowski, 2019; Nie et al , 2020; Ferracane et al , 2021)は、クラウドソーシングアノテーションにおける時間と費用のかかる手作業によるラベル付けは、アーティファクトではなく、むしろ中核的な言語現象であることを示している。 0.66
Active Learning (AL) is introduced to efficiently acquire data for annotation from a (typically large) pool of unlabeled data. アクティブラーニング(AL)は、ラベルなしデータの(通常大きな)プールからアノテーションのためのデータを効率的に取得するために導入された。
訳抜け防止モード: 能動学習(AL)を効率的に導入する ラベルなしデータの(通常大きな)プールからアノテーションのためのデータを取得する。
0.76
Its goal is to concentrate the human labeling effort on the most informative data in hopes of maximizing the model performance while minimizing the data annotation cost. その目標は、最も有益なデータに人間のラベル付け作業を集中させ、モデルのパフォーマンスを最大化し、データアノテーションコストを最小化することにある。 0.70
Popular approaches to acquiring data for AL are uncertainty sampling and diversity sampling. ALのデータ取得に対する一般的なアプローチは、不確実性サンプリングと多様性サンプリングである。 0.56
Uncertainty sampling selects data that the model preat https://github.com/ 不確実性サンプリングは、モデルがhttps://github.com/で事前設定したデータを選択する 0.43
available Code is 利用可能 コード は 0.70
szhang42/allsh szhang42/allsh 0.24
dicts with low-confidence (Lewis and Gale, 1994; Culotta and McCallum, 2005; Settles, 2009). 信頼度は低い(Lewis and Gale, 1994; Culotta and McCallum, 2005; Settles, 2009)。 0.37
Diversity sampling selects batches of unlabeled examples that are prototypical of the unlabeled pool to exploit heterogeneity in the feature space (Xu et al , 2003; Bodó et al , 2011). 多様性サンプリングは、特徴空間における不均一性を利用するために、ラベルなしプールの原型であるラベルなし例のバッチを選択する(Xu et al , 2003; Bodó et al , 2011)。 0.70
Different from these two perspectives, recent works focus on the informativeness of the selected data. これらの2つの視点とは異なり、最近の研究は選択したデータのインフォメーション性に焦点を当てている。 0.55
For example, Zhang and Plank (2021) acquire informative unlabeled data using the training dynamics based on the model predictive log likelihood. 例えば、ZhangとPlank(2021)は、モデルの予測ログ可能性に基づいてトレーニングダイナミクスを使用して、情報的未ラベルデータを取得する。
訳抜け防止モード: 例えば Zhang と Plank (2021 ) は未ラベル情報を取得する。 モデル予測ログの確率に基づく トレーニングダイナミクスを使います
0.74
Margatina et al (2021) construct contrastive examples in the input feature space. Margatina et al (2021) は入力特徴空間において対照的な例を構成する。 0.74
However, these methods either ignore the local sensitivity of the input features or take no consideration of the difficulty of the learning data. しかし,これらの手法は入力特徴の局所的な感度を無視するか,学習データの難易度を考慮しない。 0.85
Consequently, they may ignore examples around the decision boundary, or select hard-to-train or even noisy examples. したがって、決定境界周辺の例を無視したり、訓練が難しい例や騒がしい例を選択できる。 0.70
Their performance may further suffer under some practical settings, such as those with imbalanced labels and when there is a very limited annotation budget. 彼らのパフォーマンスは、ラベルの不均衡や非常に限定的なアノテーション予算がある場合など、いくつかの実践的な設定でさらに損なわれる可能性がある。 0.53
In this work, we determine the informativeness by considering both the local sensitivity and learning difficulty. 本研究では,局所的感度と学習難易度の両方を考慮して,情報性を決定する。 0.67
For local sensitivity, we take the classical definition from Chapelle et al (2009), which is widely used in both classic machine learning problems (e g Blum and Chawla, 2001; Chapelle et al , 2002; Seeger, 2000; Zhu et al , 2003; Zhou et al , 2004) and recent deep learning settings (e g Wang et al , 2018b; Sohn et al , 2020; Xu et al , 2021). 局所的感度については、古典的な機械学習問題(g blum and chawla, 2001; chapelle et al , 2002; seeger, 2000; zhu et al , 2003; zhou et al , 2004; zhou et al , 2004)と最近のディープラーニング設定(e g wang et al , 2018b; sohn et al , 2020; xu et al , 2021)の両方で広く使われているchapele et al (2009)の古典的な定義を取り上げる。 0.87
Specifying a local region Rregion(x) around an example x, we assume in our prior that all examples in Rregion(x) have the same labels.2 例 x の周りの局所領域 R Region(x) を指定すると、R Region(x) のすべての例が同じラベルを持つと仮定する。 0.82
If the examples in Rregion(x) give us different labels, we say the local region of x is sensitive. R Region(x) の例が異なるラベルを与えるなら、x の局所領域は感受性があると言う。 0.77
Data augmentation has been chosen as the way to create label-equivalent local regions in many recent works (e g , Berthelot et al , 2019b; Xie et al , 2020). データ拡張は、最近の多くの作品(例えば berthelot et al , 2019b; xie et al , 2020)において、ラベル等価なローカル領域を作成する方法として選ばれている。 0.72
We utilize data augmentation as a tool to capture the 我々はデータ拡張をキャプチャーのツールとして利用する 0.74
2See the paragraph ‘unlabeled bias as regions’ and the 2「地域としてのラベルなしバイアス」及び項を参照。 0.62
section ‘Regions and Smoothness’ for details. 詳細は「地域と滑らかさ」を参照。 0.70
英語(論文から抽出)日本語訳スコア
local sensitivity and hardness of inputs and present ALLSH: Active Learning guided by Local Sensitivity and Hardness. 入力の局所感度と硬さと現在のALSH: 局所感度と硬さによるアクティブラーニング 0.75
Through various designs on local perturbations, ALLSH selects unlabeled data points from the pool whose predictive likelihoods diverge the most from their augmented copies. ローカルな摂動に関する様々な設計を通じて、ALLSHは拡張されたコピーから最も多くを逸脱する可能性のあるプールからラベルのないデータポイントを選択する。 0.57
This way, ALLSH can effectively ensure the informative and local-sensitive data to have correct humanannotated labels. この方法で、alshは、情報とローカルにセンシティブなデータを効果的に保証し、正しいヒューマンアノテートラベルを持つことができる。 0.46
Figure 1 illustrates the scheme of the proposed acquisition strategy. 図1は、提案された買収戦略のスキームを示します。 0.71
We conduct a comprehensive evaluation of our approach on datasets ranging from sentiment analysis, topic classification, natural language inference, to paraphrase detection. 我々は、感情分析、トピック分類、自然言語推論、パラフレーズ検出まで、データセットに対するアプローチを包括的に評価する。 0.70
To measure the proposed acquisition function in more realistic settings where the samples stem from a dissimilar input distribution, we (1) set up an out-of-domain test dataset and (2) leak out-of-domain data (e g , adversarial perturbations) into the selection pool. サンプルが異種な入力分布に由来するより現実的な環境で,提案した取得関数を計測するために,(1)ドメイン外テストデータセットを設定し,(2)ドメイン外データ(例えば,敵対的摂動)を選択プールにリークする。 0.86
We further expand the proposed acquisition to a more challenging setting: prompt-based few-shot learning (Zhao et al , 2021), where we query a fixed pre-trained language model via a natural language prompt containing a few training examples. プロンプトベースの少数ショット学習(zhao et al, 2021)では、いくつかのトレーニング例を含む自然言語プロンプトを通じて、固定された事前学習された言語モデルをクエリします。 0.70
We focus on selecting the most valuable prompts for a given test task (e g , selecting 4 prompts for one given dataset). 我々は、与えられたテストタスク(例えば、あるデータセットに対して4つのプロンプトを選択する)の最も価値のあるプロンプトを選択することに集中します。 0.63
We adapt our acquisition function to retrieve prompts for the GPT-2 model. 我々は、GPT-2モデルのプロンプトを取得するために、取得関数に適応する。 0.60
Furthermore, we provide extensive ablation studies on different design choices for the acquisition function, including the designs of augmentations and divergences. さらに, 獲得関数の異なる設計選択について, 拡張性や分散性の設計を含む広範囲にわたるアブレーション研究を行った。 0.75
Our method shows consistent gains in all settings with multiple datasets. 提案手法は,複数のデータセットを用いて,すべての設定で一貫したゲインを示す。 0.47
With little modification, our data acquisition can be easily applied to other NLP tasks for a better sample selection strategy. 修正の少ないデータ取得は他のNLPタスクにも容易に適用でき、より優れたサンプル選択戦略が実現できる。 0.85
Our contributions are summarized as follows: (1) Present a new acquisition strategy, embracing local sensitivity and learning difficulty, such as paraphrasing the inputs through data augmentation and adversarial perturbations, into the selection procedure. 提案手法は,(1)データ拡張や対向的摂動による入力のパラフレーズ化など,局所的な感度と学習の難しさを取り入れた新たな獲得戦略を,選択手順に導入するものである。 0.76
(2) Verify the effectiveness and general applicability of the proposed method in more practical settings with imbalanced datasets and extremely few labeled data. 2)不均衡データセットと極めて少ないラベル付きデータを用いて,より実用的な設定で提案手法の有効性と汎用性を検証する。 0.77
(3) Provide comprehensive study and experiments of the proposed selection criteria in classification tasks (both in-domain and out-ofdomain evaluations) and prompt-based few-shot learning. 3)分類課題(ドメイン内評価とドメイン外評価の両方)とプロンプトベース・マイノショット学習における提案する選択基準の包括的研究と実験を提供する。 0.83
(4) The proposed data sampling strategy can be easily incorporated or extended to many other NLP tasks. (4)提案したデータサンプリング戦略は,他の多くのNLPタスクに容易に組み込んだり拡張したりすることができる。 0.74
2 Method In this section we present in detail our proposed method, ALLSH (Algorithm 1). 2 方法 本稿では,提案手法であるALSH(Algorithm 1)について詳述する。 0.56
2.1 Active Learning Loop The active learning setup consists of an unlabeled dataset Dpool, the current training set Dlabel, and a model M whose output probability is pθ(· | x) for input x. 2.1 active learning loop アクティブラーニングのセットアップは、ラベルのないデータセットdpool、現在のトレーニングセットdlabel、入力xの出力確率がpθ(· | x)であるモデルmで構成される。 0.84
The model M is generally a pre-trained model for NLP tasks (Lowell et al , 2018). Mモデルは一般的にNLPタスクのための事前訓練されたモデルである(Lowell et al , 2018)。 0.74
At each iteration, we train a model on Dlabel and then use the acquisition function to acquire sacq sentences in a batch T from Dpool. 各イテレーションで、Dlabelでモデルをトレーニングし、取得関数を使用して、DpoolからバッチTのsaq文を取得する。 0.63
The acquired examples from this iteration are labeled, added to Dlabel, and removed from Dpool. このイテレーションで得られたサンプルはラベル付けされ、Dlabelに追加され、Dpoolから削除される。 0.68
Then the updated Dlabel serves as the training set in the next AL iteration until we exhaust the budget. 次に更新されたDlabelが次のALイテレーションでトレーニングセットとして機能します。 0.58
Overall, the system is given a budget of S queries to build a labeled training dataset of size S. 全体として、システムはサイズSのラベル付きトレーニングデータセットを構築するためのSクエリの予算が与えられる。 0.71
2.2 Acquisition Function Design To fully capture the data informativeness and train a model with a limited amount of data, we consider two data-selection principals: local sensitivity and learning hardness. 2.2 取得関数設計 データ伝達性を完全に把握し、限られた量のデータでモデルを訓練するために、局所感度と学習困難の2つのデータ選択プリンシパルを検討する。
訳抜け防止モード: 2.2 取得機能設計 データ情報を完全に把握し、限られたデータ量でモデルを訓練する。 選択主観は,局所的感度と学習困難度である。
0.84
Local Sensitivity Based on theoretical works on the margin theory for active learning, the examples lying close to the decision boundary are informative and worth labeling (Ducoffe and Precioso, 2018; Margatina et al , 2021). 局所感性(Local Sensitivity) アクティブラーニングのマージン理論に関する理論的研究に基づいて、決定境界に近い例は情報的かつ価値あるラベル付けである(Ducoffe and Precioso, 2018; Margatina et al , 2021)。 0.82
Uncertainty sampling suffers from the sampling bias problem as the model is only trained with few examples in the early phase of training. 不確かさサンプリングはサンプリングバイアスの問題に悩まされ、モデルはトレーニングの初期段階で少数の例でのみ訓練される。 0.76
In addition, high uncertainty samples given the current model state may not be that representative to the whole unlabeled data (Ru et al , 2020). さらに、現在のモデル状態が与えられた高い不確実性サンプルは、ラベルのないデータ全体(ru et al , 2020)の代表ではないかもしれない。 0.68
For example, if an input has high confidence while its local perturbation generates low-confidence output, then it is likely that this input lies close to the model decision boundary. 例えば、入力が局所摂動が低信頼出力を生成する間、高い信頼度を持つならば、この入力はモデル決定境界に近い可能性が高い。 0.72
This information can be captured by measuring the difference between an input example and its augmentation in the output feature space. この情報は、入力例と出力特徴空間における拡張との差を測定することで取得することができる。 0.84
We utilize the back-translation (Sennrich et al , 2016; Edunov et al , 2018; Zhang et al , 2021b) and TF-IDF (Xie et al , 2020) as effective augmentation methods which can generate diverse paraphrases while preserving the semantics of the original inputs (Yu et al , 2018b). 我々は,元の入力のセマンティクスを保存しながら,多様なパラフレーズを生成できる効果的な拡張法として,バック翻訳(Sennrich et al , 2016; Edunov et al , 2018; Zhang et al , 2021b)とTF-IDF(Xie et al , 2020)を利用する。 0.81
Instead of simply using augmentation, adversarial perturbation can measure the local Lipschitz and sensitivity more effectively. 単に拡張を用いる代わりに、逆摂動は局所リプシッツと感度をより効果的に測定することができる。 0.56
We therefore further したがって、さらに 0.71
英語(論文から抽出)日本語訳スコア
exploit adversarial perturbation to more accurately measure local sensitivity. 敵の摂動を利用して より正確に局所感度を測定します 0.55
For NLP problems, generating exact adversarial perturbations in a discrete space usually requires combinatorial optimization, which often suffers from the curse of dimensionality (Madry et al , 2017; Lei et al , 2018). NLP問題の場合、離散空間における正確な逆摂動を生成するには、通常は組合せ最適化が必要である(Madry et al , 2017; Lei et al , 2018)。 0.66
Hence, we choose the hardest augmentation over K random augmentations as a “lightweight” variant of adversarial input augmentation which optimizes the worst case loss over the augmented data. したがって、K値に対する最も難しい拡張は、拡張データに対する最悪のケース損失を最適化する逆入力拡張の「軽量」変種として選択する。 0.71
Learning Hardness: From Easy to Hard Learning from easy examples or propagating labels from high-confidence examples is the key principle for curriculum learning (Bengio et al , 2009) and label propagation based semi-supervised learning algorithms (Chapelle et al , 2009). 学習困難性: 簡単な例から簡単に学ぶこと、高信頼の例からラベルを伝播することまでが、カリキュラム学習(Bengio et al , 2009)とラベル伝搬に基づく半教師付き学習アルゴリズム(Chapelle et al , 2009)の鍵となる原則である。 0.79
For example, FixMatch (Sohn et al , 2020), a SOTA semi-supervised method, applies an indicator function to select high confident examples at each iteration. 例えば、SOTA の半教師付き手法である FixMatch (Sohn et al , 2020) は、各イテレーションで高い信頼度を持つ例を選択するために指標関数を適用している。 0.64
This will facilitate the label information from high confidence examples to low-confidence ones (Chapelle et al , 2009). これは、高信頼の例から低信頼の例までラベル情報を促進する(Chapelle et al , 2009)。 0.75
In our selection criterion, as the model is trained with limited data, we also want to avoid the hard-to-learn examples, which in some cases frequently correspond to mislabeled or erroneous instances (Swayamdipta et al , 2020; Zhang and Plank, 2021). 私たちの選択基準では、モデルが限られたデータでトレーニングされているため、しばしば誤記や誤記の例に対応している(swayamdipta et al , 2020; zhang and plank, 2021)ような難解な例も避けたいと考えています。 0.71
These examples may stuck the model performance at the beginning of the selection. これらの例は、選択の開始時にモデルパフォーマンスを損なう可能性がある。 0.69
2.3 Acquisition with Local Sensitivity and 2.3 局所感度と買収 0.77
Hardness We come to the definition of our acquisition function. 硬さ 私たちは取得機能の定義にたどり着きます。 0.69
Given a model pθ and an input x, we compute the output distribution pθ(· | x) and a noised version pθ(· | x(cid:48)) by injecting a random transformation x(cid:48) = g(x) to the inputs. モデル pθ と入力 x が与えられたとき、出力分布 pθ(· | x) とノイズバージョン pθ(· | x(cid:48)) を入力にランダム変換 x(cid:48) = g(x) を注入することで計算する。 0.88
Here, g(·) is sampled from a family of transformations and these random transformations stand for data augmentations. ここで、g(·) は変換の族からサンプリングされ、これらのランダム変換はデータ拡張を表す。 0.69
This procedure can select examples that are insensitive to transformation g(·) and hence smoother with respect to the changes in the input space (Berthelot et al , 2019b,a; Sohn et al , 2020). この手順は、変換 g(·) に敏感で、入力空間の変化に関してより滑らかな例を選ぶことができる(Berthelot et al , 2019b,a; Sohn et al , 2020)。 0.72
We calculate (cid:96)(x, x(cid:48)) = D(pθ(· | x), pθ(· | x(cid:48))), 計算する (cid:96)(x, x(cid:48)) = D(pθ(· | x), pθ(· | x(cid:48))) 0.59
(1) where D denotes a statistical distance such as the Kullback–Leibler (KL) divergence (Kullback and Leibler, 1951). 1) D はKullback-Leibler (KL) divergence (Kullback and Leibler, 1951) のような統計的な距離を表す。 0.85
Model pθ here can be a pretrained language model such as BERT (Devlin et al , 2018). モデル pθ は BERT (Devlin et al , 2018) のような事前訓練された言語モデルである。 0.81
Data Paraphrasing via Augmentation Paraphrase generation can improve language models (Yu et al , 2018a) by handling language varia- オーグメンテーションによるデータパラフラージング : 言語変動の処理による言語モデル(yu et al , 2018a)の改善 0.70
Figure 1: Overview of active learning framework guided by local sensitivity and hardness. 図1: ローカル感度とハードネスによるアクティブラーニングフレームワークの概要。 0.72
Some notations are labeled along with corresponding components. いくつかの表記は対応するコンポーネントとともにラベル付けされる。 0.52
‘Select’ refers to the select worst-case augmentation. 選択」とは、最悪の場合の増大を指す。 0.65
tion. TF-IDF and backtranslation can generate diverse inputs while preserving the semantic meaning (Singh et al , 2019; Xie et al , 2020). ティメント TF-IDFとバックトランスレーションは意味を保ちながら多様な入力を生成することができる(Singh et al , 2019; Xie et al , 2020)。 0.48
For TF-IDF, we replace uninformative words with low TF-IDF scores while keeping those with high. TF-IDFでは,非形式的単語を低いTF-IDFスコアに置き換えつつ高いスコアを維持する。 0.64
Specifically, Suppose IDF(w) is the IDF score for word w computed on the whole corpus, and TF(w) is the TF score for word w in a sentence. 具体的には、IDF(w) を全コーパスで計算されたワード w の IDF スコアとし、TF(w) を文中のワード w の TF スコアとする。
訳抜け防止モード: 具体的には、IDF(w ) を全コーパス上で計算されたワード w の IDF スコアとする。 TF(w) は文中の単語 w に対する TF スコアである。
0.81
We compute the TF-IDF score as TFIDF(w) = TF(w)IDF(w). TF-IDFスコアを TFIDF(w) = TF(w)IDF(w) とする。 0.79
For backtranslation, we use a pre-trained EN-DE and DE-EN translation models (Ng et al , 2019) to perform backtranslation on each sentence. 逆翻訳には、事前訓練されたEN-DEおよびDE-EN翻訳モデル(Ng et al , 2019)を用いて各文の逆翻訳を行う。 0.67
We denote x as (x0,··· , xn). x を (x0,···· , xn) と表記する。 0.73
Here, n denotes the original length of the input. ここで n は入力の元の長さを表す。 0.81
For x, we pass them through two translation models to get x(cid:48) = (x(cid:48) m), where m denotes the length after backtranslating. x については、2つの翻訳モデルを通して x(cid:48) = (x(cid:48) m) を得る。
訳抜け防止モード: x では 2つの翻訳モデルを通して x(cid:48 ) = (x(cid:48 ) m ) を得るには、m は逆変換後の長さを表す。
0.75
More details can be found in Appendix A. 詳細はAppendix Aで確認できる。 0.60
0,··· , x(cid:48) 0,··· , x(cid:48) 0.47
Select Worst-Case Augmentation (WCA) In order to construct effective local sensitivity, the most direct approach is calculating the local Lipschitz constant or finding the worst case adversarial perturbation. Select Worst-Case Augmentation (WCA) 効果的な局所感度を構築するために、最も直接的なアプローチは、局所的なリプシッツ定数を計算することや、最悪の対向摂動を見つけることである。 0.57
However, estimating the Lipschitz constant for a neural network is either model dependent or computationally hard (Scaman and Virmaux, 2018; Fazlyab et al , 2019). しかしながら、ニューラルネットワークのリプシッツ定数の推定はモデル依存か計算的に難しい(Scaman and Virmaux, 2018; Fazlyab et al , 2019)。 0.67
Instead, we select worst-case augmentation over K copies, which can still roughly measure the norm of the first-order gradient without a huge computation cost and is easy to implement. 代わりに、Kコピーよりも最悪の拡張を選択する。これは、計算コストが大きく、実装が容易な1次勾配のノルムを大まかに測定することができる。 0.57
Given input examples x, and i}K K augmentation of x as {x(cid:48) i=1, we propose the following acquisition function to select data: 入力例 x と i}K K を {x(cid:48) i=1 とすると、データを選択するための次の取得関数を提案する。 0.83
(cid:96)max(x) = max i∈[K] (cid:96)max(x) = max i∂[K] 0.47
(cid:96)(x, x(cid:48) i). (cid:96)(x, x(cid:48) i)。 0.86
(2) Inspired by some simple and informal analysis in continuous space, we draw the connection between calculating (cid:96)max(x) and local sensitivity by (2) 連続空間における単純で非公式な解析に着想を得て、計算(cid:96)max(x)と局所感度との接続を描く。 0.57
英語(論文から抽出)日本語訳スコア
(cid:20) (cid:21) (cid:20) (出典:21) 0.53
Figure 2: The solid line is model decision boundary. 図2: ソリッドラインはモデル決定境界です。 0.71
Orange circles refer to the unlabeled data and green circles refer to the corresponding augmentation of the orange unlabeled data. オレンジ円はラベルなしのデータを指し、緑の円はラベルなしデータの対応する拡張を指す。 0.76
(cid:96)max(x) = (cid:96)(x, x(cid:48)) + (cid:96)max(x) = (cid:96)(x, x(cid:48)) + 0.46
= (cid:96)(x, x(cid:48)) +(cid:2)maxi∈[K](cid:104)∇x(cid:96)(x, x(cid:48)), x − x(cid:48)(cid:105)(c id:3) + O(σ2). = (cid:96)(x, x(cid:48)) +(cid:2)maxiftp[k](cid:104)\x(cid:96)( x, x(cid:48)), x − x(cid:48)(cid:105)(c id:3) + o(σ2)。 0.43
(cid:96)max(x) − (cid:96)(x, x(cid:48)) (cid:96)max(x) − (cid:96)(x, x(cid:48)) 0.45
(3) Recent works in computer vision (Gong et al , 2020; Wang et al , 2021) have provided more formal connections between local gradient norm estimation and K-worst perturbations. (3) コンピュータビジョンにおける最近の研究(Gong et al , 2020; Wang et al , 2021)は、局所勾配ノルム推定とK-Worst摂動の間のより正式な関係を提供した。 0.57
The text sentences in NLP are in the discrete space, which lacks the definition of local Lipschitz, but finding the worst perturbation in a local discrete set can still be a better measurement of local sensitivity in the semantic space. nlp のテキスト文は離散空間にあり、局所リプシッツの定義を欠いているが、局所離散集合における最悪の摂動を見つけることは、意味空間における局所的感度をよりよく測定することができる。 0.68
Choice of Divergence We use the KL divergence as the primary measure of the statistical distance between the distribution of the original examples and that over augmented examples. 発散の選択 kl 発散を原例の分布と拡張例の間の統計距離の一次尺度として用いる。
訳抜け防止モード: 発散の選択 kl発散を原例の分布間の統計距離の一次尺度として用いる これは拡張された例です。
0.73
We also empirically provide detailed analysis of the Jensen–Shannon Distance (JSD) (Endres and Schindelin, 2003) and α-divergence (Minka et al , 2005) as a complementary measure in Section 5. また、第5節の補完尺度として、Jensen-Shannon Distance (JSD) (Endres and Schindelin, 2003) と α-divergence (Minka et al , 2005) の詳細な分析を経験的に提供している。 0.75
The α-divergence (Pillutla et al , 2021) is a general divergence family, which includes the most popular KL divergence and reverse KL divergence. α-発散(Pillutla et al , 2021)は、一般的な発散族であり、最も一般的なKL発散と逆KL発散を含む。 0.67
Different value of α makes the divergence trade-off between overestimation and underestimation. αの異なる値は、過大評価と過小評価の間の分岐トレードオフをもたらす。 0.62
JSD is a metric function based on a mathematical definition which is symmetric and bounded within the range [0, 1]. JSD は、[0, 1] の範囲内で対称で有界な数学的定義に基づく計量関数である。 0.75
These divergences are calculated as: これらの差分は次のように計算される。 0.44
KL(p(cid:107)q) =(cid:80) (cid:113) 1 2 (KL(p(cid:107)m) + KL(q(cid:107)m)), JSD(p(cid:107)q) = Dα(p(cid:107)q) = 1 qi(x) )α − 1], [( pi(x) α(α−1) KL(p(cid:107)q) = (cid:80) (cid:113) 1 2 (KL(p(cid:107)m) + KL(cid:107)m)), JSD(p(cid:107)q) = Dα(p(cid:107)q) = 1 qi(x) )α − 1], [( pi(x) α(α−1)) 0.49
pi(x) log pi(x) qi(x) , pi(x) log pi(x) qi(x) , 0.43
(cid:80) i (cid:80) 私は 0.46
i (4) where p is the output probability distribution of an example, q is the output probability distribution of an augmented example, and m = 1 Local Sensitivity and Informativeness The divergence objective exploits unlabeled data by measuring predictions across slightly-distorted versions of each unlabeled sample. 私は (4) p が例の出力確率分布である場合、q は拡張例の出力確率分布であり、m = 1 局所感度と情報性 発散の目的は、各ラベルなしサンプルのわずかに歪んだバージョン間の予測を測定することによってラベル付きデータを利用する。 0.58
The diverse and adversarial augmentations capture the local sensitivity and informativeness of inputs and project examples to the 多様な対角的な拡張は、入力の局所的な感度と情報性、およびプロジェクト例を捉える。 0.57
2 (p + q). 2 (p + q) である。 0.88
decision boundary (Ducoffe and Precioso, 2018). 決定境界 (Ducoffe and Precioso, 2018)。 0.68
Thus, the examples and their copies with highly inconsistent model predictions lie close to the decision boundary of the model (Gao et al , 2020). したがって、非常に矛盾したモデル予測の例とそれらのコピーは、モデルの決定境界に近い(Gao et al , 2020)。 0.79
These examples are valuable to have human annotations because they これらの例は人間のアノテーションを持つのに価値がある。 0.57
1) contain high-confidence region in a local perturbation and are therefore easy to train 1)局地摂動における高信頼領域を含むため、訓練が容易である 0.78
2) are highly likely to promote the model with large-margin improvements (see example in Figure 2). 2) 大きなマージン改善でモデルを促進する可能性が高い(図2の例を参照)。 0.87
Under our local sensitivity and hardness guided acquisition, we argue the selected examples would not be necessarily the examples with the highest uncertainty, which do not always benefit the training. 当社の局所的感度とハードネスガイドによる獲得では、選択した例が必ずしも最も不確実性が高い例であるとは限らないが、トレーニングの恩恵を受けるとは限らない。 0.62
For instance, an example may have low-confidence prediction of both original inputs and augmented inputs thus making the samples most hard to train. 例えば、サンプルは元の入力と拡張入力の両方の信頼度が低いので、サンプルを訓練するのが最も難しい。 0.69
2.4 More Details Compute Distance We compute the divergence in the model predictive probabilities for the pairs of the input and its augmentations in Eqn (1). 2.4 より詳細な計算距離 入力のペアに対するモデル予測確率のばらつきと、Eqn (1) における拡張について計算する。 0.84
Specifically, we use a pretrained BERT in classification tasks and GPT-2 in prompt-based few-shot learning as the base model pθ to obtain the output probabilities for all unlabeled data points in Dpool. 具体的には、事前訓練されたBERTを分類タスクに使用し、GPT-2をベースモデルpθとしてプロンプトベースの複数ショット学習を行い、Dpoolの全未ラベルデータポイントの出力確率を得る。 0.62
We then compute the divergence value with Eqn (1). 次に、Eqn (1) で発散値を計算する。 0.73
Rank and Select Candidates We apply these steps to all candidate examples from Dpool and obtain the divergence value for each. Rank and Select Candidates これらのステップをDpoolのすべての候補例に適用し、それぞれに発散値を得る。 0.82
Our acquisition function selects the top sacq examples that have the highest divergence value from the acquired batch T . 取得関数は、取得したバッチTから最も発散値の高いトップサック例を選択する。 0.62
3 Experimental Settings Table 1 shows the experimental data configuration. 3 実験的設定 表1は実験データ構成を示す。 0.87
In classification tasks, we use five datasets, including Stanford Sentiment Treebank (SST-2; (Socher et al , 2013)), Internet Movie Database (IMDB; (Maas et al , 2011)), AG’s News Corpus (AG News; (Zhang et al , 2015)), Quora Question Pairs (QQP; (Wang et al , 2018a)), and Question NLI (QNLI; (Wang et al , 2018a)). 分類タスクでは,Stanford Sentiment Treebank (SST-2; (Socher et al , 2013)), Internet Movie Database (IMDB; (Maas et al , 2011)), AG's News Corpus (AG News; (Zhang et al , 2015)), Quora Question Pairs (QQP; (Wang et al , 2018a)), Question NLI (QNLI; (Wang et al , 2018a) の5つのデータセットを使用する。 0.79
The validation and test splits are provided in Margatina et al (2021). 検証とテストの分割はMargatina et al (2021)で提供される。 0.82
Following Desai and Durrett (2020), we test domain generalization and robustness on three challenging outof-domain (OD) datasets. desai と durrett (2020) に続いて、3つの挑戦的な out of domain (od) データセットでドメインの一般化と堅牢性をテストする。 0.58
For sentiment analysis, SST-2 and IMDB are the source and target domains, respectively, and vice versa; for paraphrase detection, TwitterPPDB (Lan et al , 2019) serves as the out-of-domain test dataset for QQP. 感情分析では、SST-2とIMDBがそれぞれソースドメインとターゲットドメインであり、その逆である。パラフレーズ検出では、TwitterPPDB(Lan et al , 2019)がQQPのドメイン外テストデータセットとして機能する。 0.69
In the prompt-based few-shot learning, we fol- プロンプト・ベース・マイ・ショット学習におけるfol- 0.47
英語(論文から抽出)日本語訳スコア
Algorithm 1: Acquisition with Local Sensitivity and Hardness アルゴリズム1:局所感度と硬度による獲得 0.76
1: Input: labeled data Dlabel, unlabeled data Dpool, acquisition size sacq, model M with output probability pθ(· | x). 1:入力:ラベル付きデータDlabel、ラベルなしデータDpool、取得サイズSaq、出力確率pθ(· | x)のモデルM。 0.78
2: while Select examples before reaching the budget do 3: for x in Dpool do Generate K augmentations, {x(cid:48) i}i=1,··· ,K ← g (x). 2: 予算 do 3 に到達する前にサンプルを選定する: dpool の x は k の増補を生成する: {x(cid:48) i}i=1,··· ,k ] g (x)。 0.82
4: Compute pθ(· | x) and pθ(· | x(cid:48) i) for i = 1, . . . , K. 5: Select the worst case augmentation x(cid:48) for each input x as (cid:96)max(x) = maxi=1,··· ,K (cid:96)(x, x(cid:48) 6: i). 4: 計算 pθ(· | x) と pθ(· | x(cid:48) i) for i = 1, . , K. 5: それぞれの入力 x に対して (cid:96)max(x) = maxi=1,·· ,K (cid:96)(x, x(cid:48) 6: i) として最悪の場合 x(cid:48) を選択する。 0.90
7: end for 8: Select top sacq largest examples in Dpool, according to the value of D(pθ(· | x), pθ(· | x(cid:48))). 7: end for 8: Select top sacq largest examples in Dpool, according the value of D(pθ(· | x), pθ(· | x(cid:48)))。
訳抜け防止モード: 7 : end for 8 : Select top sacq largest example in Dpool。 D(pθ ( · | x ) の値による。 pθ ( · | x (cid:48 ) ) ) である。
0.90
9: Label these sacq examples. 9: これらのsaqの例を示す。 0.57
10: end while 11: Curriculum learning the model parameters with Eqn (5). 10: end while 11: Curriculum learning the model parameters with Eqn (5)。 0.40
//data paraphrasing via augmentation //compute probabilities 拡張によるデータパラフレージング //計算確率 0.58
Dataset SST-2 IMDB AG News QNLI QQP SST-2 TREC RTE データセット sst-2 imdb ag news qnli qqp sst-2 trec rte 0.53
Train 60.6K 22.5K 11.4K 99.5K 327K 60.6K 4.5K 2.5K 60.6k 22.5k 11.4k 99.5k 327k 60.6k 4.5k 2.5k 0.32
IMDB SST-2 IMDB SST-2 0.35
OD Dataset Test 871 25K 7.6K 5.5K ODデータセット テスト851 25k 7.6k 5.5k 0.61
Val 6.7K 2.5K 6K 5.2K 36.4K 80.8K TwitterPPDB 6.7K 500 277 val 6.7k 2.5k 6k 5.2k 36.4k 80.8k twitterppdb 6.7k 500 277 0.39
871 500 3K - 8715003k - 0.33
- Table 1: Dataset Configuration. - 表1:データセットの設定。 0.61
The top block is for the classification tasks and the bottom block is for the prompt-based few-shot learning. 一番上のブロックは分類タスク、一番下のブロックはプロンプトベースの少数ショット学習用です。 0.74
OD represents out-ofdomain datasets. ODはドメイン外のデータセットを表す。 0.51
low Zhao et al (2021) to use SST-2 (Socher et al , 2013) for sentiment analysis, TREC (Voorhees and Tice, 2000) for question classification, and RTE (Dagan et al , 2005) for recognizing textual entailment. 感情分析にSST-2(Socher et al , 2013)、質問分類にTREC(Voorhees and Tice, 2000)、テキスト関係の認識にRTE(Dagan et al , 2005)を使用するZhao et al (2021)。 0.68
See Appendix A for more details of the data. データの詳細についてはAppendix Aを参照してください。 0.73
3.1 Classification Task We compare the proposed ALLSH against four baseline methods. 3.1 分類タスク 提案する allsh を4つのベースラインメソッドと比較する。 0.70
We choose these baselines as they cover a spectrum of acquisition functions (uncertainty, batch-mode, and diversity-based). これらのベースラインは、取得関数(不確実性、バッチモード、多様性ベース)のスペクトルをカバーするものとして選択します。 0.51
Random samples data from the pool of unlabeled data Dpool following a uniform distribution. ランダムなサンプルデータは、一様分布に続くラベルなしデータdpoolのプールから得られる。 0.79
Entropy selects sacq sentences with the highest predictive entropy (Lewis and Gale, 1994) mea- エントロピーは最も高い予測エントロピーを持つsacq文を選択する (lewis and gale, 1994) mea- 0.72
sured by −(cid:80) で保証される(cid:80) 0.57
x pθ(x) ln pθ(x). x pθ(x) ln pθ(x) である。 0.62
BADGE (Ash et al , 2020) acquires sacq sentences based on diversity in loss gradient. BADGE(Ash et al , 2020)は損失勾配の多様性に基づいてサック文を取得する。 0.72
The goal of BADGE is to sample a diverse and uncertain batch of points for training neural networks. BADGEの目標は、ニューラルネットワークをトレーニングするための多様で不確実なポイントのバッチをサンプリングすることだ。
訳抜け防止モード: BADGEの目標は ニューラルネットワークを訓練するための 多様な不確実な点をサンプリングします
0.72
It acquires data from Dpool by first passing the input through the trained model and computing the gradient embedding with respect to the parameters of the model’s last layer. トレーニングされたモデルに入力を渡すことでDpoolからデータを取得し、モデルの最後層のパラメータに関する勾配の埋め込みを計算する。
訳抜け防止モード: トレーニングされたモデルに入力を渡すことで、Dpoolからデータを取得する そして、モデルの最後の層のパラメータに関する勾配の埋め込みを計算します。
0.77
CAL (Margatina et al , 2021) The acquisition function samples contrastive examples. CAL (Margatina et al , 2021) 取得関数は対照的な例を示す。 0.78
It uses information from the feature space to create neighborhoods for unlabeled examples, and uses predictive 特徴空間からの情報を用いて、ラベルのない例のための地区を作成し、予測を使用する。
訳抜け防止モード: 特徴空間からの情報を利用する ラベルのない例の地区を作るためです 予測を使って
0.75
likelihood for ranking the candidates. 候補者をランク付けする可能性。 0.65
3.2 Prompt-based Few-Shot Learning Following Zhao et al (2021), we adapt our acquisition function for state-of-the-art generation based model GPT-2 and propose to retrieve examples that are semantics and sensitivity aware to formulate its corresponding prompts. 3.2 zhao et al (2021) に続くプロンプトベース・マイノショット学習では,最先端生成モデル gpt-2 に我々の獲得関数を適応させ,そのプロンプトを定式化するために意味論的かつ感度の高い例を検索することを提案する。 0.65
We compare ALLSH’s acquisition function with random, contextual calibrated, and uncertainty prompt. ALLSHの取得機能と、ランダム、文脈的校正、不確実性のプロンプトを比較した。 0.57
For random prompt, we randomly select in-context examples from the training set for each test sentence. ランダムプロンプトの場合、各テスト文のトレーニングセットから文脈内サンプルをランダムに選択する。 0.76
For Calibrated, Zhao et al (2021) inject calibration parameters that cause the prediction for each test input to be uniform across answers. 校正のために、zhao et al (2021) は各テスト入力の予測を回答間で均一にする校正パラメータを注入する。 0.81
See Zhao et al (2021) for more details. 詳細はZhao et al (2021)を参照。 0.68
For Uncertain, we sample the highest uncertain prompt for the test sentences. 不確実性については、テスト文の最も確実なプロンプトをサンプリングする。 0.57
For ALLSH, we augment the in-context examples and select the prompts with the highest divergence of the predicted likelihood between the original examples and their augmentations. ALLSHでは、インコンテキストの例を拡大し、元の例とそれらの拡張の間の予測可能性の最も高いばらつきでプロンプトを選択する。 0.61
Implementation Details 3.3 For classification, we use BERT-base (Devlin et al , 2018) from the HuggingFace library (Wolf et al , 2020). 実施内容 3.3 分類には、HuggingFaceライブラリ(Wolf et al , 2020)のBERTベース(Devlin et al , 2018)を使用します。 0.59
We train all models with batch size 16, learning rate 2× 10−5, and AdamW optimizer with epsilon 1×10−8. バッチサイズ16、学習率2×10−5、エプシロン1×10−8のAdamWオプティマイザを訓練する。 0.63
For all datasets, we set the default annotation budget as 1%, the maximum annotation budget as 15%, initial accumulated labeled data set Dlabel as 0.1% of the whole unlabeled data, and acquisition size as 50 instances for each active learning iterations, following prior work (e g , Gissin and Shalev-Shwartz, 2019; Dor et al , 2020; Ru et al , 2020). すべてのデータセットに対して、デフォルトのアノテーション予算を1%、最大アノテーション予算を15%、初期蓄積されたラベル付きデータセット Dlabelを全ラベル付きデータの0.1%、取得サイズを各アクティブな学習イテレーション毎のインスタンスとして設定しました(例えば、GissinとShalev-Shwartz, 2019; Dor et al , 2020; Ru et al , 2020)。 0.76
Curriculum Learning (CL) We further combine our acquisition function with advances in semi-supervised learning (SSL) (Berthelot et al , 2019a; Sohn et al , 2020), which also integrates abundant unlabeled data into learning. カリキュラム学習(cl) さらに、取得関数と半教師付き学習(ssl)の進歩(berthelot et al , 2019a; sohn et al , 2020)を組み合わせることで、豊富なラベルのないデータを学習に統合します。 0.75
A recent line of work in SSL utilizes data aug- SSLにおける最近の作業は、データバグを利用する 0.72
英語(論文から抽出)日本語訳スコア
mentations, such as TF-IDF and back-translation, to enforce local consistency of the model (Sajjadi et al , 2016; Miyato et al , 2018). TF-IDFやバックトランスレーションのようなメンテーションは、モデルの局所的な一貫性を強制する(Sajjadi et al , 2016; Miyato et al , 2018)。 0.66
Here SSL can further distill information from unlabeled data and gradually propagate label information from labeled examples to unlabeled one during the training stage (Xie et al , 2020; Zhang et al , 2021c). ここでSSLは、ラベル付きデータからさらに情報を抽出し、ラベル付きデータからラベル付きデータへのラベル情報をトレーニング段階で徐々に伝播させる(Xie et al , 2020; Zhang et al , 2021c)。 0.65
We construct the overall loss function as 全体の損失関数を構成する。 0.72
L = LS + α · Ex∼Dpool l = ls + α · エクシドプール 0.52
(cid:124) (cid:123)(cid:122) (cid:124) (cid:123)(cid:122) 0.38
LU D(pθ(· | x), pθ(· | x(cid:48))) ルル D(pθ(· | x), pθ(· | x(cid:48)) 0.47
, (5) (cid:125) , (5) (明暦125年) 0.44
where LS is the cross-entropy supervised learning loss over labeled samples, LU is the consistency regularization term, and α is a coefficient (Tarvainen and Valpola, 2017; Berthelot et al , 2019b). LSはラベル付きサンプルよりもクロスエントロピーで教師付き学習損失であり、LUは一貫性正規化項であり、αは係数である(Tarvainen and Valpola, 2017; Berthelot et al , 2019b)。 0.72
For prompt-based few-shot learning, we run experiments on 1.5B-parameters GPT-2 (Radford et al , 2019), a Transformer (Vaswani et al , 2017) based language model. 素早い数発学習では,1.5Bパラメータ GPT-2 (Radford et al , 2019), Transformer (Vaswani et al , 2017) ベースの言語モデルを用いて実験を行った。 0.80
It largely follows the details of the OpenAI GPT model (Radford et al , 2018). これは主にOpenAI GPTモデルの詳細に従う(Radford et al , 2018)。 0.72
We take the TF-IDF as the default augmentation method and provide a rich analysis of other augmentation methods in Section 5. TF-IDFをデフォルト拡張法とし,第5節の他の拡張法をリッチに解析する。 0.71
More detailed experimental settings are included in Appendix A. より詳細な実験設定はAppendix Aに記載されている。 0.68
4 Experiments We evaluate the performance of our acquisition and learning framework in this section. 4 実験では,本節における獲得・学習フレームワークの性能を評価する。 0.77
We bold the best results within Random, Entropy, BADGE, CAL, and the proposed ALLSH (Ours) in tables. 我々はテーブル内のRandom、Entropy、BADGE、CAL、提案されているALLSH(Ours)で最高の結果を得る。 0.76
Then, we bold the best result within each column block. そして、各カラムブロック内で最高の結果を大胆にします。 0.71
All experimental results are obtained with five independent runs to determine the variance. すべての実験結果は、5つの独立ランで得られ、分散が決定される。 0.62
See Appendix A for the full results with error bars. エラーバーの完全な結果については、Appendix Aを参照してください。 0.51
In-Domain Classification Task Results ドメイン内分類タスク結果 0.82
4.1 In Table 2, we evaluate the impact of our acquisition function under three different annotation budgets (1%, 5%, and 10%). 表2の4.1では、3つの異なるアノテーション予算(1%、5%、10%)の下で、買収機能の影響を評価します。 0.63
With a constrained annotation budget, we see substantial gains on test accuracy with our proposed acquisition: ALLSH and selecting worst-case augmentation. 制約付きアノテーション予算では、提案したALLSHと最悪の拡張を選択することで、テスト精度が大幅に向上する。 0.61
With this encouraging initial results, we further explore our acquisition with curriculum learning. この奨励的な最初の成果により、我々はカリキュラム学習による買収をさらに探求する。 0.60
Across all settings, ALLSH is consistently the top performing method especially in SST-2, IMDB, and AG News. すべての設定において、ALLSHは、特にSST-2、IMDB、AG Newsで最高のパフォーマンスのメソッドである。 0.66
With a tight budget, our proposed acquisition can successfully integrate the local sensitivity and learning difficulty to generate annotated data. タイトな予算で,提案手法は局所的感度と学習難易度を統合し,注釈付きデータを生成する。 0.69
For BADGE, despite combining both uncertainty and diversity sampling, it only achieves the compa- BADGEは、不確かさと多様性のサンプリングを組み合わせながら、コンパしか達成していない。 0.49
rable results on QNLI, showing that gradient computing may not directly benefit data acquisitions. QNLIのrable resultsは、勾配コンピューティングが直接データ取得の恩恵を受けないことを示している。 0.64
In addition, requiring clustering for high dimensional data, BADGE is computationally heavy as its complexity grows exponentially with the acquisition size (Yuan et al , 2020). さらに、高次元データにクラスタリングを必要とするため、BADGEは計算的に重くなり、その複雑さは取得サイズとともに指数関数的に増加する(Yuan et al , 2020)。 0.64
We provide rich analysis of the sampling efficiency and running time for each method in Appendix A and include the results in Table 13. 我々は、Appendix Aの各メソッドのサンプリング効率と実行時間について、豊富な分析を行い、結果をテーブル13に含める。 0.76
Also, ALLSH outperforms the common uncertainty sampling in most cases. また、ALSHはほとんどの場合、一般的な不確実性サンプリングよりも優れている。 0.40
Given the current model state, uncertainty sampling chooses the samples that are not representative to the whole unlabeled data, leading to ineffective sampling. 現在のモデル状態から、不確実なサンプリングは、ラベルのない全データに代表されないサンプルを選択し、非効率なサンプリングに繋がる。 0.65
CAL has an effective contrastive acquiring on QNLI. CALはQNLIに対して効果的なコントラスト獲得を持っている。 0.51
We hypothesize that due to the presence of lexical and syntactic ambiguity between a pair of sentence, the contrastive examples can be used to push away the inputs in the feature space. 我々は、一対の文の間に語彙的・構文的曖昧性があるので、対比的な例を使って特徴空間の入力を押し下げることができると仮定する。 0.75
SST-2 IMDB SST-2 IMDB 0.36
AG News QNLI AGニュース QNLI 0.60
QQP Acquired dataset size: Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours: + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL QQP データセットサイズ:ランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CL 0.64
1% 84.11 84.53 84.32 84.95 85.97 86.12 86.37 65.90 68.32 67.80 73.55 75.23 75.17 77.57 85.43 86.48 86.81 87.12 88.42 88.50 88.57 76.33 77.95 77.74 78.53 78.44 78.47 78.92 77.32 78.47 78.02 78.23 78.97 78.90 79.32 1% 84.11 84.53 84.32 84.95 85.97 86.12 86.37 65.90 68.32 67.80 73.55 75.23 75.17 77.57 85.43 86.48 86.81 87.12 88.42 88.50 88.57 76.33 77.95 77.74 78.53 78.44 78.47 78.92 77.32 78.47 78.02 78.23 78.97 78.90 79.32 0.21
5% 86.53 87.82 87.11 87.34 88.61 88.56 88.79 84.22 84.51 84.46 84.72 85.82 85.79 86.02 90.05 92.21 90.72 92.13 92.86 92.84 92.94 83.61 83.83 84.90 85.14 84.93 85.12 85.06 81.73 81.92 81.63 82.52 82.43 82.55 82.91 5% 86.53 87.82 87.11 87.34 88.61 88.56 88.79 84.22 84.51 84.46 84.72 85.82 85.79 86.02 90.05 92.21 90.72 92.13 92.86 92.84 92.94 83.61 83.83 84.90 85.14 84.93 85.12 85.06 81.73 81.92 81.63 82.52 82.43 82.55 82.91 0.21
10% 88.05 89.45 88.72 89.16 90.05 90.14 90.18 86.25 87.29 87.17 87.27 87.91 87.83 88.43 91.93 92.65 92.41 92.82 93.13 93.22 93.20 84.63 84.75 84.32 84.99 84.87 84.91 84.96 84.22 86.03 84.06 84.25 84.77 84.83 84.95 10% 88.05 89.45 88.72 89.16 90.05 90.14 90.18 86.25 87.29 87.17 87.27 87.91 87.83 88.43 91.93 92.65 92.41 92.82 93.13 93.22 93.20 84.63 84.75 84.32 84.99 84.87 84.91 84.96 84.22 86.03 84.06 84.25 84.77 84.83 84.95 0.21
Table 2: Results of the in-domain test accuracies for different acquired dataset size. 表2: 異なる取得データセットサイズに対するドメイン内テストの精度の結果。 0.82
+ WCA refers to Ours + select worst-case augmentation. + wcaは、私たちの+選択した最悪のケース拡張を指します。 0.46
+ CL refers to Ours + curriculum learning. CLはOurs + カリキュラム学習を指す。 0.66
We provide error bars in Table 11 in the Appendix. Appendixのテーブル11にエラーバーを提供します。 0.71
英語(論文から抽出)日本語訳スコア
4.2 Out-of-Domain Classification Task 4.2 ドメイン外分類タスク 0.61
Results prompt-based few-shot learning and make a good in-context examples for GPT-2 model. 結果 プロンプトベースの少数ショット学習と、gpt-2モデルのための良いインコンテキスト例を作成する。 0.62
We compare our proposed method with the baselines for their performance in an out-of-domain (OD) setting and summarize the results in Table 3. 提案手法とそれらの性能をドメイン外設定(OD)で比較し,結果を表3にまとめる。
訳抜け防止モード: 提案手法を,out-of-domain (od ) 設定における性能基準と比較した。 結果を表3にまとめます。
0.79
We test domain generalization on three datasets with two tasks, including sentiment analysis and paraphrase detection. 我々は感情分析とパラフレーズ検出の2つのタスクで3つのデータセットでドメインの一般化をテストする。 0.65
We set the annotation budget as 15% of Dpool for all OD experiments. すべてのod実験で、アノテーション予算をdpoolの15%に設定しました。 0.67
For OD in SST-2 and IMDB, ALLSH yields better results than all baselines with a clear margin (1.7% and 2.0%, respectively). SST-2 と IMDB のOD では、ALSH は全ての基準値(それぞれ 1.7% と 2.0% )よりも良い結果が得られる。 0.66
With curriculum learning, the results are continually improved. カリキュラム学習では、結果が継続的に改善される。 0.67
The performance gains on out-of-domain are often greater than the gains on in-domain, implying that ALLSH can significantly help the model to generalize across domains. ドメイン外のパフォーマンス向上は、ドメイン内のパフォーマンス向上よりも大きい場合が多いため、ALLSHはドメイン全体にわたってモデルを一般化するのに大いに役立ちます。 0.60
On QQP, ALLSH achieves comparable results as CAL without curriculum learning while the performance can be further improved by adding curriculum learning. qqpでは、alshはカリキュラム学習なしでcalと同等の結果が得られるが、カリキュラム学習を追加することでさらにパフォーマンスが向上する。 0.55
SST-2 ID IMDB OD Random 76.31 75.88 Entropy 75.23 BADGE 78.88 CAL Ours 80.54 + WCA 80.72 + CL 80.91 SST-2 ID IMDB OD Random 76.31 75.88 Entropy 75.23 BADGE 78.88 CAL Ours 80.54 + WCA 80.72 + CL 80.91 0.33
IMDB SST-2 82.01 85.32 85.11 84.92 86.97 86.99 87.07 IMDB SST-2 82.01 85.32 85.11 84.92 86.97 86.99 87.07 0.23
TwitterPPDB TwitterPPDB 0.85
QQP 85.57 85.18 85.39 86.14 86.03 86.07 86.18 QQP 85.57 85.18 85.39 86.14 86.03 86.07 86.18 0.32
Table 3: Results of out-of-domain (OD) generalization. 表3: out-of-domain (od) の一般化の結果。 0.62
We report the out-of-domain accuracy on the target domain. 対象領域の領域外精度について報告する。 0.43
ID refers to in-domain dataset. IDはドメイン内のデータセットを指す。 0.62
OD refers to out-of-domain dataset. ODはドメイン外のデータセットを指す。 0.58
4.3 Prompt-Based Few-Shot Learning 4.3 プロンプトベース・マイノショット学習 0.78
Results We present the prompt-based few-shot learning results with GPT-2 in Table 4, in which we follow the setting (4-shot, 8-shot, and 12-shot) in Zhao et al (2021). 結果 表4では,zhao et al (2021) の設定(4ショット,8ショット,12ショット)に従うgpt-2を用いて,プロンプトベースの少数ショット学習結果を示す。 0.72
Few-shot learners suffer from the quality of labeled data (Sohn et al , 2020), and previous acquisition functions usually fail to boost the performance from labeling random sampled data. ラベル付きデータの品質(Sohn et al , 2020)に悩まされる学習者はほとんどおらず、以前の取得関数はランダムなサンプルデータのラベル付けによってパフォーマンスを向上できない。 0.71
In Table 4, we observe that uncertain prompts performs similar to random selected prompts. 表4では、不確定なプロンプトがランダムに選択されたプロンプトと類似していることを観察する。 0.55
A potential reason is that an under-trained model treats all examples as uncertainty examples and hard to distinguish the informativeness. 潜在的な理由は、訓練不足のモデルが全ての例を不確かさの例として扱い、情報性を見分けるのが困難である。 0.56
However, our proposed acquisition demonstrates the strong capability in modeling the local sensitivity and learning from easy to hard. しかし,提案手法は,局所的感度をモデル化し,容易かつ困難に学習する上での強力な能力を示す。 0.69
It comes to the best performance in most of the settings. ほとんどの設定で最高のパフォーマンスが得られます。 0.72
These findings show the potential of using our acquisition to improve これらの発見は、私たちの買収を改善させる可能性を示しています 0.52
SST-2 TREC SST-2 TREC 0.36
RTE Random Calibrated Uncertainty Ours Random Calibrated Uncertainty Ours Random Calibrated Uncertainty Ours RTE ランダムキャリブレーション 不確かさ ランダムキャリブレーション不確かさ ランダムキャリブレーション不確かさ 0.51
4-shot 64.9 73.8 59.7 75.3 23.1 44.2 34.8 46.4 53.2 57.5 57.0 57.9 4-shot 64.9 73.8 59.7 75.3 23.1 44.2 34.8 46.4 53.2 57.5 57.0 57.9 0.21
8-shot 54.5 64.6 64.5 77.8 32.7 44.1 52.2 58.7 54.9 57.7 57.3 58.4 8-shot 54.5 64.6 64.5 77.8 32.7 44.1 52.2 58.7 54.9 57.7 57.3 58.4 0.21
12-shot 56.3 73.0 66.8 79.7 37.5 44.4 54.1 59.8 56.0 58.2 57.8 59.7 12ショット 56.3 73.0 66.8 79.7 37.5 44.4 54.1 59.8 56.0 58.2 57.8 59.7 0.43
Table 4: Results across different strategies of acquiring training examples (the prompt format is fixed). 表4: トレーニング例を取得するためのさまざまな戦略(プロンプトフォーマットが固定されている)の結果。
訳抜け防止モード: 表4: 様々な戦略における結果 トレーニング例を取得する(プロンプトフォーマットが修正される)。
0.83
The language model here is GPT-2 (1.5B). 言語モデルは GPT-2 (1.5B) である。 0.71
5 Analysis Can we use our proposed acquisition in the imbalance setting? 5 分析 提案された買収を不均衡設定で利用できますか? 0.55
Extreme label imbalance is an important challenge in many non-pairwise NLP tasks (Sun et al , 2009; Zhang et al , 2017; Mussmann et al , 2020b). 極端ラベルの不均衡は多くの非ペアワイズNLPタスクにおいて重要な課題である(Sun et al , 2009; Zhang et al , 2017; Mussmann et al , 2020b)。 0.80
We set up the imbalance setting by sampling a subset with class-imbalance sample rate. クラス不均衡サンプルレートのサブセットをサンプリングすることで、不均衡設定を設定した。 0.67
For binary classification, we set the positive-class data sample rate as 1.0 and negativeclass data sample rate as 0.1. バイナリ分類では,正のクラスデータサンプルレートを1.0,負のクラスデータサンプルレートを0.1とした。 0.71
As our acquisition focuses on local sensitivity and informativeness, it tends to select examples close to the decision boundary. 我々の買収は、局所的な感度と情報性に焦点を当てているため、決定境界に近い例を選択する傾向にある。 0.60
Once too many positive examples and few negative examples are labeled, the local perturbation around negative samples are easy to be positive, and thus ALLSH selects examples that are close to the negative examples. 正の例が多すぎることと負の例が少なくなると、負のサンプルを取り巻く局所摂動は容易に正となり、ALSHは負の例に近い例を選択する。 0.79
We conduct the experiments on SST-2, IMDB, and AG News with annotation budget as 1%. SST-2,IMDB,AG Newsのアノテーション予算を1%とする実験を行った。 0.66
In Table 5, Ours3 indicates strong improvements. 表5では、Ours3が強力な改善を示している。 0.55
This further proves that our selection method can generalize better. これはさらに、選択方法がより一般化できることを証明します。 0.60
SST-2 Random 79.45 81.71 Entropy 83.23 CAL Ours 85.48 SST-2 ランダム79.45 81.71 エントロピー83.23 CAL Ours85.48 0.53
IMDB AG News 62.33 65.69 72.75 74.48 IMDB AG News 62.33 65.69 72.75 74.48 0.29
82.95 82.79 83.27 84.11 82.95 82.79 83.27 84.11 0.23
Table 5: Main results of different active learning strategies on the imbalanced SST-2, IMDB, and AG News. 表5: 不均衡なSST-2、IMDB、AG Newsにおける様々なアクティブラーニング戦略の主な成果。 0.75
Would different augmentations make meaningful difference? 異なる拡張は意味のある違いをもたらすか? 0.56
We test if our results are sensitive to the choice of augmentation: TF-IDF and backtranslation. 結果がtf-idfとバックトランスレーションの選択に敏感かどうかをテストします。 0.61
For TF-IDF, we compare the random sample augmentation and worst-case augmentation (WCA). TF-IDFでは,ランダムサンプル増量と最悪ケース増量(WCA)を比較した。 0.76
TF-IDF and Backtranslation generate diverse paraphrases while preserving the semantics TF-IDFとBacktranslationは意味を保ちながら様々なパラフレーズを生成する 0.69
3Ours in the Section 5 refers to ours + curriculum learning. セクション5の3oursは、私たちの+カリキュラム学習を指しています。 0.54
英語(論文から抽出)日本語訳スコア
Backtranslation TF-IDF + WCA バックトランスレーションtf-idf + wca 0.51
SST-2 86.01 85.97 86.37 SST-2 86.01 85.97 86.37 0.23
IMDB AG News 75.12 75.23 75.17 IMDB AG News 75.12 75.23 75.17 0.32
88.39 88.42 88.50 88.39 88.42 88.50 0.24
Table 6: Acquisition performance for different augmentations. 表6: 異なる拡張のための獲得性能。 0.78
We report results of our acquisition with different augmentations to get the local copies of the samples. サンプルのローカルコピーを取得するために,異なる拡張による買収の結果を報告する。 0.68
of the original sentences. Select-worst case augments the inputs by incorporating the approximate adversarial perturbations. 原文の1つです Select-worst の場合、近似対向摂動を組み込むことで入力を増大させる。 0.42
Table 6 indicates our method is insensitive to different augmentations. 表6は、この方法が異なる拡張に敏感でないことを示している。 0.48
We also observe that WCA achieves the highest gains on two datasets. また、WCAが2つのデータセットで最高のゲインを達成することも観察した。 0.50
This confirms our discussion in Section 2.3 that select-worst case is capable of imposing local sensitivity. これは、select-worstケースが局所的な感度を課すことができるという、セクション2.3の議論を裏付けている。 0.44
What is the influence of the choice of divergence? 発散選択の影響はどのようなものか? 0.69
We select different divergences in the statistical distance family and study their abilities in encoding different information. 統計距離系における異なる多様性を選択し,異なる情報をエンコーディングする能力について検討する。 0.66
Corresponding to Section 2.3, we present the results in Table 7. 第2.3節に対応して、結果を表7に示す。 0.67
We experiment on the KL divergence, JSD, and α-divergence (Minka et al , 2005) with the α value set as −0.5 or 0.5. 我々は,α値が −0.5 または 0.5 の kl 分岐,jsd および α-ダイバージェンス (minka et al , 2005) について実験を行った。 0.73
We notice that for our case the difference between different divergences is small. 私たちの場合、異なる相違点の違いは小さいことに気付きます。 0.81
A possible reason is that the number of class categories is small and therefore the choice of divergence does not have a large influence. 考えられる理由は、クラスカテゴリの数が少ないため、分岐の選択が大きな影響を及ぼさないためである。 0.71
Can we use the proposed acquisition with extremely few labeled data? 極めて少ないラベルデータで、提案された買収を利用できますか? 0.61
We have presented the results under very limited annotation budgets in Table 2. 結果は非常に限定的なアノテーション予算で表2に示しました。 0.72
We set the annotation budget as 0.8% and 0.4%. 注記予算を0.8%と0.4%に設定した。 0.66
The key observation is that the degradation of performance in the other acquisition functions are dramatic. 重要な観察は、他の取得関数のパフォーマンスの劣化が劇的であることである。 0.80
For example, in IMDB, the uncertainty sampling (Entropy) shows the obvious performance drop. 例えばimdbでは、不確実性サンプリング(エントロピー)が明らかなパフォーマンス低下を示している。 0.60
It suffers from the sampling bias problem because of the frequent variation of the decision boundary in the early phase of training with very few labeled data available, which results in ineffective sampling. サンプリングバイアスの問題は、トレーニングの初期段階における決定境界の頻繁なばらつきと、ラベル付きデータがほとんどないため、非効率なサンプリングが行われてしまうためである。 0.72
Even under this extreme case, our acquisition still aims to select the most informative examples for the model. この極端な場合であっても、当社の買収はモデルの最も有益な例を選択することを目的としています。
訳抜け防止モード: この極端な場合であっても、当社の買収は依然として目標だ モデルの最も有益な例を選びます
0.62
This further verifies our empirical results in Section 4.3 on prompt-based few-shot learning where only a very few in-context prompts are provided. これはさらに、ごく少数のコンテキスト内プロンプトが提供されている、プロンプトベースの少数ショット学習に関するセクション4.3で実証的な結果を検証する。 0.52
6 Related Work Active Learning Active Learning has been widely used in many applications in NLP (Lowell et al , 2018; Dor et al , 2020; Ru et al , 2020). 6 関連する仕事のアクティブラーニング アクティブラーニングは、NLP(Lowell et al , 2018; Dor et al , 2020; Ru et al , 2020)の多くのアプリケーションで広く使われている。 0.81
The uncertainty-based methods (Fletcher et al , 不確実性に基づく手法 (Fletcher et al ) 0.70
2008) have become the most common strategy. 2008年)が最も一般的な戦略となった。 0.70
KL JSD α = −0.5 α = 0.5 KL JSD α = −0.5 α = 0.5 0.38
SST-2 86.37 86.25 86.31 86.39 SST-2 86.37 86.25 86.31 86.39 0.22
IMDB AG News 77.57 77.38 77.42 77.53 IMDB AG News 77.57 77.38 77.42 77.53 0.29
88.57 88.41 88.43 88.61 88.57 88.41 88.43 88.61 0.23
Table 7: Ablation study on different choices of divergences. 表7: 発散の異なる選択に関するアブレーション研究。 0.84
We report KL, JSD, and α-divergence, and set α = ±0.5 respectively. KL, JSD, α分割をそれぞれ報告し, α = ±0.5 とする。 0.81
SST-2 IMDB SST-2 IMDB 0.36
Dataset size Random Entropy CAL Ours Dataset size Random Entropy CAL Ours 0.42
0.4% 0.8% 64.64 61.08 63.94 67.88 65.72 73.81 76.45 69.46 0.4% 0.8% 64.64 61.08 63.94 67.88 65.72 73.81 76.45 69.46 0.23
0.4% 0.8% 60.84 73.86 71.32 58.96 74.15 61.65 64.54 75.88 0.4% 0.8% 60.84 73.86 71.32 58.96 74.15 61.65 64.54 75.88 0.23
Table 8: Results on the SST-2 and IMDB datasets under limited annotation budget (0.4%, 0.8%). 表8: sst-2 および imdb データセットのアノテーション予算(0.4%、0.8%)による結果。 0.65
Instead of only considering uncertainty, diversity sampling has also become an alternative direction. 不確実性のみを考慮する代わりに、多様性サンプリングも代替の方向となっている。 0.63
Recent works (Geifman and El-Yaniv, 2017; Sener and Savarese, 2017; Ash et al , 2020; Yuan et al , 2020) focus on different parts of diversity. 最近の作品(Geifman and El-Yaniv, 2017; Sener and Savarese, 2017; Ash et al , 2020; Yuan et al , 2020)は多様性の異なる部分に焦点を当てている。 0.89
Most recent works (e g Zhang and Plank, 2021; Margatina et al , 2021) have been more on exploiting the model behavior and each individual instance. 最近の作品(g zhang and plank, 2021; margatina et al , 2021)はモデルの振る舞いと個々のインスタンスの活用に重点を置いている。 0.75
Our work focuses more on the local sensitivity and informativeness of data, leading to better performance under various limited annotation settings. 我々の研究は、データの局所的な感度と情報提供に重点を置いており、様々な限定的なアノテーション設定下での性能向上につながっている。 0.55
Annotation Budgeting Annotation budgeting with learning has long been studied (Turney, 2002). アノテーション予算化 学習によるアノテーション予算化は以前から研究されてきた(turney, 2002)。 0.59
Sheng et al (2008) study the tradeoff between collecting multiple labels per example versus annotating more examples. sheng et al (2008) は、サンプル毎に複数のラベルを収集することと、より多くの例を注釈することの間のトレードオフについて研究している。
訳抜け防止モード: Sheng et al (2008 ) によるトレードオフの研究 サンプルごとに複数のラベルを収集します
0.64
On the other hand, different labeling strategies such as providing fine-grained rationales (Dua et al , 2020), active learning (Kirsch et al , 2019), and the training dynamics approach (Swayamdipta et al , 2020) are studied. 一方,きめ細かい理論(dua et al ,2020),アクティブラーニング(kirsch et al ,2019),トレーニングダイナミクスアプローチ(swayamdipta et al ,2020)など,異なるラベリング戦略が研究されている。
訳抜け防止モード: 一方で,きめ細かな根拠を提供する(dua et al, 2020)など,異なるラベリング戦略が提案されている。 アクティブラーニング(kirsch et al, 2019)とトレーニングダイナミクスアプローチ(swayamdipta et al, 2020)について研究した。
0.76
Except standard classification, class-imbalance (Mussmann et al , 2020a) or noisy label cases (Fan et al , 2021; Chen et al , 2021) have also been explored. 標準分類を除いて、クラスバランス(Mussmann et al , 2020a)、またはノイズラベル(Fan et al , 2021; Chen et al , 2021)も検討されている。 0.84
We utilize active learning to explore the labeling strategies and aim to select the most informative data for annotations. アクティブラーニングを利用してラベル付け戦略を探索し、アノテーションの最も情報性の高いデータを選択することを目的としている。
訳抜け防止モード: 能動的学習の活用 ラベル付け戦略を探求し アノテーションの最も情報性の高いデータを選択することを目指している。
0.65
7 Conclusion Our work demonstrates the benefits of introducing local sensitivity and learning from easy to hard into the acquisition strategy. 7 結論 我々の研究は、買収戦略にローカルな感度と学習を導入する利点を実証している。 0.68
The proposed acquisition function shows noticeable gains in performance across classification tasks and prompt-based fewshot learning. 提案する獲得関数は、分類タスクとプロンプトベースのマイトショット学習における性能の顕著な向上を示す。 0.69
In this work, we conduct the detailed study with the proposed acquisition strategy 本研究では,提案する買収戦略を用いて詳細な研究を行う。 0.80
英語(論文から抽出)日本語訳スコア
in different settings, including imbalanced and extremely limited labels. 不均衡なラベルや 極端に限られたラベルなどです 0.57
We also verify the impact of different choice of designs such as the choice of divergence and augmentations. また,多様性の選択や拡張など,異なるデザインの選択の影響についても検証する。 0.82
To summarize, the proposed ALLSH is effective and general, with the potential to be incorporated into existing models for various NLP tasks. 要約すると、提案するALLSHは、様々なNLPタスクのための既存のモデルに組み込む可能性があり、効果的で一般的なものである。 0.66
Acknowledgements S. Zhang and M. Zhou acknowledge the support of NSF IIS-1812699 and Texas Advanced Computing Center. S. Zhang と M. Zhou は NSF IIS-1812699 と Texas Advanced Computing Center のサポートを認めている。 0.80
References Jordan T. Ash, Chicheng Zhang, Akshay Krishnamurthy, John Langford, and Alekh Agarwal. 参照: Jordan T. Ash, Chicheng Zhang, Akshay Krishnamurthy, John Langford, Alekh Agarwal。 0.40
2020. Deep batch active learning by diverse, uncertain gradient lower bounds. 2020. 多様な不確実な勾配下界による深部バッチ能動学習 0.55
In International Conference on Learning Representations. 学習表現に関する国際会議に参加。 0.79
Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E HinarXiv preprint ジミー・レイ・バ、ジェイミー・ライアン・キロス、ジェフリー・e・ヒナルキivプレプリント 0.46
ton. 2016. Layer normalization. トン 2016. 層正規化。 0.46
arXiv:1607.06450. arXiv:1607.06450。 0.24
Yoshua Bengio, Jérôme Louradour, Ronan Collobert, and Jason Weston. Yoshua Bengio、Jérôme Louradour、Ronan Collobert、Jason Weston。 0.66
2009. Curriculum learning. 2009. カリキュラム学習。 0.55
In Proceedings of the 26th annual international conference on machine learning, pages 41–48. 第26回年次機械学習国際会議の議事録41-48頁。 0.69
David Berthelot, Nicholas Carlini, Ekin D Cubuk, Alex Kurakin, Kihyuk Sohn, Han Zhang, and Colin Raffel. david berthelot氏、nicholas carlini氏、ekin d cubuk氏、alex kurakin氏、kihyuk sohn氏、han zhang氏、colin raffel氏。 0.62
2019a. Remixmatch: Semi-supervised learning with distribution alignment and augmentation anchoring. 2019年。 Remixmatch: 分散アライメントと拡張アンカーによる半教師付き学習。 0.73
arXiv preprint arXiv:1911.09785. arXiv preprint arXiv:1911.09785 0.36
David Berthelot, Nicholas Carlini, Ian Goodfellow, Nicolas Papernot, Avital Oliver, and Colin Raffel. david berthelot、nicholas carlini、ian goodfellow、nicolas papernot、avital oliver、colin raffel。 0.54
2019b. Mixmatch: A holistic approach arXiv preprint to semi-supervised learning. 2019年。 Mixmatch: 半教師付き学習のための総合的なアプローチ。 0.62
arXiv:1905.02249. arXiv: 1905.02249。 0.47
Avrim Blum and Shuchi Chawla. Avrim BlumとShuchi Chawla。 0.37
2001. Learning from 2001. 学ぶこと 0.52
labeled and unlabeled data using graph mincuts. グラフミンカットを用いたラベル付きおよびラベルなしデータ。 0.60
Zalán Bodó, Zsolt Minier, and Lehel Csató. Zalán Bodó、Zsolt Minier、Lehel Csató。 0.32
2011. AcIn Active Learning tive learning with clustering. 2011. acin active learning tive learning with clustering(英語) 0.40
and Experimental Design workshop In conjunction with AISTATS 2010, pages 127–139. 実験デザインワークショップ AISTATS 2010, page 127-139。 0.55
JMLR Workshop and Conference Proceedings. JMLRワークショップと会議の開催。 0.82
Samuel R. Bowman, Gabor Angeli, Christopher Potts, and Christopher D. Manning. サミュエル・R・ボウマン、ガボル・アンジェリ、クリストファー・ポッツ、クリストファー・D・マニング。 0.36
2015. A large annotated corpus for learning natural language inference. 2015. 自然言語推論を学ぶための大きな注釈付きコーパス。 0.58
Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP), abs/1508.05326. 自然言語処理における経験的手法に関する会議(EMNLP, abs/1508.05326)の開催報告 0.65
Olivier Chapelle, オリヴィエ・チャペル。 0.55
Jason Weston, ジェイソン・ウェストン 0.63
and Bernhard Schölkopf. ベルンハルト・シェールコップです 0.40
2002. semisupervised learning. 2002. 半監督学習。 0.49
In Advances in neural information processing systems. 神経情報処理システムの進歩です 0.61
Citeseer. Cluster kernels シーザー。 クラスタカーネル 0.54
for Derek Chen, Zhou Yu, and Samuel R Bowman. ですから デレク・チェン、周雄、サミュエル・R・ボウマン。 0.48
2021. Learning with noisy labels by targeted relabeling. 2021. ターゲットのrelabelingによるノイズラベルによる学習。 0.54
arXiv preprint arXiv:2110.08355. arXiv preprint arXiv:2110.08355 0.36
Aron Culotta and Andrew McCallum. aron culotta と andrew mccallum。 0.57
2005. Reducing labeling effort for structured prediction tasks. 2005. 構造化予測タスクのラベリング労力の削減。 0.55
In AAAI, volume 5, pages 746–751. AAAI』第5巻、746-751頁。 0.30
Ido Dagan, Oren Glickman, and Bernardo Magnini. Ido Dagan、Oren Glickman、Bernardo Magnini。 0.66
2005. The pascal recognising textual entailment challenge. 2005. pascal recogning textual entailment challenge の略。 0.58
In Machine Learning Challenges Workshop, pages 177–190. 機械学習チャレンジワークショップの177-190ページ。 0.78
Springer. Shrey Desai and Greg Durrett. Springer Shrey DesaiとGreg Durrett。 0.53
2020. Calibration of pre-trained transformers. 2020. 予訓練変圧器の校正 0.59
Conference on Empirical Methods in Natural Language Processing, abs/2003.07892. 自然言語処理における経験的手法に関する国際会議, abs/2003.07892 0.54
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.38
2018. Bert: pre-training of deep bidirectional transformers for language understanding. 2018. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.61
arxiv. arXiv preprint arXiv:1810.04805. arxiv。 arXiv preprint arXiv:1810.04805 0.38
Liat Ein Dor, Alon Halfon, Ariel Gera, Eyal Shnarch, Lena Dankin, Leshem Choshen, Marina Danilevsky, Ranit Aharonov, Yoav Katz, and Noam Slonim. Liat Ein Dor, Alon Halfon, Ariel Gera, Eyal Shnarch, Lena Dankin, Leshem Choshen, Marina Danilevsky, Ranit Aharonov, Yoav Katz, Noam Slonim 0.36
2020. Active learning for bert: An empirical study. 2020. バートのための活発な学習:実証的研究。 0.57
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 7949–7962. 自然言語処理における経験的手法に関する2020年会議(emnlp)の議事録7949-7962頁。 0.69
Dheeru Dua, Sameer Singh, and Matt Gardner. ドゥア、サマー・シン、マット・ガードナー。 0.40
2020. Benefits of intermediate annotations in reading comIn Proceedings of the Annual Meetprehension. 2020. 年次大会の講習会における中間アノテーションの活用 0.44
ing of the Association for Computational Linguistics (ACL). association for computational linguistics (acl) の略称。 0.61
Melanie Ducoffe and Frederic Precioso. メラニー・デュコフとフレデリック・プレシオソ 0.51
2018. Adversarial active learning for deep networks: a margin based approach. 2018. ディープネットワークのためのadversarial active learning: マージンベースのアプローチ。 0.60
arXiv preprint arXiv:1802.09841. arXiv preprint arXiv:1802.09841 0.36
Sergey Edunov, Myle Ott, Michael Auli, and David Grangier. Sergey Edunov、Myle Ott、Michael Auli、David Grangier。 0.35
2018. Understanding back-translation at scale. 2018. 逆翻訳を大規模に理解する。 0.44
arXiv preprint arXiv:1808.09381. arXiv preprint arXiv:1808.09381 0.36
Dominik Maria Endres and Johannes E Schindelin. ドミニク・マリア・エンドレスとヨハネス・エ・シンデリン。 0.49
A new metric for probability distribuIEEE Transactions on Information theory, 情報理論における確率分散IEEEトランザクションの新しい指標 0.76
2003. tions. 2003. イオンだ 0.34
49(7):1858–1860. 49(7):1858–1860. 0.41
Xinjie Fan, Shujian Zhang, Bo Chen, and Mingyuan Zhou. シンジーファン、シュジアン・チャン、ボー・チェン、明元周。 0.51
2020. Bayesian attention modules. 2020. ベイジアン注意モジュール。 0.54
arXiv preprint arXiv:2010.10604. arXiv preprint arXiv:2010.10604 0.35
Olivier Chapelle, Bernhard Scholkopf, and Alexander Zien. Olivier Chapelle、Bernhard Scholkopf、Alexander Zien。 0.33
2009. Semi-supervised learning (chapelle, o. et al , eds.; 2006)[book reviews]. 2009. 半教師付き学習(chapelle, o. et al , eds.; 2006)[書籍レビュー]。 0.55
IEEE Transactions on Neural Networks, 20(3):542–542. IEEE Transactions on Neural Networks, 20(3):542–542。 0.45
Xinjie Fan, Shujian Zhang, Korawat Tanwisuth, Xiaoning Qian, and Mingyuan Zhou. シンジーファン、シュジアン・チャン、コラワト・タンウィスス、キョン・カイアン、明元周。 0.48
2021. Contextual dropout: An efficient sample-dependent dropout module. 2021. context dropout: 効率的なサンプル依存ドロップアウトモジュール。 0.60
arXiv preprint arXiv:2103.04181. arXiv preprint arXiv:2103.04181 0.35
英語(論文から抽出)日本語訳スコア
Mahyar Fazlyab, Alexander Robey, Hamed Hassani, Manfred Morari, and George J Pappas. マハール・ファズリャブ、アレクサンダー・ロビー、ハメド・ハッサーニ、マンフレッド・モラーリ、ジョージ・j・パパス。 0.48
2019. Efficient and accurate estimation of lipschitz conarXiv preprint stants for deep neural networks. 2019. ディープニューラルネットワークのためのlipschitz conarxivプリプリントステントの効率的・高精度推定 0.52
arXiv:1906.04893. arXiv:1906.04893。 0.48
Elisa Ferracane, Greg Durrett, Junyi Jessy Li, and Katrin Erk. elisa ferracane、greg durrett、junyi jessy li、katrin erk。 0.45
2021. Did they answer? 2021. 答えは? 0.32
subjective acts and intents in conversational discourse. 会話における主観的な行為と意図。 0.69
In Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, pages 1626–1644, Online. the association for computational linguistics: human language technologies, pages 1626–1644, online. 2021 conference of the north american chapter of the association for computational linguistics: human language technologies, pp. 1626–1644
訳抜け防止モード: 計算言語学会北米支部2021年会紀要 : 人間言語技術 1626-1644頁、オンライン。
0.46
Association for Computational Linguistics. Alyson K Fletcher, Sundeep Rangan, and Vivek K Goyal. 計算言語学会会員。 Alyson K Fletcher、Sundeep Rangan、Vivek K Goyal。 0.44
2008. Resolution limits of sparse coding in high dimensions. 2008. 高次元におけるスパース符号化の分解能限界 0.56
In NIPS, pages 449–456. NIPS 449-456頁。 0.30
Mingfei Gao, Zizhao Zhang, Guo Yu, Sercan Ö Arık, Larry S Davis, and Tomas Pfister. mingfei gao、zizhao zhang、guo yu、sercan ö arık、larry s davis、tomas pfister。
訳抜け防止モード: Mingfei Gao, Zizhao Zhang, Guo Yu, Sercan . Arık ラリー・S・デイビスとトーマス・ファイスター。
0.72
2020. Consistency-based semi-supervised active learning: In European Towards minimizing labeling cost. 2020. 一貫性に基づく半教師付きアクティブラーニング:ヨーロッパにおけるラベリングコストの最小化に向けて 0.48
Conference on Computer Vision, pages 510–526. コンピュータビジョン会議、510-526頁。 0.80
Springer. Yonatan Geifman and Ran El-Yaniv. Springer ヨナタン・ガイフマンとエル・ヤニウ。 0.38
2017. Deep acarXiv preprint 2017. Deep acarXiv プレプリント 0.63
tive learning over the long tail. 長い尾で学習する能力です 0.55
arXiv:1711.00941. arXiv:1711.00941。 0.48
Daniel Gissin and Shai Shalev-Shwartz. Daniel GissinとShai Shalev-Shwartz。 0.43
2019. DisarXiv preprint 2019. DisarXiv プレプリント 0.59
criminative active learning. 批判的な積極的学習です 0.36
arXiv:1907.06347. arXiv:1907.06347。 0.24
Chengyue Gong, Tongzheng Ren, Mao Ye, and Qiang Liu. チェンジュ・ゴン、トンシェン・レン、毛沢東、チアン・リウ。 0.42
2020. Maxup: A simple way to improve generalization of neural network training. 2020. maxup: ニューラルネットワークトレーニングの一般化を改善するための簡単な方法。 0.60
arXiv preprint arXiv:2002.09024. arXiv preprint arXiv:2002.09024 0.36
Diederik P Kingma and Jimmy Ba. ディーデリック・P・キングマとジミー・バ。 0.40
2014. Adam: A method for stochastic optimization. 2014. Adam: 確率最適化の方法です。 0.56
arXiv preprint arXiv:1412.6980. arXiv preprint arXiv:1412.6980 0.36
Andreas Kirsch, Joost Van Amersfoort, and Yarin Gal. アンドレアス・キルシュ(Andreas Kirsch)、ジョスト・ヴァン・アマースフルト(Joost Van Amersfoort)、ヤリン・ガル(Yarrin Gal)。 0.39
2019. Batchbald: Efficient and diverse batch acquisition for deep bayesian active learning. 2019. Batchbald: 深くベイジアンな学習のための効率的で多様なバッチ取得。 0.57
Advances in neural information processing systems, 32:7026– 7037. ニューラル情報処理システムの進歩、32:7026–7037。 0.75
Solomon Kullback and Richard A Leibler. ソロモン・クルバックとリチャード・ア・ライバー。 0.56
1951. On information and sufficiency. 1951. 情報と充足性について。 0.46
The annals of mathematical statistics, 22(1):79–86. 数理統計学の年代記 22(1):79–86。 0.75
Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, and Radu Soricut. Zhenzhong Lan, Mingda Chen, Sebastian Goodman, Kevin Gimpel, Piyush Sharma, Radu Soricut 0.35
2019. Albert: A lite bert for self-supervised learnarXiv preprint ing of language representations. 2019. albert: 言語表現の自己教師付きlearnerxivプレプリントイングのためのlite bert。 0.57
arXiv:1909.11942. 略称1909.11942。 0.31
Qi Lei, Lingfei Wu, Pin-Yu Chen, Alexandros G Dimakis, Inderjit S Dhillon, and Michael Witbrock. Qi Lei、Lingfei Wu、Pin-Yu Chen、Alexandros G Dimakis、Inderjit S Dhillon、Michael Witbrock。 0.36
2018. Discrete adversarial attacks and submodular optimization with applications to text classification. 2018. テキスト分類への応用による離散的逆攻撃とサブモジュラー最適化 0.59
arXiv preprint arXiv:1812.00151. arXiv preprint arXiv:1812.00151 0.36
David D Lewis and William A Gale. デビッド・d・ルイスと ウィリアム・ア・ゲイル 0.53
1994. A sequenIn SI- 1994. シークエンInSI- 0.50
tial algorithm for training text classifiers. テキスト分類器の訓練のためのtialアルゴリズム 0.74
GIR’94, pages 3–12. GIR'94, 3-12頁。 0.36
Springer. David Lowell, Zachary C Lipton, and Byron C Wallace. Springer デヴィッド・ローウェル、ザカリー・C・リプトン、バイロン・C・ウォレス。 0.38
2018. Practical obstacles to deploying active learning. 2018. アクティブな学習を展開するための実践的な障害。 0.49
arXiv preprint arXiv:1807.04801. arXiv preprint arXiv:1807.04801 0.36
Andrew Maas, Raymond E Daly, Peter T Pham, Dan Huang, Andrew Y Ng, and Christopher Potts. Andrew Maas、Raymond E Daly、Peter T Pham、Dan Huang、Andrew Y Ng、Christopher Potts。 0.70
2011. Learning word vectors for sentiment analysis. 2011. 感情分析のための単語ベクトルの学習 0.60
In Proceedings of the 49th annual meeting of the association for computational linguistics: Human language technologies, pages 142–150. 計算言語学協会第49回年次大会(Proceedings of the 49th year meeting for the Association for Computer Languages: Human Language Technology, page 142–150)に登場。 0.57
Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. アレクサンデル・マドリー、アレクサンダル・メイドロフ、ルートヴィヒ・シュミット、ディミトリス・ツィプラ、エイドリアン・ヴラドゥ。 0.54
2017. Towards deep learning models resistant to adversarial attacks. 2017. 敵対的攻撃に抵抗するディープラーニングモデルに向けて 0.55
arXiv preprint arXiv:1706.06083. arXiv preprint arXiv:1706.06083 0.36
Katerina Margatina, Giorgos Vernikos, Loïc Barrault, and Nikolaos Aletras. カテリーナ・マルガティナ、ジョルゴス・ヴェルニコス、ロシック・バロー、ニコラオス・アレトラス。 0.43
2021. Active learning by arXiv preprint acquiring contrastive examples. 2021. arXivプレプリントによるアクティブラーニングは、対照的な例を取得する。 0.47
arXiv:2109.03764. arXiv:2109.03764。 0.24
Tom Minka et al 2005. トム・ミンカと2005年。 0.76
Divergence measures and mes- ダイバージェンス対策とmes- 0.68
sage passing. Technical report, Citeseer. セージ・パス テクニカルレポート、citeseer。 0.42
Takeru Miyato, Shin-ichi Maeda, Masanori Koyama, and Shin Ishii. 宮戸武、前田新一、小山正則、石井新。 0.42
2018. Virtual adversarial training: a regularization method for supervised and semiIEEE transactions on patsupervised learning. 2018. virtual adversarial training: patsupervised learningにおける教師およびセミエイエトランザクションの正規化手法。 0.57
tern analysis and machine intelligence, 41(8):1979– 1993. tern analysis and machine intelligence, 41(8):1979–1993)を参照。 0.78
Stephen Mussmann, Robin Jia, and P. Liang. Stephen Mussmann、Robin Jia、P. Liang。 0.38
2020a. On the importance of adaptive data collection for exIn Conference tremely imbalanced pairwise tasks. 2020年。 exin会議における適応的データ収集の重要性について 0.69
on Empirical Methods in Natural Language Processing. 自然言語処理における経験的手法について 0.60
Stephen Mussmann, Robin Jia, and Percy Liang. Stephen Mussmann、Robin Jia、Percy Liang。 0.32
2020b. On the importance of adaptive data collection for extremely imbalanced pairwise tasks. 2020年。 極端に不均衡なペアワイズタスクに対する適応データ収集の重要性について 0.73
arXiv preprint arXiv:2010.05103. arXiv preprint arXiv:2010.05103 0.36
Nathan Ng, Kyra Yee, Alexei Baevski, Myle Ott, Michael Auli, and Sergey Edunov. ネイサン・ng、キラ・イェー、アレクセイ・バエフスキ、マイレ・オット、マイケル・アウリ、セルゲイ・エドゥノフ。 0.41
2019. Facebook fair’s wmt19 news translation task submission. 2019. facebook fairのwmt19ニュース翻訳タスクの提出。 0.61
arXiv preprint arXiv:1907.06616. arXiv preprint arXiv:1907.06616 0.36
Yixin Nie, Xiang Zhou, and Mohit Bansal. Yixin Nie、Xiang Zhou、Mohit Bansal。 0.30
2020. What can we learn from collective human opinions on natural language inference data? 2020. 自然言語推論データに関する人間集団の意見から何が学べるだろうか? 0.63
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP), pages 9131–9143. 自然言語処理における経験的手法(emnlp)に関する2020年の会議では、9131-9143ページが扱われた。
訳抜け防止モード: 自然言語処理における経験的手法に関する2020年会議(EMNLP)の開催報告 9131-9143頁。
0.71
Ellie Pavlick and Tom Kwiatkowski. Ellie PavlickとTom Kwiatkowski。 0.40
2019. Inherent disagreements in human textual inferences. 2019. 人間のテキスト推論に固有の不一致。 0.51
Transactions of the Association for Computational Linguistics, 7:677–694. 計算言語学協会 (association for computational linguistics) 7:677–694。 0.59
Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers, John Thickstun, Sean Welleck, Yejin Choi, and Zaid Harchaoui. Krishna Pillutla, Swabha Swayamdipta, Rowan Zellers, John Thickstun, Sean Welleck, Yejin Choi, Zaid Harchaoui 0.36
2021. Mauve: Measuring the gap between neural text and human text using divergence frontiers. 2021. mauve: ダイバージェンスフロンティアを使って、ニューラルネットワークと人間のテキストのギャップを測定する。 0.52
Advances in Neural Information Processing Systems, 34. 神経情報処理システムの進歩34。 0.61
英語(論文から抽出)日本語訳スコア
Alec Radford, Karthik Narasimhan, Tim Salimans, and Improving language under- Alec Radford, Karthik Narasimhan, Tim Salimans, and Improving Language Under- 0.45
Ilya Sutskever. ilya sutskever所属。 0.67
2018. standing by generative pre-training. 2018. 生成前訓練による立位。 0.55
Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al 2019. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever, et al 2019
訳抜け防止モード: アレク・ラドフォード ジェフリー・ウー ルーオン・チャイルド デビッド・ルーアン dario amodei, ilya sutskever, et al 2019など。
0.58
Language models are unsupervised multitask learners. 言語モデルは教師なしマルチタスク学習者である。 0.60
OpenAI blog, 1(8):9. OpenAIブログ、1(8):9。 0.81
Pranav Rajpurkar, Jian Zhang, Konstantin Lopyrev, and Percy Liang. Pranav Rajpurkar、Jian Zhang、Konstantin Lopyrev、Percy Liang。 0.31
2016. Squad: 100, 000+ questions for machine comprehension of text. 2016. Squad: 機械によるテキスト理解のための100,000以上の質問。 0.56
In Proceedings of the Conference on Empirical Methods in Natural Language Processing (EMNLP). 自然言語処理における経験的手法に関する国際会議(EMNLP)に参加して 0.71
Dongyu Ru, Jiangtao Feng, Lin Qiu, Hao Zhou, Mingxuan Wang, Weinan Zhang, Yong Yu, and Lei Li. Dongyu Ru, Jiangtao Feng, Lin Qiu, Hao Zhou, Mingxuan Wang, Weinan Zhang, Yong Yu, Lei Li
訳抜け防止モード: ドンギュル、ジャンタオ・フェン、リン・チーウ、ホー・ジュ Mingxuan Wang、Weinan Zhang、Yong Yu、Lei Liらだ。
0.62
2020. Active sentence learning by adversarial uncertainty sampling in discrete space. 2020. 離散空間における逆不確実性サンプリングによる能動文学習 0.51
arXiv preprint arXiv:2004.08046. arXiv preprint arXiv:2004.08046 0.36
Mehdi Sajjadi, Mehran Javanmardi, and Tolga Tasdizen. mehdi sajjadi、mehran javanmardi、torga tasdizen。 0.39
2016. Regularization with stochastic transformations and perturbations for deep semi-supervised learning. 2016. 半教師あり深層学習のための確率変換と摂動による正規化 0.49
Advances in neural information processing systems, 29:1163–1171. 神経情報処理システムの進歩、29:1163–1171。 0.69
Kevin Scaman and Aladin Virmaux. ケビン・スカマンとアラディン・ビロー 0.53
2018. Lipschitz regularity of deep neural networks: analysis and efficient estimation. 2018. ディープニューラルネットワークのリプシッツ正則性:解析と効率的な推定 0.57
arXiv preprint arXiv:1805.10965. arXiv preprint arXiv:1805.10965 0.36
Matthias Seeger. マティアス・シーガー。 0.43
2000. Learning with labeled and un- 2000. ラベル付きとunで学ぶ 0.61
labeled data. Ozan Sener and Silvio Savarese. ラベル付きデータ。 オザン・セナーとシルヴィオ・サヴァレーゼ。 0.63
2017. Active learning for convolutional neural networks: A core-set approach. 2017. 畳み込みニューラルネットワークのためのアクティブラーニング:コアセットアプローチ 0.58
arXiv preprint arXiv:1708.00489. arXiv preprint arXiv:1708.00489 0.36
Rico Sennrich, B. Haddow, and Alexandra Birch. リコ・センリッヒ、b・ハドウ、アレクサンドラ・バーチ。 0.52
2016. Improving neural machine translation models with monolingual data. 2016. 単言語データによるニューラルマシン翻訳モデルの改善 0.63
ArXiv, abs/1511.06709. arxiv、abs/1511.06709。 0.51
Burr Settles. Burr Settles の略。 0.56
2009. Active learning literature survey. 2009. アクティブラーニング文学のサーベイ。 0.55
V. Sheng, F. Provost, and Panagiotis G. Ipeirotis. V. Sheng、F. Provost、Panagiotis G. Ipeirotis。 0.86
2008. Get another label? 2008. 別のラベルは? 0.57
improving data quality and data mining using multiple, noisy labelers. 複数のノイズラベルを用いたデータ品質とデータマイニングの改善。 0.78
Jasdeep Singh, Bryan McCann, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. Jasdeep Singh、Bryan McCann、Nitish Shirish Keskar、Caiming Xiong、Richard Socher。 0.36
2019. Xlda: lanCross-lingual data augmentation for natural arXiv guage inference and question answering. 2019. xlda: 自然なarxivガベージ推論と質問応答のためのランクロス言語データ拡張。 0.53
preprint arXiv:1905.11471. プレプリントarxiv:1905.11471。 0.34
Richard Socher, Alex Perelygin, Jean Wu, Jason Chuang, Christopher D Manning, Andrew Y Ng, and Christopher Potts. Richard Socher、Alex Perelygin、Jean Wu、Jason Chuang、Christopher D Manning、Andrew Y Ng、Christopher Potts。 0.73
2013. Recursive deep models for semantic compositionality over a sentiment treebank. 2013. 感情木バンク上の意味的構成性の再帰的深部モデル 0.52
In Proceedings of the 2013 conference on empirical methods in natural language processing, pages 1631–1642. 自然言語処理における経験的手法に関する2013年の会議では、1631-1642頁を著した。
訳抜け防止モード: 自然言語処理における経験的手法に関する2013年会議のまとめ 1631-1642頁。
0.78
Kihyuk Sohn, David Berthelot, Nicholas Carlini, Zizhao Zhang, Han Zhang, Colin A Raffel, Ekin Dogus Cubuk, Alexey Kurakin, and Chun-Liang Li. Kihyuk Sohn、David Berthelot、Nicholas Carlini、Zizhao Zhang、Han Zhang、Colin A Raffel、Ekin Dogus Cubuk、Alexey Kurakin、Chun-Liang Li。 0.78
2020. Fixmatch: Simplifying semi-supervised learning with consistency and confidence. 2020. Fixmatch: 一貫性と信頼性を備えた半教師付き学習の簡略化。 0.49
Advances in Neural Information Processing Systems, 33. 神経情報処理システムの進歩33。 0.59
Aixin Sun, Ee-Peng Lim, and Ying Liu. Aixin Sun、Ee-Peng Lim、Ying Liu。 0.81
2009. On strategies for imbalanced text classification using svm: A comparative study. 2009. svmを用いた不均衡テキスト分類の戦略について:比較研究 0.63
Decision Support Systems, 48(1):191–201. 意思決定支援システム 48(1):191–201。 0.79
Swabha Swayamdipta, Roy Schwartz, Nicholas Lourie, Yizhong Wang, Hannaneh Hajishirzi, Noah A. Smith, and Yejin Choi. Swabha Swayamdipta、Roy Schwartz、Nicholas Lourie、Yizhong Wang、Hannaneh Hajishirzi、Noah A. Smith、Yejin Choi。 0.75
2020. Dataset cartography: Mapping and diagnosing datasets with training dyIn Conference on Empirical Methods in namics. 2020. dataset cartography: トレーニングdyin conference on empirical methods in namicsによるデータセットのマッピングと診断。 0.65
Natural Language Processing. Antti Tarvainen and Harri Valpola. 自然言語処理。 Antti TarvainenとHarri Valpola。 0.56
2017. Mean teachers are better role models: Weight-averaged consistency targets improve semi-supervised deep learning In Proceedings of the 31st International results. 2017. 平均教師は、より良いロールモデルである: 重量平均一貫性の目標が、31回目の国際結果の手続きにおいて半教師付きディープラーニングを改善する。
訳抜け防止モード: 2017. 平均教師はより良いロールモデルである 第31回国際実験の結果から, 平均的整合性目標が半教師付き深層学習を改善すること。
0.52
Conference on Neural Information Processing Systems, pages 1195–1204. 神経情報処理システム学会 1195-1204頁。 0.58
Peter D. Turney. ピーター・d・ターニー 0.63
2002. Types of cost in inductive con- 2002. インダクティブコンダクタにおけるコストの種類- 0.57
cept learning. ArXiv, cs.LG/0212034. 感覚学習。 ArXiv, cs.LG/0212034。 0.48
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Sukasz Kaiser、Illia Polosukhin。
訳抜け防止モード: ashish vaswani, noam shazeer, niki parmar, jakob uszkoreit, リオン・ジョーンズ、エイダン・ン・ゴメス、ウカシュ・カイザー、イリア・ポロスクヒン。
0.40
2017. Attention is all In Advances in neural information proyou need. 2017. 注意はすべて、必要なニューラルネットワークの進歩にある。 0.52
cessing systems, pages 5998–6008. システム停止、5998-6008頁。 0.48
Ellen M Voorhees and Dawn M Tice. ellen m voorhees と dawn m tice を参照。 0.59
2000. Building a question answering test collection. 2000. テストコレクションに答える質問を構築する。 0.62
In Proceedings of the 23rd annual international ACM SIGIR conference on Research and development in information retrieval, pages 200–207. 第23回国際情報検索研究開発会議(acm sigir conference on research and development in information retrieval)第200-207頁。 0.75
Alex Wang, Amanpreet Singh, Julian Michael, Felix Hill, Omer Levy, and Samuel R Bowman. アレックス・ワン、アマンプレット・シン、ジュリアン・マイケル、フェリックス・ヒル、オマー・レヴィ、サミュエル・r・ボウマン。 0.40
2018a. Glue: A multi-task benchmark and analysis platform for natural language understanding. 2018年。 Glue: 自然言語理解のためのマルチタスクベンチマークと分析プラットフォーム。 0.68
arXiv preprint arXiv:1804.07461. arXiv preprint arXiv:1804.07461 0.36
Haotao Wang, Chaowei Xiao, Jean Kossaifi, Zhiding Yu, Anima Anandkumar, and Zhangyang Wang. Haotao Wang、Chaowei Xiao、Jean Kossaifi、Zhiding Yu、Anima Anandkumar、Zhangyang Wang。 0.33
2021. Augmax: Adversarial composition of random In Thirty-Fifth augmentations for robust training. 2021. Augmax: 頑健なトレーニングのためのランダムなIn Thirty-Fifth強化の逆合成。 0.50
Conference on Neural Information Processing Systems. ニューラル情報処理システムに関する会議 0.68
Huan Wang, Nitish Shirish Keskar, Caiming Xiong, and Richard Socher. Huan Wang、Nitish Shirish Keskar、Caiming Xiong、Richard Socher。 0.36
2018b. Identifying generalization properties in neural networks. 2018年。 ニューラルネットワークにおける一般化特性の同定 0.61
arXiv preprint arXiv:1809.07402. arXiv preprint arXiv:1809.07402 0.36
Thomas Wolf, Julien Chaumond, Lysandre Debut, Victor Sanh, Clement Delangue, Anthony Moi, Pierric Cistac, Morgan Funtowicz, Joe Davison, Sam Shleifer, et al 2020. thomas wolf、julien chaumond、lysandre debut、victor sanh、clement delangue、anthony moi、pierric cistac、morgan funtowicz、joe davison、sam shleiferなど。
訳抜け防止モード: トーマス・ウルフ、ジュリアン・チャウモンド、リサンドル・デビュー、ヴィクター・サン。 clement delangue、anthony moi、pierric cistac、morgan funtowicz。 joe davison, sam shleifer, et al 2020など。
0.72
Transformers: State-of-theart natural language processing. Transformers: 最先端の自然言語処理。 0.78
In Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45. 自然言語処理における経験的手法に関する2020年会議の議事録:システムデモ、38-45頁。
訳抜け防止モード: 自然言語処理における実証的手法に関する2020年会議の成果 : システムデモ 38-45頁。
0.84
Qizhe Xie, Zihang Dai, E. Hovy, Minh-Thang Luong, and Quoc V. Le. Qizhe Xie, Zihang Dai, E. Hovy, Minh-Thang Luong, Quoc V. Le 0.44
2020. Unsupervised data augmentation for consistency training. 2020. 一貫性トレーニングのための教師なしデータ拡張。 0.45
arXiv: Learning. arXiv: 学習です。 0.90
英語(論文から抽出)日本語訳スコア
in neural information processing systems, pages 321–328. 神経情報処理システムでは、321-328ページ。 0.77
Xiaojin Zhu, Zoubin Ghahramani, and John D Lafferty. Xiaojin Zhu, Zoubin Ghahramani, John D Lafferty。 0.35
2003. Semi-supervised learning using gaussian fields and harmonic functions. 2003. ガウス場と調和関数を用いた半教師付き学習 0.51
In Proceedings of the 20th International conference on Machine learning (ICML-03), pages 912–919. 第20回機械学習国際会議(icml-03)の議事録912-919頁。 0.69
Zhao Xu, Kai Yu, Volker Tresp, Xiaowei Xu, and Jizhi Wang. Zhao Xu, Kai Yu, Volker Tresp, Xiaowei Xu, Jizhi Wang 0.33
2003. Representative sampling for text classification using support vector machines. 2003. サポートベクトルマシンを用いたテキスト分類のための代表サンプリング 0.63
In European conference on information retrieval, pages 393–407. 欧州情報検索会議において、393-407頁。 0.72
Springer. Zhaozhuo Xu, Beidi Chen, Chaojian Li, Weiyang Liu, Le Song, Yingyan Lin, and Anshumali Shrivastava. Springer Zhaozhuo Xu, Beidi Chen, Chaojian Li, Weiyang Liu, Le Song, Yingyan Lin, Anshumali Shrivastava 0.30
2021. Locality sensitive teaching. 2021. 地域敏感な教育。 0.56
Advances in Neural Information Processing Systems, 34. 神経情報処理システムの進歩34。 0.61
Adams Wei Yu, David Dohan, Minh-Thang Luong, R. Zhao, Kai Chen, Mohammad Norouzi, and Quoc V. Le. Adams Wei Yu, David Dohan, Minh-Thang Luong, R. Zhao, Kai Chen, Mohammad Norouzi, Quoc V. Le
訳抜け防止モード: アダムス・ワイユー、デヴィッド・ドハン、ミン - タン・ルオン。 r. zhao, kai chen, mohammad norouzi, quoc v. le。
0.55
2018a. Qanet: Combining local convolution with global self-attention for reading comprehension. 2018年。 Qanet: ローカルな畳み込みとグローバルな自己意識を組み合わせることで、理解を深めます。 0.54
volume abs/1804.09541. volume abs/1804.09541 0.32
Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, and Quoc V Le. Adams Wei Yu, David Dohan, Minh-Thang Luong, Rui Zhao, Kai Chen, Mohammad Norouzi, Quoc V Le
訳抜け防止モード: アダムス・ワイユー、デヴィッド・ドハン、ミン - タン・ルオン。 rui zhao氏、kai chen氏、mohammad norouzi氏、quoc v le氏。
0.47
2018b. Qanet: Combining local convolution with global self-attention for reading comprehension. 2018年。 Qanet: ローカルな畳み込みとグローバルな自己意識を組み合わせることで、理解を深めます。 0.53
arXiv preprint arXiv:1804.09541. arXiv preprint arXiv:1804.09541 0.36
Michelle Yuan, Hsuan-Tien Lin, and Jordan BoydGraber. Michelle Yuan、Hsuan-Tien Lin、Jordan BoydGraber。 0.39
2020. Cold-start active learning through self-supervised language modeling. 2020. 自己教師型言語モデリングによる冷間開始能動的学習 0.53
arXiv preprint arXiv:2010.09535. arXiv preprint arXiv:2010.09535 0.36
Mike Zhang and Barbara Plank. マイク・チャンとバーバラ・プランク。 0.48
2021. Cartography ac- 2021. 地図 ac- 0.52
tive learning. arXiv preprint arXiv:2109.04282. 積極的学習 arXiv preprint arXiv:2109.04282 0.41
Shujian Zhang, Xinjie Fan, Bo Chen, and Mingyuan Zhou. 周江周、新ジーファン、ボーチェン、明元周。 0.52
2021a. Bayesian attention belief networks. 2021年。 ベイジアン注意信念ネットワーク。 0.72
In International Conference on Machine Learning, pages 12413–12426. 機械学習に関する国際会議、12413-12426頁。 0.79
PMLR. Shujian Zhang, Chengyue Gong, and Eunsol Choi. PMLR。 周治庵 張 陳義 長井 周 などです。 0.36
2021b. Knowing more about questions can help: Improving calibration in question answering. 2021年。 質問についてもっと知ることは、質問応答のキャリブレーションを改善することに役立つ。 0.62
arXiv preprint arXiv:2106.01494. arXiv preprint arXiv:2106.01494 0.36
Shujian Zhang, Chengyue Gong, and Eunsol Choi. 周治庵 張 陳義 長井 周 などです。 0.31
2021c. Learning with different amounts of annotation: From zero to many labels. 2021年。 異なる量のアノテーションで学ぶ:ゼロから多くのラベルまで。 0.73
arXiv preprint arXiv:2109.04408. arXiv preprint arXiv:2109.04408 0.35
Xiang Zhang, Junbo Zhao, and Yann LeCun. Xiang Zhang、Junbo Zhao、Yann LeCun。 0.64
2015. Character-level convolutional networks for text classification. 2015. テキスト分類のための文字レベル畳み込みネットワーク 0.61
Advances in neural information processing systems, 28:649–657. ニューラル情報処理システムの進歩、28:649–657。 0.69
Yuhao Zhang, Victor Zhong, Danqi Chen, Gabor Angeli, and Christopher D Manning. Yuhao Zhang、Victor Zhong、Danqi Chen、Gabor Angeli、Christopher D Manning。 0.35
2017. Positionaware attention and supervised data improve slot In Proceedings of the 2017 Conference on filling. 2017. 位置対応の注意と監視されたデータの改善スロット 2017 Conferenceの補充に関するプレゼンテーション。 0.56
Empirical Methods in Natural Language Processing, pages 35–45. 自然言語処理における経験的方法, 35-45頁。 0.64
Tony Z Zhao, Eric Wallace, Shi Feng, Dan Klein, and Sameer Singh. トニー・ザオ、エリック・ウォレス、シ・フェン、ダン・クライン、サマー・シン。 0.42
2021. Calibrate before use: Improving few-shot performance of language models. 2021. 使用前に校正する: 言語モデルの数少ないパフォーマンスを改善する。 0.56
arXiv preprint arXiv:2102.09690. arXiv preprint arXiv:2102.09690 0.35
Dengyong Zhou, Olivier Bousquet, Thomas N Lal, Jason Weston, and Bernhard Schölkopf. Dengyong Zhou, Olivier Bousquet, Thomas N Lal, Jason Weston, Bernhard Schölkopf 0.35
2004. Learning with local and global consistency. 2004. ローカルとグローバルの一貫性で学ぶ。 0.58
In Advances 進歩して 0.54
英語(論文から抽出)日本語訳スコア
A Experimental details A.1 Full Results and Examples We report the full results of out-of-domain and in-domain tasks in Tables 9 and 11, respectively. 実験的詳細A.1 全結果と例 それぞれテーブル9と11のドメイン外タスクとドメイン内タスクの完全な結果を報告します。 0.81
The full results of prompt-based few-shot learning are shown in Table 10 and Table 12 shows prompt examples of each task. 表10にプロンプトベースの少数ショット学習の完全な結果を示し、表12に各タスクのプロンプト例を示す。 0.79
SST-2 IMDB SST-2 IMDB 0.35
ID OD Random 76.31±0.66 75.88±1.82 Entropy 75.23±0.87 BADGE 78.88±1.27 CAL 80.24±0.91 Ours 80.42±0.85 + WCA 80.51±0.67 + CL ID OD Random 76.31±0.66 75.88±1.82 Entropy 75.23±0.87 BADGE 78.88±1.27 CAL 80.24±0.91 Ours 80.42±0.85 + WCA 80.51±0.67 + CL 0.18
IMDB SST-2 IMDB SST-2 0.35
82.01±3.45 85.32±2.36 85.11±2.92 84.92±2.30 86.07±2.45 86.19±2.37 86.24±1.98 82.01±3.45 85.32±2.36 85.11±2.92 84.92±2.30 86.07±2.45 86.19±2.37 86.24±1.98 0.09
QQP TwitterPPDB 85.57±0.42 85.18±1.79 85.39±3.44 86.14±0.31 86.03±0.40 86.07±0.36 86.18±0.29 QQP TwitterPPDB 85.57±0.42 85.18±1.79 85.39±3.44 86.14±0.31 86.03±0.40 86.07±0.36 86.18±0.29 0.26
Table 9: Results of out-of-domain (OD) generalization. 表9: out-of-domain (od) の一般化の結果。 0.64
We report the out-of-domain accuracy on the target domain. 対象領域の領域外精度について報告する。 0.43
ID refers to in-domain dataset. IDはドメイン内のデータセットを指す。 0.62
OD refers to out-of-domain dataset. ODはドメイン外のデータセットを指す。 0.58
SST-2 TREC SST-2 TREC 0.36
RTE Random Calibrated Uncertainty Ours Random Calibrated Uncertainty Ours Random Calibrated Uncertainty Ours RTE ランダムキャリブレーション 不確かさ ランダムキャリブレーション不確かさ ランダムキャリブレーション不確かさ 0.51
4-shot 64.9±8.4 73.8±10.9 59.7±7.3 75.3±7.8 23.1±5.9 44.2±2.2 34.8±3.4 46.4±2.8 53.2±6.0 57.5±1.8 57.0±1.5 57.9±2.3 4-shot 64.9±8.4 73.8±10.9 59.7±7.3 75.3±7.8 23.1±5.9 44.2±2.2 34.8±3.4 46.4±2.8 53.2±6.0 57.5±1.8 57.0±1.5 57.9±2.3 0.09
8-shot 54.5±4.6 64.6±8.8 64.5±5.9 77.8±4.7 32.7±7.5 44.1±3.6 52.2±4.1 58.7±3.6 54.9±3.0 57.7±1.3 57.3±1.4 58.4±1.6 8-shot 54.5±4.6 64.6±8.8 64.5±5.9 77.8±4.7 32.7±7.5 44.1±3.6 52.2±4.1 58.7±3.6 54.9±3.0 57.7±1.3 57.3±1.4 58.4±1.6 0.09
12-shot 56.3±2.3 73.0 ±5.3 66.8±4.8 79.7±3.2 37.5±7.8 44.4±4.0 54.1±5.2 59.8±4.3 56.0±2.2 58.2±1.1 57.8±1.1 59.7±1.2 12-shot 56.3±2.3 73.0 ±5.3 66.8±4.8 79.7±3.2 37.5±7.8 44.4±4.0 54.1±5.2 59.8±4.3 56.0±2.2 58.2±1.1 57.8±1.1 59.7±1.2 0.10
Table 10: Full results across different choices of the training examples (the prompt format is fixed). 表10: トレーニング例のさまざまな選択(プロンプトフォーマットは固定されている)の完全な結果。 0.88
The language model at here is GPT-2XL (1.5B). ここでの言語モデルは GPT-2XL (1.5B) である。 0.64
A.2 Classification Task Hyperparameters A.2 分類タスクハイパーパラメーター 0.55
and Experimental Settings Our implementation is based on the BERT-base (Devlin et al , 2018) from HuggingFace Transformers (Wolf et al , 2020). 実験的な設定で 実装はHuggingFace Transformers(Wolf et al , 2020)のBERTベース(Devlin et al , 2018)に基づいています。 0.62
We optimize the KL divergence as the objective with the Adam optimizer (Kingma and Ba, 2014) and batch size is set to 16 for all experiments. 我々は、Adam Optimizationr (Kingma and Ba, 2014) を用いて KL の発散を最適化し、全ての実験に対してバッチサイズを16に設定する。 0.77
The curriculum learning is trained for 200 iterations. カリキュラム学習は200回のイテレーションで訓練される。 0.74
The learning rate is 2 × 10−5. 学習率は2×10−5である。 0.76
The α in Eqn (5) is set as 0.01 for all experiments. eqn (5) の α はすべての実験で 0.01 と設定される。 0.86
With longer input texts such as IMDB, we use 256 as the maximum sequence length. IMDBのような長い入力テキストでは、最大シーケンス長として256を使用します。 0.75
For others, we use 128. その他の場合は、128を使います。 0.61
Following Ash et al (2020) and Margatina et al (2021), for the initial training set Dlabel, we begin the active learning loop by Ash et al (2020) と Margatina et al (2021) に続いて、Dlabel の最初のトレーニングセットとして、アクティブラーニングループを開始する。 0.78
SST-2 IMDB SST-2 IMDB 0.36
AG News QNLI AGニュース QNLI 0.60
QQP Acquired dataset size: Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours: + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL Random Entropy BADGE CAL Ours + WCA + CL QQP データセットサイズ:ランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CLランダムエントロピー BADGE CAL Ours + WCA + CL 0.64
1% 84.11±0.45 84.53±0.81 84.32±0.64 84.95±0.56 85.97±0.53 86.12±0.47 86.37±0.43 65.96±0.66 68.32±0.53 67.80±0.44 73.55±0.56 75.23±0.43 75.17±0.58 77.57±0.64 85.43±0.53 86.48±0.46 86.81±0.48 87.12±0.31 88.42±0.37 88.50±0.35 88.57±0.30 76.33±0.54 77.95±0.50 77.74±0.53 78.53±0.49 78.44±0.41 78.47±0.43 78.92±s0.40 77.32±0.66 78.47±0.57 78.02±0.49 78.23±0.52 78.97±0.46 78.90±0.50 79.32±0.53 1% 84.11±0.45 84.53±0.81 84.32±0.64 84.95±0.56 85.97±0.53 86.12±0.47 86.37±0.43 65.96±0.66 68.32±0.53 67.80±0.44 73.55±0.56 75.23±0.43 75.17±0.58 77.57±0.64 85.43±0.53 86.48±0.46 86.81±0.48 87.12±0.31 88.42±0.37 88.50±0.35 88.57±0.30 76.33±0.54 77.95±0.50 77.74±0.53 78.53±0.49 78.44±0.41 78.47±0.43 78.92±s0.40 77.32±0.66 78.47±0.57 78.02±0.49 78.23±0.52 78.97±0.46 78.90±0.50 79.32±0.53 0.30
5% 86.53±0.61 87.82±0.73 87.11±0.82 87.34±0.61 88.61±0.48 88.56±0.55 88.79±0.46 84.22±0.52 84.51±0.48 84.46±0.50 84.72±0.48 85.82±0.35 85.79±0.67 86.02±0.62 90.05±0.51 92.21±0.41 90.72±0.51 92.13±0.38 92.86±0.40 92.84±0.37 92.94±0.32 83.61±0.57 83.83±0.61 84.90±0.48 85.14±0.45 84.93±0.32 85.12±0.37 85.06±0.36 81.73±0.72 81.92±0.64 81.63±0.55 82.52±0.57 82.43±0.44 82.55±0.48 82.91±0.51 5% 86.53±0.61 87.82±0.73 87.11±0.82 87.34±0.61 88.61±0.48 88.56±0.55 88.79±0.46 84.22±0.52 84.51±0.48 84.46±0.50 84.72±0.48 85.82±0.35 85.79±0.67 86.02±0.62 90.05±0.51 92.21±0.41 90.72±0.51 92.13±0.38 92.86±0.40 92.84±0.37 92.94±0.32 83.61±0.57 83.83±0.61 84.90±0.48 85.14±0.45 84.93±0.32 85.12±0.37 85.06±0.36 81.73±0.72 81.92±0.64 81.63±0.55 82.52±0.57 82.43±0.44 82.55±0.48 82.91±0.51 0.30
10% 88.05±0.73 89.45±0.92 88.72±0.44 89.16±0.67 90.05±0.61 90.14±0.57 90.18±0.48 86.25±0.54 87.29±0.51 87.17±0.41 87.27±0.50 87.91±0.53 87.83±0.71 88.43±0.57 91.93±0.60 92.65±0.39 92.41±0.53 92.82±0.35 93.13±0.39 93.22±0.42 93.20±0.35 84.63±0.62 84.75±0.55 84.32±0.46 84.99±0.53 84.87±0.39 84.91±0.38 84.96±0.33 84.22±0.75 86.03±0.49 84.06±0.60 84.25±0.48 84.77±0.52 84.83±0.48 84.95±0.58 10% 88.05±0.73 89.45±0.92 88.72±0.44 89.16±0.67 90.05±0.61 90.14±0.57 90.18±0.48 86.25±0.54 87.29±0.51 87.17±0.41 87.27±0.50 87.91±0.53 87.83±0.71 88.43±0.57 91.93±0.60 92.65±0.39 92.41±0.53 92.82±0.35 93.13±0.39 93.22±0.42 93.20±0.35 84.63±0.62 84.75±0.55 84.32±0.46 84.99±0.53 84.87±0.39 84.91±0.38 84.96±0.33 84.22±0.75 86.03±0.49 84.06±0.60 84.25±0.48 84.77±0.52 84.83±0.48 84.95±0.58 0.30
Table 11: Full results of the in-domain test accuracies for different acquired dataset size. 表11: 異なる取得データセットサイズに対するドメイン内テストの精度の完全な結果。 0.78
+ WCA refers to Ours + select worst-case augmentation. + wcaは、私たちの+選択した最悪のケース拡張を指します。 0.46
+ CL refers to Ours + curriculum learning. CLはOurs + カリキュラム学習を指す。 0.66
uniformly random sampling from Dpool. Dpoolからの一様ランダムサンプリング。 0.71
For all experiments in the Section 5, we set the annotation budget as 1% and use Ours (ours + curriculum learning) as the default methods. 第5節のすべての実験では、アノテーション予算を1%に設定し、デフォルトメソッドとして私たちの(ours + curriculum learning)を使用します。 0.76
TF-IDF based data augmentation (Xie et al , 2020) aims to generate both diverse and valid examples. TF-IDFに基づくデータ拡張(Xie et al , 2020)は、多種多様な実例と有効例の両方を生成することを目的としている。 0.56
It is designed to retain keywords and replace uninformative words with other uninformative words. キーワードを保持し、他の不規則な単語に置き換えるように設計されている。 0.54
BERT is used as the word tokenizer. BERT はトークン化語として使われる。 0.69
We set IDF(w) is the IDF score for word w computed on the whole corpus, and TF(w) is the TF score for word w in a sentence. idf(w)をコーパス全体の単語wのidfスコアとし、tf(w)を文中の単語wのtfスコアとする。
訳抜け防止モード: We set IDF(w ) is the IDF score for word w computed on the whole corpus。 TF(w ) は文中の単語 w に対する TF スコアである。
0.79
Then, we compute the TF-IDF score as TFIDF(w) = TF(w)IDF(w). 次に、TF-IDFスコアを TFIDF(w) = TF(w)IDF(w) として計算する。 0.85
Suppose the maximum TF-IDF score in a sentence x is C = maxi TFIDF(xi). 文 x における最大 tf-idf スコアを c = maxi tfidf(xi) とする。 0.77
We set the probability to min(p(C - TFIDF(xi))/Z, 1), where p is a hyperparameter that controls the magnitude of the augmentation and we set p =0.3. 確率を min(p(C - TFIDF(xi))/Z, 1) とし、p は拡大の大きさを制御するハイパーパラメータであり、p =0.3 とする。 0.77
Z is the average score over the inputs sentence. Zは入力文の平均スコアである。 0.71
For backtranslation, we use a pre-trained EN-DE4 and DE-EN5 translation models (Ng et al , 2019) to perform backtranslation 逆翻訳には、事前訓練されたEN-DE4およびDE-EN5翻訳モデル(Ng et al , 2019)を用いる。 0.69
4https://dl.fbaipubl icfiles.com/ 4https://dl.fbaipubl icfiles.com/ 0.20
fairseq/models/wmt19 .en-de.joined-dict. fairseq/models/wmt19 .en-de.joined-dict 0.11
single_model.tar.gz single_model.tar.gz 0.15
5https://dl.fbaipubl icfiles.com/ 5https://dl.fbaipubl icfiles.com/ 0.20
fairseq/models/wmt19 .de-en.joined-dict. fairseq/models/wmt19 .de-en.joined-dict 0.11
single_model.tar.gz single_model.tar.gz 0.15
英語(論文から抽出)日本語訳スコア
Task SST-2 Review: At times, the movie looks genuinely pretty. タスクSST-2レビュー:時々、映画は本当にきれいに見えます。 0.79
Prompt Sentiment: Positive プロンプト 感情:ポジティブ 0.65
Review: The movie is amateurish, but it’s a minor treat. レビュー:この映画はアマチュア的だが、ちょっとした扱いだ。 0.73
Sentiment: TREC Question: Where can I find information on becoming a journalist? 感想 TRECQ:ジャーナリストになるための情報はどこにあるのか? 0.43
Answer Type: Location Label Names Positive, Negative 答えの種類:位置 ラベル名 肯定的 否定的 0.58
Number, Location, Person, Description, Entity, Abbreviation 番号、場所、人物、説明、エンティティ、省略 0.50
RTE Question: What is the temperature today? RTE 質問:今日の気温はどのくらいですか。 0.58
Answer Type: The motor industry accounts for as much as 40 percent of the 450,000 installed industrial robots True, False worldwide but their use is changing and applications are expanding. 答えの種類: モーター業界は、45万台の産業用ロボットの40%を世界規模で偽装しているが、その利用は変化し、応用も拡大している。 0.74
Question: The most common use for robots is the manufacture of automobiles. 質問: ロボットの最も一般的な用途は自動車の製造である。 0.83
True or False? Answer: True 真実か偽か? 答え:真実です 0.64
Arroyo was the favorite of investors because of her experience as a trained economist and government manager. アロヨは経済学者や政府のマネージャーとしての経験から投資家のお気に入りだった。 0.59
Question: Arroyo has experience as an economist and as a government manager. 質問:アロヨは経済学者、政府マネジャーとしての経験がある。 0.61
True or False? Answer: 真実か偽か? 答えは 0.60
Table 12: The different prompts we use for SST-2, TREC, and RTE. 表12: SST-2、TREC、RTEで使用する異なるプロンプト。 0.64
One training example per task is presented. タスク毎に1つのトレーニング例が提示される。 0.49
The language model is used to predicted the label probability as shown in the right column. 言語モデルは右列に示すようにラベル確率を予測するために使用される。 0.82
on each sentence. A.3 それぞれの文で A.3 0.56
Prompt-based Few-Shot Learning プロンプトに基づくFew-Shot Learning 0.49
Hyperparameters and Experimental Settings ハイパーパラメータと実験的設定 0.75
We use the 1.5B parameters GPT-2 (Radford et al , 2019), with a Transformer (Vaswani et al , 2017) based architecture. 1.5Bパラメータ GPT-2 (Radford et al , 2019) を Transformer (Vaswani et al , 2017) ベースのアーキテクチャで使用しています。 0.85
The model largely follows the details of the OpenAI GPT model (Radford et al , 2018) with a few modifications. このモデルは、いくつかの変更を加えたOpenAI GPTモデルの詳細(Radford et al , 2018)に従っている。 0.77
Layer normalization (Ba et al , 2016; Fan et al , 2020; Zhang et al , 2021a) is moved to the input of each sub-block and an additional layer normalization is added after the final self-attention block. 層正規化(Ba et al , 2016; Fan et al , 2020; Zhang et al , 2021a)は各サブブロックの入力に移動され、最終自己保持ブロック後に追加層正規化が追加される。 0.76
Following the settings in Zhao et al (2021), the maximum input length is 2048 tokens or 1500 words. Zhao et al (2021)の設定に従って、最大入力長は2048トークンまたは1500ワードである。 0.80
In Table 12, we show the default prompt format for SST-2, TREC, and RTE. 表12では、SST-2、TREC、RTEのデフォルトプロンプトフォーマットを示す。 0.67
For datasets, Stanford Sentiment Treebank (SST-2) (Socher et al , 2013) is one of benchmarks in General Language Understanding Evaluation (GLUE) (Wang et al , 2018a). データセットについては、Stanford Sentiment Treebank (SST-2) (Socher et al , 2013) がGeneral Language Understanding Evaluation (GLUE) (Wang et al , 2018a) のベンチマークの1つである。 0.75
With fully labeled parse tress, This corpus allows a complete analysis of the compositional effects of sentiment in language. 完全なラベル付きパーストレスにより、このコーパスは言語における感情の構成効果の完全な分析を可能にする。 0.64
TREC (Voorhees and Tice, 2000) is a 6-way question classification. TREC (Voorhees and Tice, 2000) は6方向の質問分類である。 0.85
The target is to classify the questions based on whether their answer type is a Number, Location, Person, Description, Entity, or Abbreviation. 目標は、答えのタイプがNumber、Location、Person、Description、Entity、Abbreviationであるかどうかに基づいて質問を分類することである。 0.74
Similarly, RTE (Recognizing Textual Entailment) (Dagan et al , 2005) is also a benchmark dataset from GLUE. 同様に、RTE (Recognizing Textual Entailment) (Dagan et al , 2005) もGLUEのベンチマークデータセットである。 0.72
It is a binary classification task to determine if a given premise entails a given hypothesis. 与えられた前提が与えられた仮説を伴っているかどうかを判断する二分分類タスクである。 0.63
IMDB AG News IMDB AG ニュース 0.83
Random Entropy BADGE CAL Ours + WCA ランダムエントロピーBADGE CAL Ours + WCA 0.71
SST-2 0 173 25640 708 513 611 SST-2 0 173 25640 708 513 611 0.36
0 107 3816 273 228 275 0 107 3816 273 228 275 0.42
0 402 1961 1284 881 1023 0 402 1961 1284 881 1023 0.43
AVG. 0 227 10303 755 541 636 avgだ 0 227 10303 755 541 636 0.50
Table 13: Running time (seconds) per sampling iteration (inference and selection) during AL acquisition for each datasets. 表13: 各データセットのAL取得中にサンプリングイテレーション(推論と選択)毎に時間(秒)を実行する。 0.85
AVG. refers the average acquisition time for all three datasets. avgだ 3つのデータセットの平均取得時間を参照。 0.67
For each acquisition, we report the running time under three adversarial attacks respectively 買収毎に、それぞれ3つの敵の攻撃下の実行時間を報告します。 0.58
A.4 Sampling Efficiency and Running Time We mask m as the number of labeled data in Dlabel, n the number of unlabeled data in Dpool, C the number of classes in the downstream classification task, d the dimension of embeddings, l the maximum sequence length, and sacq the acquisition size. A.4 サンプリング効率と実行時間は、mをdlabelのラベル付きデータ数、nをdpool内のラベルなしデータ数、cを下流分類タスクのクラス数、dを埋め込み次元、lを最大シーケンス長、sacqを取得サイズとしてマスクします。 0.47
We set these values following Yuan et al (2020) and Margatina et al (2021). これらの値を yuan et al (2020) と margatina et al (2021) で設定する。 0.81
In Table 13, running time in seconds are summarized per sampling iteration (inference and selection) during AL acquisition for each dataset. 表13では、データセット毎のAL取得中にサンプリングイテレーション(推論と選択)毎に秒間実行時間を要約する。 0.78
Experiments in this part are performed on a Tesla V100 GPU. この部分の実験はTesla V100 GPU上で行われる。 0.84
We keep sacq = 100, d = 768, t = 10, and l = 128. 私たちは sacq = 100, d = 768, t = 10, l = 128 を保持する。 0.94
For IMDB, we change the maximum sequence length to 256. IMDBの場合、最大シーケンス長を256に変更する。 0.73
As demonstrated in Table 13, BADGE requires a significantly amount of running time, since it has to cluster high-dimensional vectors and is a very computationally-heav y method. 表13で示されているように、BADGEは高次元ベクトルをクラスタリングし、非常に計算量の多い方法であるため、かなりの実行時間を必要とする。 0.68
CAL also requires relative long running time as it needs to find the contrastive examples by finding nearest neighbors and computing contrastive score for unlabeled CALはまた、近接する隣人を見つけ、ラベルなしのコントラストスコアを計算することで、対照的な例を見つける必要があるため、比較的長い時間を要する。
訳抜け防止モード: CALは比較的長い時間を要する。 隣人を見つけることで 対照的な例を見つけ出す ラベルなしの 対照的なスコアを計算すれば
0.66
英語(論文から抽出)日本語訳スコア
candidates. Our method achieves the second best efficiency. 候補者だ この方法は2番目に効率が良い。 0.67
Even with the select worst-case augmentation, our acquisition function is still computationally productive as the augmentation and ranking candidates can be well deployed in the current computational machines. 選択された最悪のケース拡張であっても、現在の計算マシンに拡張とランキング候補を適切に配置できるため、我々の獲得機能は依然として計算的に生産的です。
訳抜け防止モード: 最悪のケース拡大にもかかわらず、我々の獲得機能は依然として計算的に生産的である。 増員とランキングの候補は 現在の計算機械に うまく配置できる
0.62
Entropy is overall the most efficient method as it only requires to rank the list of uncertainty scores, while it tends to have weaker performance. エントロピーは全体として最も効率的な方法であり、不確実性スコアのリストをランク付けするだけでよい。
訳抜け防止モード: エントロピーは全体として最も効率的な方法である 不確実性のスコアをランク付けするだけで パフォーマンスが低下する傾向があります
0.74
                               ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。