論文の概要、ライセンス

# (参考訳) 多言語および多言語文書分類:メタラーニングアプローチ [全文訳有]

Multilingual and cross-lingual document classification: A meta-learning approach ( http://arxiv.org/abs/2101.11302v1 )

ライセンス: CC BY 4.0
Niels van der Heijden, Helen Yannakoudakis, Pushkar Mishra, Ekaterina Shutova(参考訳) 世界の言語の大部分は、ディープラーニングの手法をうまく適用するためのリソース不足と見なされています。 本研究では、限られたリソース設定における文書分類のためのメタラーニングアプローチを提案し、その効果を2つの異なる設定で実証する。 我々は,複数のメタ学習手法を体系的に比較し,データ可用性の観点から複数の設定を調査し,不均一なタスク分布を持つ環境下でメタ学習が成長することを示す。 そこで我々は,従来のメタラーニング手法をシンプルかつ効果的に調整し,より優れた安定した学習を可能にするとともに,少数のラベル付きデータのみを用いて,複数の言語に新たな技術状況を設定することを提案する。

The great majority of languages in the world are considered under-resourced for the successful application of deep learning methods. In this work, we propose a meta-learning approach to document classification in limited-resource setting and demonstrate its effectiveness in two different settings: few-shot, cross-lingual adaptation to previously unseen languages; and multilingual joint training when limited target-language data is available during training. We conduct a systematic comparison of several meta-learning methods, investigate multiple settings in terms of data availability and show that meta-learning thrives in settings with a heterogeneous task distribution. We propose a simple, yet effective adjustment to existing meta-learning methods which allows for better and more stable learning, and set a new state of the art on several languages while performing on-par on others, using only a small amount of labeled data.
公開日: Wed, 27 Jan 2021 10:22:56 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Multilingual and cross-lingual document classification: 多言語・多言語文書分類 0.74
A meta-learning approach メタラーニングのアプローチ 0.69
Niels van der Heijden♣ Helen Yannakoudakis♠ Pushkar Mishra♦ Ekaterina Shutova♣ Helen YannakoudakisとPushkar MishraとEkaterina Shutova。 0.58
♣ILLC, University of Amsterdam, the Netherlands オランダのアムステルダム大学。 0.42
♠Dept. of Informatics, King’s College London, United Kingdom だ。 英国キングス・カレッジ・ロンドン(King’s College London) 0.61
♦Facebook AI, London, United Kingdom Facebook AI, ロンドン, イギリス 0.59
1 2 0 2 n a J 1 2 0 2 n a J 0.85
7 2 ] L C . 7 2 ] L C。 0.78
s c [ 1 v 2 0 3 1 1 sc [ 1 v 2 0 3 1 1 0.68
. 1 0 1 2 : v i X r a . 1 0 1 2 : v i X r a 0.85
niels.vanderheijden@ student.uva.nl, helen.yannakoudakis@ kcl.ac.uk, niels.vanderheijden@ student.uva.nl, helen.yannakoudakis@ kcl.ac.uk 0.52
pushkarmishra@fb.com , e.shutova@uva.nl pushkarmishra@fb.com , e.shutova@uva.nl 0.67
Abstract The great majority of languages in the world are considered under-resourced for the successful application of deep learning methods. 概要 世界の言語の大部分は、ディープラーニングの手法をうまく適用するためのリソース不足と見なされています。 0.51
In this work, we propose a meta-learning approach to document classification in limitedresource setting and demonstrate its effectiveness in two different settings: few-shot, crosslingual adaptation to previously unseen languages; and multilingual joint training when limited target-language data is available during training. 本研究では、限られたリソース設定における文書分類のためのメタラーニングアプローチを提案し、その効果を2つの異なる設定で実証する。
訳抜け防止モード: 本研究では,限られたリソース設定における文書分類のためのメタラーニング手法を提案する。 そして、その効果を2つの異なる設定で実証します。 そして限られたターゲット-言語データが訓練の間に利用できるとき多言語共同訓練。
0.76
We conduct a systematic comparison of several meta-learning methods, investigate multiple settings in terms of data availability and show that meta-learning thrives in settings with a heterogeneous task distribution. 我々は,複数のメタ学習手法を体系的に比較し,データ可用性の観点から複数の設定を調査し,不均一なタスク分布を持つ環境下でメタ学習が成長することを示す。 0.65
We propose a simple, yet effective adjustment to existing meta-learning methods which allows for better and more stable learning, and set a new state of the art on several languages while performing on-par on others, using only a small amount of labeled data. そこで我々は,従来のメタラーニング手法をシンプルかつ効果的に調整し,より優れた安定した学習を可能にするとともに,少数のラベル付きデータのみを用いて,複数の言語に新たな技術状況を設定することを提案する。 0.77
1 Introduction There are more than 7000 languages around the world and, of them, around 6% account for 94% of the population.1 Even for the 6% most spoken languages, very few of them possess adequate resources for natural language research and, when they do, resources in different domains are highly imbalanced. 1 はじめに 世界中に7000以上の言語があり、そのうち約6%が人口の94%を占めている。1 6%の言語でさえ、自然言語研究に十分な資源を持っている言語はごくわずかであり、その場合、異なるドメインのリソースは極めて不均衡である。 0.73
Additionally, human language is dynamic in nature: new words and domains emerge continuously and hence no model learned in a particular time will remain valid forever. さらに、人間の言語は本質的に動的です:新しい単語とドメインは継続的に出現するため、特定の時間で学習されたモデルは永遠に有効でありません。 0.71
With the aim of extending the global reach of Natural Language Processing (NLP) technology, much recent research has focused on the development of multilingual models and methods to efficiently transfer knowledge across languages. 自然言語処理(NLP)技術のグローバルな普及を目指して、近年の研究では、言語間の知識を効率的に伝達する多言語モデルや手法の開発に焦点が当てられている。 0.82
1https://www.ethnolo gue.com/statistics 1https://www.ethnolo gue.com/statistics 0.36
Among these advances are multilingual word vectors which aim to give word-translation pairs a similar encoding in some embedding space (Mikolov et al., 2013a; Lample et al., 2017). これらの進歩の中には、単語翻訳対が埋め込み空間(Mikolov et al., 2013a; Lample et al., 2017)に類似のエンコーディングを与えるための多言語単語ベクトルがある。 0.73
There has also been a lot of work on multilingual sentence and word encoders that either explicitly utilizes corpora of bi-texts (Artetxe and Schwenk, 2019; Lample and Conneau, 2019) or jointly trains language models for many languages in one encoder (Devlin et al., 2018; Conneau et al., 2019). バイテキストのコーパス(Artetxe and Schwenk, 2019; Lample and Conneau, 2019)を明示的に活用するか、1つのエンコーダ(Devlin et al., 2018; Conneau et al., 2019)で多くの言語の言語モデルを共同で訓練する多言語文と単語エンコーダの開発も数多く行われている。 0.85
Although great progress has been made in cross-lingual transfer learning, these methods either do not close the gap with performance in a single high-resource language (Artetxe and Schwenk, 2019; Conneau et al., 2019), e.g., because of cultural differences in languages which are not accounted for, or are impractically expensive (Lai et al., 2019). 言語間の移行学習では大きな進歩があったが、これらの手法は単一の高リソース言語(Artetxe と Schwenk, 2019; Conneau et al., 2019)のパフォーマンスのギャップを埋めるものではない。
訳抜け防止モード: 言語間移動学習は大きな進歩を遂げた。 これらのメソッドは、単一の高いリソース言語(Arttxe)のパフォーマンスとのギャップを埋めない。 とSchwenk, 2019; Conneau et al , 2019)。 例えば 文化的な違いが原因で 説明されてはいない あるいは過激なほど高価だ(Lai et al ., 2019)。
0.77
Meta-learning, or learning to learn (Schmidhuber, 1987; Bengio et al., 1990; Thrun and Pratt, 1998), is a learning paradigm which focuses on the quick adaption of a learner to new tasks. メタラーニング(meta-learning、1987年、bengio et al.、1990年、thrun and pratt、1998年)は、学習者の新しいタスクへの迅速な適応に焦点を当てた学習パラダイムである。
訳抜け防止モード: メタ - 学習、あるいは 学ぶことを学ぶこと (Schmidhuber, 1987, Bengio et al ., 1990, Thrun and Pratt, 1998) 学習パラダイムであり 学習者が新しいタスクに素早く適応することに焦点を当てます。
0.82
The idea is that by training a learner to adapt quickly and from a few examples on a diverse set of training tasks, the learner can also generalize to unseen tasks at test time. このアイデアは、学習者が素早く適応するように訓練し、さまざまなトレーニングタスクのいくつかの例から、学習者はテスト時に見えないタスクに一般化することもできます。 0.71
Meta-learning has recently emerged as a promising technique for few-shot learning for a wide array of tasks (Finn et al., 2017; Koch et al., 2015; Ravi and Larochelle, 2017) including NLP (Dou et al., 2019; Gu et al., 2018). メタラーニングは最近、NLP(Dou et al., 2019; Gu et al., 2018)を含む幅広いタスク(Finn et al., 2017; Koch et al., 2015; Ravi and Larochelle, 2017)のための数ショット学習の有望な技術として登場しました。 0.86
To our best knowledge, no previous work has been done in investigating meta-learning as a framework for multilingual and cross-lingual few-shot learning. 私たちの最良の知識では、多言語および多言語のマルチショット学習のためのフレームワークとしてメタラーニングを調査する以前の作業は行われていません。 0.57
We propose such a framework and demonstrate its effectiveness in document classification tasks. このような枠組みを提案し,文書分類タスクにおける有効性を示す。 0.73
The only current study on meta-learning for cross-lingual few-shot learning is the one by (Nooralahzadeh et al., 2020), focusing on natural language inference and multilingual question answering. クロスリンガル・マイノショット学習のためのメタラーニングに関する現在の研究は、自然言語推論と多言語質問応答に焦点を当てた(nooralahzadeh et al., 2020)。 0.72
In their work, the authors focus on applying meta-learning to learn to adapt a monolingually trained classi- 彼らの研究において,著者らはメタラーニングを適用し,単言語学習クラスへの適応を学ぶことに焦点を当てた。
訳抜け防止モード: 彼らの作品では 著者たちは メタを適用する -単言語学習クラスへの適応を学ぶための学習-
0.64
英語(論文から抽出)日本語訳スコア
Algorithm 1 Meta-training procedure. アルゴリズム1メタトレーニング手順。 0.76
Require: p(D): distribution over tasks. 必須: p(D):タスクに対する分散。 0.76
Require: α, β: step size hyper-parameters 必須:α,β:ステップサイズハイパーパラメータ 0.82
Initialize θ while not done do 未完了のθを初期化する 0.77
Sample batch of tasks {Dl} = {(Sl, Ql)} ∼ p(D) for all (Sl, Ql) do タスク {Dl} = {(Sl, Ql)} のサンプルバッチは、すべての (Sl, Ql) に対して p(D) となる。 0.84
Initialize θ(0) l = θ for all steps k do すべてのステップ k に対して θ(0) l = θ を初期化する 0.80
Compute: θ(k+1) 計算: θ(k+1) 0.81
l end for = θ(k) l 終止符 =θ(k) 0.77
l − α(∇ l − α である。 0.88
LSl (f )) LSl (f) )) 0.88
(k) θ l (k) θ l (k)θ l (k)θ l 0.85
end for Update θ = θ − β(MetaUpdate(f end for update θ = θ − β(metaupdate(f) である。 0.82
, Ql)) θ (K) l 、Ql)。 θ (K)l 0.79
end while fier to new languages. 終われば 新しい言語に当てはまる。 0.61
In contrast to this work, we instead show that, in many cases, it is more favourable to not initialize the meta-learning process from a monolingually trained classifier, but rather reserve its respective training data for metalearning instead. この研究とは対照的に、多くの場合、メタラーニングプロセスをモノリンガルに訓練された分類器から初期化せず、代わりにメタラーニングのためにそれぞれのトレーニングデータを予約することが好ましい。 0.68
Our contributions are as follows: 1) We propose a meta-learning approach to few-shot cross-lingual and multilingual adaptation and demonstrate its effectiveness on document classification tasks over traditional supervised learning; 2) We provide an extensive comparison of meta-learning methods on multilingual and cross-lingual few-shot learning and release our code to facilitate further research in the field;2 3) We analyse the effectiveness of meta-learning under a number of different parameter initializations and multiple settings in terms of data availability, and show that meta-learning can effectively learn from few examples and diverse data distributions; 4) We introduce a simple yet effective modification to existing methods and empirically show that it stabilizes training and converges faster to better local optima; 5) We set a new state of the art on several languages and achieve on-par results on others using only a small amount of data. Our contributions are as follows: 1) We propose a meta-learning approach to few-shot cross-lingual and multilingual adaptation and demonstrate its effectiveness on document classification tasks over traditional supervised learning; 2) We provide an extensive comparison of meta-learning methods on multilingual and cross-lingual few-shot learning and release our code to facilitate further research in the field;2 3) We analyse the effectiveness of meta-learning under a number of different parameter initializations and multiple settings in terms of data availability, and show that meta-learning can effectively learn from few examples and diverse data distributions; 4) We introduce a simple yet effective modification to existing methods and empirically show that it stabilizes training and converges faster to better local optima; 5) We set a new state of the art on several languages and achieve on-par results on others using only a small amount of data. 0.98
2 Meta-learning methods Meta-learning, or learning to learn, aims to create models that can learn new skills or adapt to new tasks rapidly from few training examples. 2 メタラーニングメソッド メタラーニング、または学習する学習は、いくつかのトレーニング例から新しいスキルを学習したり、新しいタスクに迅速に適応できるモデルを作成することを目指しています。 0.66
Unlike traditional machine learning, datasets for either training or testing, which are referred to as metatrain and meta-test datasets, comprise of many tasks sampled from a distribution of tasks p(D) rather than individual data points. 従来の機械学習とは異なり、トレーニングまたはテスト用のデータセットは、メタトレーニングおよびメタテストデータセットと呼ばれ、個々のデータポイントではなくタスクp(d)の分布からサンプリングされた多くのタスクで構成されている。 0.68
Each task is asso- 各タスクはasso- 0.89
2https://github.com/ mrvoh/meta_ 2https://github.com/ mrvoh/meta_ 0.34
learning_multilingua l_doc_classification learning_multilingua l_doc_classification 0.29
ciated with a dataset D which contains both feature vectors and ground truth labels and is split into a support set and a query set, D = {S, Q}. 特徴ベクトルと接地真理ラベルの両方を含むデータセットDで計算され、サポートセットとクエリセット、D = {S, Q}に分割される。
訳抜け防止モード: 特徴ベクトルと基底真理ラベルの両方を含むデータセットDでシミュレートされる サポートセットとクエリセットに分割されます。 D = { S , Q } である。
0.82
The support set is used for fast adaptation and the query set is used to evaluate performance and compute a loss with respect to model parameter initialization. サポートセットは高速適応に使用され、クエリセットはパフォーマンスを評価し、モデルパラメータの初期化に関する損失を計算するために使用される。 0.79
Generally, some model fθ parameterized by θ, often referred to as the base-learner, is considered. 一般に、θ によってパラメータ化されたモデル fθ は、しばしばベースラーナー (base-learner) と呼ばれる。 0.62
A cycle of fast-adaptation on a support-set followed by updating the parameter initialization of the baselearner based on the loss on the query-set is called an episode. クエリセットの損失に基づいてbaselearnerのパラメータ初期化を更新した後、サポートセットの高速適応のサイクルは、エピソードと呼ばれます。 0.74
In the case of classification, the optimal parameters maximize the probability of the true labels across multiple batches Q ⊂ D 分類の場合、最適パラメータは、複数のバッチ Q, D にまたがる真のラベルの確率を最大化する。 0.80
θ∗ := argmax θ∗ := argmax 0.98
EQ⊂D[ θ Pθ(y|x)] 略称はEQ。 θ Pθ(y|x)] 0.71
(1) (cid:88) (1) (cid:88) 0.82
(x,y)∈Q In few-shot classification/fast learning, the goal is to minimize the prediction error on data samples with unknown labels given a small support set for learning. (x,y)∈Q 少数の分類/高速学習では、学習のための小さなサポートセットを与えられた未知のラベルを持つデータサンプルの予測誤差を最小限に抑えることが目的である。
訳抜け防止モード: (x,y)∈Q 少数 – ショット分類/高速学習では、目標は 学習支援セットの少ない未知ラベルによるデータサンプルの予測誤差を最小化する。
0.90
Meta-training (Algorithm 1) consists of updating the parameters of the base-learner by performing many of the formerly described episodes, until some stop criterion is reached. メタトレーニング(algorithm 1)は、以前に述べた多くのエピソードを実行し、いくつかの停止基準に達するまでベースリーナーのパラメータを更新することで構成される。
訳抜け防止モード: メタ - トレーニング(アルゴリズム1)は、 ベースパラメーターの更新 -ある停止基準に達するまで、前述したエピソードの多くを実行することで学習する。
0.67
Following this procedure, the extended definition of optimal parameters is given in Eq. この手順に従って、最適パラメータの拡張定義がeqで与えられる。 0.77
2 to include fast adaptation based on the support set. サポートセットに基づいた迅速な適応を含む。 0.58
The underlined parts mark the difference between traditional supervised-learning and meta-learning. 下線は、従来の教師付き学習とメタラーニングの違いを示しています。 0.48
The optimal parameters θ∗ are obtained by solving 最適パラメータθ∗は解法により得られる 0.87
argmax θ El⊂L[E argmax θ エルンL[E] 0.77
Sl⊂D,Ql⊂D[(cid:80) Sl,D,Ql,D[(cid:80) 0.68
(x,y)∈Ql Pθ(y|x,Sl)]] (x,y)・Ql Pθ(y|x,Sl)] 0.89
(2) In this work, we focus on metric- and optimizationbased meta-learning algorithms. (2) 本研究では,メトリックと最適化に基づくメタラーニングアルゴリズムに焦点をあてる。 0.76
In the following sections, their respective characteristics and the update methods in Algorithm 1 are introduced. 以下の節では、アルゴリズム1におけるそれぞれの特性と更新方法を紹介する。 0.76
2.1 Prototypical Networks Prototypical Networks (Snell et al., 2017) belong to the metric-based family of meta-learning algorithms. 2.1 prototypical networks prototypical networks (snell et al., 2017)は、メトリックベースのメタ学習アルゴリズムに属する。 0.82
Typically they consist of an embedding network fθ and a distance function d(x1, x2) such as Euclidean distance. 一般にそれらは埋め込みネットワーク fθ とユークリッド距離のような距離関数 d(x1, x2) からなる。 0.83
The embedding network is used to encode all samples in the support set Sc and compute prototypes µc per class c ∈ C by computing the mean of the sample encodings of that respective class 埋め込みネットワークは、サポートセット Sc のすべてのサンプルをエンコードするために使用され、各クラスのサンプルエンコーディングの平均を計算することで、クラス c ∈ C あたりのプロトタイプ μc を計算する。 0.79
(cid:88) µc := (cid:88) μc := 0.86
1 |Sc| (xi,yi)∈Sc 1 |Sc| (xi,yi)∈Sc 0.84
fθ(xi) (3) fθ(xi) (3) 0.92
英語(論文から抽出)日本語訳スコア
Using the computed prototypes, Prototypical 計算プロトタイプ, Prototypeal の使用 0.72
Networks classify a new sample as ネットワークは新しいサンプルを分類する 0.90
p(y = c|x) = p(y = c|x) = 0.94
(cid:80) exp(−d(fθ(x), µc) (cid:48)∈C exp(−d(fθ(x), µc (cid:80) exp(−d(fθ(x), μc) (cid:48) guic exp(−d(fθ(x), μc 0.86
(cid:48) ) (4) (cid:48) (4) 0.90
c Wang et al. (2019) show that despite their simplicity, Prototypical Networks can perform on par or better than other state-of-the-art meta-learning methods when all sample encodings are centered around the overall mean of all classes and consecutively L2-normalized. c 王等。 (2019) では,全てのサンプルエンコーディングが全クラスの平均値に集中し,L2-正規化を連続的に行う場合,その単純さにもかかわらず,プロトタイプネットワークは他の最先端メタラーニング手法と同等以上の性能を発揮することを示した。 0.66
We also adopt this strategy. この戦略も採用しています。 0.63
2.2 MAML Model-Agnostic Meta-Learning (MAML) (Finn et al., 2017) is an optimization-based method that uses the following objective function Ll(f 2.2 MAML Model-Agnostic Meta-Learning (MAML) (Finn et al., 2017) は、以下の目的関数 Ll(f) を用いる最適化に基づく手法である。 0.77
θ∗ := argmin θ∗ :=argmin 0.86
(cid:88) (5) (cid:88) (5) 0.82
) θ Dl∼p(D) ) θ Dl (複数形 Dls) 0.74
θ(k) l θ(k) l θ(k)l θ(k)l 0.81
Ll(f ) is the loss on the query set after updating the base-learner for k steps on the support set. Ll(f )は、サポートセットのkステップのbase-learnerを更新した後のクエリセットの損失です。 0.74
Hence, MAML directly optimizes the base-learner such that fast-adaptation of θ, often referred to as inner-loop optimization, results in task-specific parameters θ(k) l which generalize well on the task. したがって、maml は θ の高速適応(しばしば内ループ最適化と呼ばれる)がタスク固有のパラメータ θ(k) l となるようなベースリーナーを直接最適化する。 0.70
Setting B as the batch size, MAML implements its MetaUpdate, which is also referred to as outer-loop optimization, as MAMLはBをバッチサイズとして設定し、MetaUpdateを実装します。
訳抜け防止モード: B をバッチサイズに設定する。 MAMLがMetaUpdateを実装した 外部ループ最適化とも呼ばれる
0.72
θ = θ − β 1 B θ = θ − β 1 B 0.85
(∇θLl(f )) (6) (Ll(f) )) (6) 0.85
θ(k) l (cid:88) θ(k)l (cid:88) 0.80
Dl∼p(D) Dl (複数形 Dls) 0.51
Such a MetaUpdate requires computing second l ∀j = order derivatives and, in turn, holding θ(j) 1, . そのようなメタ更新は第2の l(j) = 次微分を計算し、θ(j) 1 を保持する必要がある。 0.58
. . , k in memory. . . 記憶中のk。 0.74
A first-order approximation of MAML (foMAML), which ignores second order derivatives, can be used to bypass this problem: 2階微分を無視するMAML(foMAML)の1階近似を用いて、この問題を回避することができる。 0.67
θ = θ − β 1 B θ = θ − β 1 B 0.85
(∇ Ll(f θ(k) l (∇ Ll(f) θ(k)l 0.86
θ(k) l )) (7) θ(k)l )) (7) 0.84
(cid:88) Dl∼p(D) (cid:88) Dl (複数形 Dls) 0.65
Following previous work (Antoniou et al., 2018), we also adopt the following improvements in our framework for all MAML-based methods: Per-step Layer Normalization weights Layer normalization weights and biases are not updated in the inner-loop. 前回の作業(Antoniou et al., 2018)に続いて、私たちは、すべてのMDLベースのメソッドに対して、以下のフレームワークの改善も採用しています。
訳抜け防止モード: 前作(Antonu et al ., 2018)に続きます。 また、すべてのMAMLベースのメソッドに対して、以下の改善をフレームワークに適用します。 Per- step Layer Normalization weights Layer normalization weights and biass is not update in the inner - loop。
0.71
Sharing one set of weights and biases across inner-loop steps implicitly assumes that the feature distribution between layers stays the same at every step of the inner optimization. インナーループステップ間で重みとバイアスの1つのセットを共有することは、インナー最適化の各ステップでレイヤー間の特徴分布が同じままであることを暗黙的に仮定します。
訳抜け防止モード: 1組の重みとバイアスを内側-ループステップで共有する レイヤ間の機能の分散が内部最適化のすべてのステップで同じであると暗黙的に仮定する。
0.70
Per-layer per-step learnable inner-loop learning rate Instead of using a shared learning rate for all parameters, the authors propose to initialize a learning rate per layer and per step and jointly learn their values in the MetaUpdate steps. 層毎学習可能なインナーループ学習率 すべてのパラメータに共有学習率を使用する代わりに、著者は層毎およびステップ毎の学習率を初期化し、MetaUpdateステップで値を共同学習することを提案します。 0.78
Cosine annealing of outer-loop learning rate It has shown to be crucial to model performance to anneal the learning rate using some annealing function (Loshchilov and Hutter, 2016). 外ループ学習率のコサインアニーリング いくつかのアニーリング機能(LoshchilovとHutter、2016)を使用して学習率をアニーリングするためにパフォーマンスをモデル化することが重要です。 0.69
2.3 Reptile Reptile (Nichol et al., 2018) is a first-order optimization-based meta-learning algorithm which is designed to move the weights towards a manifold of the weighted averages of task-specific parameters θ(k) 2.3 reptile reptile (nichol et al., 2018) は、タスク固有のパラメータ θ(k) の重み付け平均の多様体へ重みを移動させる一階最適化に基づくメタラーニングアルゴリズムである。 0.78
: l θ = θ − β : l θ = θ − β 0.85
1 B l − θ) (θ(k) 1 B l − θ) (θ(k)) 0.88
(8) (cid:88) (8) (cid:88) 0.82
Dl∼p(D) Dl (複数形 Dls) 0.51
Despite its simplicity, it has shown competitive or superior performance against MAML, e.g., on Natural Language Understanding (Dou et al., 2019). その単純さにもかかわらず、自然言語理解(Dou et al., 2019)など、MAMLに対する競争力や優れたパフォーマンスを示している。 0.77
2.4 ProtoMAML Triantafillou et al. 2.4 ProtoMAML Triantafillou et al。 0.84
(2020) introduce ProtoMAML as a meta-learning method which combines the complementary strengths of Prototypical Networks and MAML by leveraging the inductive bias of the use of prototypes instead of random initialization of the final linear layer of the network. (2020) では, ネットワークの最終線形層をランダムに初期化するのではなく, プロトタイプの使用の帰納バイアスを活用することで, プロトタイプネットワークとMAMLの相補的強みを組み合わせたメタラーニング手法として, ProtoMAMLを導入している。 0.75
Snell et al. Snell et al。 0.82
(2017) show that Prototypical Networks are equivalent to a linear model when Euclidean distance is used. (2017) はユークリッド距離を使用するとき, 原型ネットワークは線形モデルと同値であることを示した。 0.62
Using the definition of prototypes µc as per Eq. eq に従って μc のプロトタイプを定義する。 0.77
3, the weights wc and bias bc corresponding to class c can be computed as follows 3 は、クラス c に対応する重み wc とバイアス bc を次のように計算できる。 0.77
wc := 2µc bc := −µT wc := 2μc bc := −μT 0.84
c µc (9) ProtoMAML is defined as the adaptation of MAML where the final linear layer is parameterized as per Eq. c μc (9) ProtoMAMLは、最終線形層がEqに従ってパラメータ化されるMAMLの適応として定義される。 0.86
9 at the start of each episode using the support set. サポートセットを使用して各エピソードの開始時に9。 0.78
Due to this initialization, it allows modeling a varying number of classes per episode. この初期化により、エピソード毎に様々なクラスのモデリングが可能になる。 0.73
ProtoMAMLn Inspired by Wang et al. ProtoMAMLn Wang et alにインスパイアされた。 0.66
(2019), we propose a simple, yet effective adaptation to ProtoMAML by applying L2 normalization to the prototypes themselves, referred to as ProtoMAMLn, and, again, use a first-order approximation (foProtoMAMLn). (2019) では, プロトタイプ自体にL2正規化を適用して, 簡易かつ効果的なProtoMAMLへの適応を提案し, また, 1次近似 (foProtoMAMLn) を用いる。
訳抜け防止モード: (2019) では,プロトタイプ自体にL2正規化を適用した簡易かつ効果的なProtoMAML適応を提案する。 ProtoMAMLnと呼ばれるが、これも第1の順序近似(foProtoMAMLn )を使用する。
0.85
We demonstrate that doing so leads 私たちはそうしていることを証明します 0.43
英語(論文から抽出)日本語訳スコア
to a more stable, faster and effective learning algorithm at only constant extra computational cost (O(1)). 一定余分な計算コスト(o(1))で、より安定で高速で効果的な学習アルゴリズムを提供する。 0.80
We hypothesize the normalization to be particularly beneficial in case of a relatively highdimensional final feature space – in case of BERTlike models typically 768 dimensions. 我々は、正規化が比較的高次元の最終的な特徴空間の場合には特に有益であると仮定した - BERTのようなモデルの場合、通常768次元。 0.63
Let x be a sample and ˆx = fθ(x) be the encoding of the sample in the final feature space. x をサンプルとし、x = fθ(x) を最終特徴空間におけるサンプルの符号化とする。 0.79
Since the final activation function is the tanh activation, all entries of both ˆx and µc have values between -1 and 1. 最終的な活性化関数はtanhアクティベーションであるため、x と μc の全てのエントリは -1 と 1 の間の値を持つ。 0.77
The pre-softmax activation for class c is computed as ˆxT µc. クラス c の事前softmaxアクティベーションは sxT μc として計算される。 0.72
Due to the size of the vectors and the scale of their respective entries, this in-product can yield a wide range of values, which in turn results in relatively high loss values, making the inner-loop optimization unstable. ベクトルの大きさとそれぞれのエントリのスケールにより、このin-productは幅広い値を生み出すことができ、結果として比較的高い損失値となり、内部ループ最適化は不安定となる。 0.80
3 Related work 3.1 Multilingual NLP Just as the deep learning era for monolingual NLP started with the invention of dense, lowdimensional vector representations for words (Mikolov et al., 2013b) so did cross-lingual NLP with works like those of Mikolov et al. 3 関連作業 3.1 多言語NLP 単言語NLPの深層学習時代と同じように,単語の高密度低次元ベクトル表現(Mikolov et al., 2013b)の発明から始まった。 0.64
(2013a); Faruqui et al. (2013a): Faruquiら。 0.60
(2014). More recently, multilingual and/or cross-lingual NLP is approached by training one shared encoder for multiple languages at once, either by explicitly aligning representations with the use of parallel corpora (Artetxe and Schwenk, 2019; Lample and Conneau, 2019) or by jointly training on some monolingual language model objective, such as the Masked Language Model (MLM) (Devlin et al., 2018), in multiple languages (Devlin et al., 2018; Conneau et al., 2019). (2014). 最近では、マルチリンガルおよび/またはクロスリンガルのNLPは、複数の言語のための1つの共有エンコーダを一度にトレーニングすることでアプローチされ、複数の言語(Devlin et al., 2018; Conneau et al., 2019; Conneau et al.)でパラレルコーパス(Artetxe and Schwenk, 2019; Lample and Conneau, 2019)や、Masked Language Model (MLM) (Devlin et al., 2018; Conneau et al., 2019)のようなモノリンガル言語モデルの目標を共同でトレーニングする。 0.81
The formerly described language models aim to create a shared embedding space for multiple languages with the hope that fine-tuning in one language does not degrade performance in others. 前述した言語モデルは、ある言語での微調整が他の言語のパフォーマンスを低下させないことを期待して、複数の言語のための共有組み込み空間を作ることを目指している。 0.62
Lai et al. lai et al の略。 0.56
(2019) argue that just aligning languages is not sufficient to generalize performance to new languages due to the phenomenon they describe as domain drift. (2019) は、言語を整合させるだけでは、ドメインドリフトと呼ばれる現象のため、新しい言語にパフォーマンスを一般化するには不十分であると主張している。
訳抜け防止モード: (2019年) 言語を並べるだけで ドメインドリフトと呼ばれる現象のため、パフォーマンスを新しい言語に一般化するには不十分です。
0.73
Domain drift accounts for all differences for the same tasks in different languages which cannot be captured by a perfect translation system, such as differences in culture. ドメインドリフトは、文化の違いなど、完全な翻訳システムでは捉えられない異なる言語における同じタスクのすべての違いを説明します。 0.78
They instead propose a multi-step approach which utilizes a multilingual teacher trained with Unsupervised Data Augmentation (UDA) (Xie et al., 2019) to create labels for a student model that is pretrained on large amounts of unlabeled data in the target lan- 彼らは代わりに、Unsupervised Data Augmentation (UDA) (Xie et al., 2019)で訓練された多言語教師を用いて、ターゲットラン内の大量の未ラベルデータに基づいて事前訓練された学生モデルのラベルを作成する多段階的アプローチを提案する。 0.76
guage and domain using the MLM objective. MLM の目的を用いた guage と domain。 0.82
With their method, the authors obtain state-of-the-art results on the MLDoc document classification task (Schwenk and Li, 2018) and the Amazon Sentiment Polarity Review task (Prettenhofer and Stein, 2010). これらの手法を用いて,MLDoc文書分類タスク(Schwenk and Li, 2018)とAmazon Sentiment Polarity Reviewタスク(Prettenhofer and Stein, 2010)について,最先端の成果を得た。 0.78
A downside, however, is the high computational cost involved. しかし、その欠点は計算コストが高いことだ。 0.60
For every language and domain combination: 1) a machine translation system has to be inferred on a large amount of unlabeled samples; 2) the UDA method needs to be applied to obtain a teacher model to generate pseudo-labels on the unlabeled in-domain data; 3) a language model must be finetuned, which involves forwards and backwards computation of a softmax function over a large output space (e.g., 50k tokens for mBERT and 250k tokens for XLM-RoBERTa). 1) 機械翻訳システムは大量の未ラベルのサンプルに対して推論されなければならない; 2) 未ラベルのドメインデータ上で擬似ラベルを生成するための教師モデルを得るためには、UDA法を適用する必要がある; 3) 言語モデルは、大きな出力空間(例えば、mBERTの50kトークンとXLM-RoBERTaの250kトークン)上のソフトマックス関数の前方と後方の計算を含む微調整が必要である。 0.78
The final classifier is then obtained by 4) training the finetuned language model on the pseudo-labels generated by the teacher. 最終的な分類器は、4)教師が生成した擬似ラベルで微調整された言語モデルを訓練することで得られる。 0.68
3.2 Meta-learning in NLP Monolingual Bansal et al. 3.2 NLPモノリンガルバンサル等におけるメタラーニング 0.68
(2019) apply metalearning to a wide range of NLP tasks within a monolingual setting and show superior performance for parameter initialization over selfsupervised pretraining and multi-task learning. (2019) メタラーニングをモノリンガル設定内の幅広いNLPタスクに適用し, 自己教師付き事前学習やマルチタスク学習よりもパラメータ初期化に優れた性能を示す。 0.77
Their method is an adaptation of MAML where a combination of a text-encoder, BERT (Devlin et al., 2018), is coupled with a parameter generator that learns to generate task-dependent initializations of the classification head such that metalearning can be performed across tasks with disjoint label spaces. それらの手法はMAMLの適応であり、テキストエンコーダであるBERT(Devlin et al., 2018)とパラメータジェネレータが結合し、分類ヘッドのタスク依存初期化を生成し、メタラーニングを非結合ラベル空間でタスク間で実行できるようにする。 0.74
Obamuyide and Vlachos (2019b) apply meta-learning on the task of relation extraction; Obamuyide and Vlachos (2019a) apply lifelong meta-learning for relation extraction; Chen et al. Obamuyide と Vlachos (2019b) は関係抽出のタスクにメタラーニングを適用し、Obamuyide と Vlachos (2019a) は関係抽出に生涯メタラーニングを適用している。
訳抜け防止モード: Obamuyide と Vlachos (2019b ) のメタ-ラーニングによる関係抽出の課題 ; Obamuyide と Vlachos (2019a ) は生涯のメタ-学習を関係抽出に適用する。
0.81
(2019) apply meta-learning for few-shot learning on missing link prediction in knowledge graphs. (2019) メタラーニングを知識グラフにおけるリンク予測の欠如に応用した。 0.77
Multilingual Gu et al. 多言語Gu et al。 0.77
(2018) apply metalearning to Neural Machine Translation (NMT) and show its advantage over strong baselines such as cross-lingual transfer learning. (2018) は, メタラーニングをニューラルネットワーク翻訳 (NMT) に適用し, 言語間移動学習のような強いベースラインに対して優位性を示す。 0.66
By viewing each language pair as a task, the authors apply MAML to obtain competitive NMT systems with as little as 600 parallel sentences. 各言語対をタスクとして見ることにより、著者らは600以上の並列文で競合するnmtシステムを得るためにmamlを適用する。 0.71
To our best knowledge, the only application of meta-learning for cross-lingual few-shot learning is the one by Nooralahzadeh et al. 私たちの最良の知識に、クロスリンガルの少人数学習のためのメタラーニングの唯一の適用は、Nooralahzadehらによるものです。 0.55
(2020). The authors study the application of X-MAML, a MAML-based variant, to crosslingual Natural Language Inference (XNLI) (Conneau et al., 2018) and Multilingual Question An- (2020). The author study the application of X-MAML, a MAML-based variant, to crosslingual Natural Language Inference (XNLI) (Conneau et al., 2018) and Multilingual Question An-- 0.91
英語(論文から抽出)日本語訳スコア
swering (MLQA) (Lewis et al., 2019) in both a cross-domain and cross-language setting. swering (mlqa) (lewis et al., 2019)は、クロスドメインとクロス言語の両方で動作する。 0.69
XMAML works by pretraining some model M on a high-resource task h to obtain initial model parameters θmono. XMAML は、あるモデル M を高リソースのタスク h 上で事前訓練し、初期モデルパラメータ θmono を得る。 0.75
Consecutively, a set L of one or more auxiliary languages is taken, and MAML is applied to achieve fast adaptation of θmono for l ∈ L. In their experiments, the authors use either one or two auxiliary languages and evaluate their method in both a zero- and few-shot setting. 1つ以上の補助言語の集合 L を取り、MAML を用いて l ∈ L に対してθmono を高速に適応させる。
訳抜け防止モード: 簡潔に、1つ以上の補助言語の集合 L を取る。 θmono の l ∈ L への高速適応を実現するためにMAML を適用した。 著者らは1つか2つの補助言語を使用し、そのメソッドをゼロと少数のショット設定の両方で評価する。
0.74
It should be noted that, in the few-shot setting, the full development set (2.5k instances) is used to finetune the model, which is not in line with other work on few-shot learning, such as (Bansal et al., 2019). 数ショット設定では、完全な開発セット(2.5kインスタンス)を使用してモデルを微調整します。これは、例えば(Bansal et al., 2019)、数ショット学習に関する他の作業とは一致していません。 0.75
Also, there is a discrepancy in the training set used for the baselines and their proposed method. また,ベースラインに使用するトレーニングセットと提案手法には相違点がある。 0.61
All reported baselines are either zero-shot evaluations of θmono or of θmono finetuned on the development set of the target language, whereas their proposed method additionally uses the development set in either one or two auxiliary languages during meta-training. 報告されたすべてのベースラインは、ターゲット言語の開発セットで「モノ」のゼロショット評価または「モノ」の微調整のいずれかであるが、提案された方法は、メタトレーニング中に1つまたは2つの補助言語で開発セットを使用する。 0.60
4 Data In this section, we give an overview of the datasets we use and the respective classification tasks. 4データ このセクションでは、使用するデータセットとそれぞれの分類タスクの概要を説明します。 0.76
MLDoc Schwenk and Li (2018) published an improved version of the Reuters Corpus Volume 2 (Lewis et al., 2004) with balanced class priors for all languages. mldoc schwenk と li (2018) は、すべての言語でバランスのとれたクラスプリエントを持つ reuters corpus volume 2 (lewis et al., 2004) の改良版を出版した。 0.78
MLDoc consists of news stories in 8 languages: English, Spanish, French, Italian, Russian, Japanese and Chinese. mldocは英語、スペイン語、フランス語、イタリア語、ロシア語、日本語、中国語の8つの言語からなる。 0.71
Each news story is manually classified into one of four groups: Corporate/Industrial , Economics, Government/Social and Markets. 各ニュース記事は、企業・産業・経済・政府・社会・市場という4つのグループに手作業で分類される。 0.57
The train datasets contain 10k samples whereas the test sets contain 4k samples. 列車のデータセットは10kサンプルを含み、テストセットは4kサンプルを含む。 0.69
Amazon Sentiment Polarity Another widely used dataset for cross-lingual text classification is the Amazon Sentiment Analysis dataset (Prettenhofer and Stein, 2010). Amazon Sentiment Polarity 多言語テキスト分類に広く使用されているデータセットは、Amazon Sentiment Analysisデータセット(Prettenhofer and Stein, 2010)である。 0.79
The dataset is a collection of product reviews in English, French, German and Japanese in three categories: books dvds and music. このデータセットは、本dvdsと音楽の3つのカテゴリで、英語、フランス語、ドイツ語、日本語の製品レビューのコレクションです。 0.69
Each sample consists of the original review accompanied by meta-data such as the rating of the reviewed product expressed as an integer on a scale from one to five. 各サンプルは、1から5までのスケールで整数として表されるレビューされた製品の評価のようなメタデータを伴う元のレビューで構成されます。 0.76
In this work, we consider the sentiment polarity task where we distinguish between positive (rating > 3) and negative (rating < 3) reviews. 本研究では,肯定的評価(評価>3)と否定的評価(評価<3)を区別する感情極性課題について考察する。 0.64
When all product categories are concatenated, the dataset consists of 6K samples per language per dataset (train, test). すべての製品カテゴリが連結されると、データセットは言語毎(トレーニング、テスト)で6kサンプルで構成される。 0.74
We extend this with Chinese product reviews in the cosmetics domain from JD.com (Zhang et al., 2015), a large e-commerce website in China. これを延長し 中国製品レビューはjd.com(zhang et al., 2015)の化粧品ドメインにある。
訳抜け防止モード: これを延長し JD.com(Zhang et al , 2015)の化粧品分野における中国の製品レビュー 中国にある大規模なeコマースサイト。
0.72
The train and test sets contain 2k and 20k samples respectively. 列車と試験装置はそれぞれ2kと20kのサンプルを含む。 0.72
5 Experiments We use XLM-RoBERTa (Conneau et al., 2019), a strong multilingual model, as the base-learner in all models. 5 実験 xlm-roberta (conneau et al., 2019) は、すべてのモデルでベースとなる、強力な多言語モデルである。 0.76
We quantify the strengths and weaknesses of meta-learning as opposed to traditional supervised learning in both a cross- and a multilingual joint-training setting with limited resources. 我々は,資源制限のある多言語共同学習環境において,従来の教師付き学習とは対照的に,メタラーニングの強みと弱みを定量化する。 0.66
Cross-lingual adaptation Here, the available data is split into multiple subsets: the auxiliary languages laux which are used in meta-training, the validation language ldev which is used to monitor performance, and the target languages ltgt which are kept unseen until meta-testing. ここで利用可能なデータは、メタトレーニングに使用される補助言語 laux、パフォーマンスを監視するために使用される検証言語 ldev、メタテストまで見えないターゲット言語 ltgt という複数のサブセットに分割されます。 0.75
Two scenarios in terms of amounts of available data are considered. 利用可能なデータの量の観点から2つのシナリオが考慮されます。 0.64
A small sample of the available training data of laux is taken to create a limited-resource setting, whereas all available training data of laux is used in a high-resource setting. lauxの利用可能なトレーニングデータの小さなサンプルは、限られたリソース設定を作成するために取られるが、lauxの利用可能なトレーニングデータはすべて、高リソース設定で使用される。 0.70
The chosen training data per language is split evenly and stratified over two disjoint sets from which the meta-training support and query samples are sampled, respectively. 選択された言語毎のトレーニングデータを均等に分割し、メタトレーニングサポートとクエリサンプルをそれぞれサンプリングする2つの分離セットに階層化する。 0.72
For meta-testing, one batch (16 samples) is taken from the training data of each target language as support set, while we test on the whole test set per target language (i.e., the query set). メタテストでは、各ターゲット言語のトレーニングデータから1つのバッチ(16サンプル)をサポートセットとして取得し、ターゲット言語(すなわちクエリセット)ごとのテストセット全体をテストします。 0.81
Multilingual joint training We also investigate meta-learning as an approach to multilingual jointtraining in the same limited-resource setting as previously described for the cross-lingual experiments. また,前述したような限定的資源環境下での多言語共同学習へのアプローチとして,メタラーニングについても検討した。 0.59
The difference is that instead of learning to generalize to ltgt (cid:54)= laux from few examples, here ltgt = laux. 違いは、ltgt (cid:54)= laux を少数の例から一般化する代わりに、ここで ltgt = laux を学習することである。 0.77
If we can show that one can learn many similar tasks across languages from few examples per language, using a total number of examples in the same order of magnitude as in “traditional” supervised learning for training a monolingual classifier, this might be an incentive to change data collection processes in practice. 言語ごとに少数の例から、言語間の類似したタスクの多くを学習できることを示すことができるなら、モノリンガル分類器を訓練するために「伝統的な」教師付き学習と同じ大きさのサンプルの合計数を使用して、これは実際にデータ収集プロセスを変更するインセンティブになるかもしれません。 0.73
For both experimental settings above, we examine the influence of additionally using all training data from a high-resource language lsrc during meta-training, English. 以上の2つの実験環境において,メタトレーニング中の高リソース言語 lsrc の学習データに付加的な効果が与える影響について検討した。 0.61
英語(論文から抽出)日本語訳スコア
MetaUpdate Method Num inner-loop steps Reptile foMAML foProtoMAMLn MetaUpdate Method Num inner-loop steps Reptile foMAML foProtoMAMLn 0.96
2,3,5 2,3,5 2,3,5 2,3,5 2,3,5 2,3,5 0.29
Inner-loop lr 1e-5, 5e-5, 1e-4 1e-5, 1e-4, 1e-3 1e-5, 1e-4, 1e-3 内ループlr 1e-5, 5e-5, 1e-4 1e-5, 1e-4, 1e-3 1e-5, 1e-4, 1e-3 0.44
Class-head lr multiplier 1, 10 1, 10 1, 10 クラスヘッドlr乗数 1, 10 1, 10 1, 10 0.77
Inner-optimizer lr3e-5, 6e-5, 1e-4 3e-5, 6e-5, 1e-4 内最適化剤lr3e-5,6e-5,1e-43e-5 ,6e-5,1e-4 0.31
Table 1: Search range per hyper-parameter. 表1:ハイパーパラメータごとの検索範囲。 0.83
We consider the number of update steps in the inner-loop, Num innerloop steps, the (initial) learning rate of the inner-loop, Inner-loop lr, the factor by which the learning rate of the classification head is multiplied, Class-head lr multiplier, and, if applicable, the learning rate with which the innerloop optimizer is updated, Inner-optimizer lr. 内ループ,Num内ループステップ,内ループ,内ループlrの(初期)学習率,分類ヘッドの学習率が乗算される要因,クラスヘッドlr乗算器,適用可能な場合,内ループオプティマイザが更新される学習率,内ループlrについて検討する。
訳抜け防止モード: インナーループ、Numインナーループステップの更新ステップの数について検討する。 内ループの(最初の)学習率 内部 - ループ lr で、その要素は 分類ヘッドの学習速度は乗算されます クラス - ヘッドlr乗算器、適用可能であれば、インナーループオプティマイザが更新される学習率。 内部 - 最適化子lr。
0.69
The chosen value is underlined. 選択した値は下線です。 0.73
lsrc = en Method lsrc = en 方法 0.81
Excluded Included Non-episodic ProtoNet foMAML foProtoMAMLn Reptile Zero-shot Non-episodic ProtoNet foMAML foProtoMAMLn Reptile 除外 含む Non-episodic ProtoNet foProtoMAMLn Reptile Zero-shot Non-episodic ProtoNet foProtoMAMLn Reptile 0.72
de 82.0 90.5 89.7 90.6 87.9 92.4 93.7 93.4 95.1 94.9 92.3 de 82.0 90.5 89.7 90.6 87.9 92.4 93.7 93.4 95.1 94.9 92.3 0.44
Limited-resource setting fr 86.7 85.0 85.5 86.2 81.8 92.1 91.3 91.9 91.2 91.7 91.4 限定資源設定 fr 86.7 85.0 85.5 86.2 81.8 92.1 91.3 91.9 91.2 91.7 91.4 0.44
ru 70.9 69.6 74.0 73.6 73.9 71.7 71.1 72.2 73.3 75.2 71.8 ru 70.9 69.6 74.0 73.6 73.9 71.7 71.1 72.2 73.3 75.2 71.8 0.44
ja 71.9 75.0 74.1 75.6 74.4 81.0 80.6 81.3 79.6 81.4 79.5 ja 71.9 75.0 74.1 75.6 74.4 81.0 80.6 81.3 79.6 81.4 79.5 0.44
it 68.3 76.6 74.1 77.8 72.7 80.3 81.5 79.1 79.5 81.5 79.7 it 68.3 76.6 74.1 77.8 72.7 80.3 81.5 79.1 79.5 81.5 79.7 0.44
zh 81.0 82.0 83.2 83.8 80.9 89.1 88.4 87.8 89.7 89.9 88.1 zh 81.0 82.0 83.2 83.8 80.9 89.1 88.4 87.8 89.7 89.9 88.1 0.44
∆ 76.8 79.8 80.1 80.7 78.6 84.4 84.4 84.5 84.6 85.5 83.8 ∆ 76.8 79.8 80.1 80.7 78.6 84.4 84.4 84.5 84.6 85.5 83.8 0.44
High-resource setting ja de 82.9 95.3 95.5 82.2 82.7 95.0 83.1 95.6 82.7 95.0 81.0 92.4 93.7 82.3 82.7 95.0 82.4 94.8 83.0 95.8 94.8 82.0 High-resource setting ja de 82.9 95.3 95.5 82.2 82.7 95.0 83.1 95.6 82.7 95.0 81.0 92.4 93.7 82.3 82.7 95.0 82.4 94.8 83.0 95.8 94.8 82.0 0.44
fr 90.9 91.7 91.4 92.1 90.1 92.1 92.9 91.7 93.2 94.1 91.0 fr 90.9 91.7 91.4 92.1 90.1 92.1 92.9 91.7 93.2 94.1 91.0 0.44
it 80.9 82.0 81.4 82.6 81.1 80.3 82.4 81.1 79.9 82.7 80.2 it 80.9 82.0 81.4 82.6 81.1 80.3 82.4 81.1 79.9 82.7 80.2 0.44
ru 74.5 76.6 76.9 77.9 72.5 71.7 72.1 72.0 75.7 81.2 72.7 ru 74.5 76.6 76.9 77.9 72.5 71.7 72.1 72.0 75.7 81.2 72.7 0.44
zh 89.6 87.4 87.8 88.9 88.7 89.1 90.1 88.0 90.6 90.4 89.9 zh 89.6 87.4 87.8 88.9 88.7 89.1 90.1 88.0 90.6 90.4 89.9 0.44
∆ 85.7 85.9 86.1 86.7 85.0 84.4 85.6 85.9 86.1 87.9 85.1 ∆ 85.7 85.9 86.1 86.7 85.0 84.4 85.6 85.9 86.1 87.9 85.1 0.44
Table 2: Average accuracy of 5 different seeds on the unseen target languages for MLDoc. 表2: MLDocの未確認対象言語における5つの異なるシードの平均精度。 0.80
∆ corresponds to the average accuracy across test languages. はテスト言語全体の平均精度に対応する。 0.65
5.1 Specifics per dataset MLDoc As MLDoc has sufficient languages, we set lsrc = English and ldev = Spanish. 5.1 データセット毎の特定 MLDocに十分な言語があるため、lsrc = English と ldev = Spanish をセットします。 0.72
The remaining languages are split in two groups: laux = {German, Italian, Japanese}; and ltgt = {French, Russian, Chinese}. 残りの言語は、laux = {German, Italian, Japanese} とltgt = { French, Russian, Chinese} の2つのグループに分けられる。 0.85
In the limitedresource setting, we randomly sample 64 samples per language in laux for training. 限定リソース設定では、トレーニングのために言語毎に64サンプルをランダムにサンプリングします。 0.71
Apart from comparing low- and high-resource settings, we also quantify the influence of augmenting the training set laux with a high-resource source language lsrc, English. 低リソースと高リソースのセッティングの比較とは別に、トレーニングセットラックスを高リソースのソース言語 lsrc, 英語で拡張する影響も定量化します。 0.74
Amazon Sentiment Polarity The fact that the Amazon dataset (augmented with Chinese) comprises of only five languages has some implications for our experimental design. Amazon Sentiment Polarity Amazonデータセットが(中国語で拡張された)わずか5つの言語で構成されているという事実は、我々の実験設計にいくつかの意味を持つ。
訳抜け防止モード: Amazon Sentiment Polarity:その事実 Amazonのデータセット(中国語で拡張された)はわずか5つの言語からなる 実験的なデザインに 意味があります
0.79
In the cross-lingual experiments, where laux, ldev and ltgt should be disjoint, only three languages, including English, remain for meta-training. laux、ldev、ltgtが解離すべき言語間実験では、英語を含む3つの言語のみがメタトレーニングのために残っている。 0.64
As we consider two languages too little data for meta-training, we do not experiment with leaving out the English data. メタトレーニングのためのデータが少ない2つの言語を考えるので、英語のデータを残す実験はしません。 0.73
Hence, for meta-training, the data consists of lsrc = English, as well as two languages in laux. したがって、メタトレーニングでは、データは lsrc = English と laux の2つの言語で構成される。 0.86
We always keep one language unseen until meta-testing, and alter laux such that we can meta-test on every language. メタテストまで、私たちは常に1つの言語を無視し、すべての言語でメタテストできるようにlauxを変更します。 0.61
We set ldev = French in all cases except すべての場合において ldev = フランス語 とする。 0.64
when French is used as the target language; then, ldev = Chinese. フランス語がターゲット言語として使われる場合、ldev = Chinese となる。 0.83
In the limited-resource setting, a total of 128 samples per language in laux is used. 限られたリソース設定では、ラックスで言語毎に128のサンプルが使用される。 0.77
For the multilingual joint-training experiments there are enough languages available to quantify the influence of English during meta-training. 多言語共同学習実験では、メタトレーニング中の英語の影響を定量化するのに十分な言語が存在する。 0.64
When English is excluded, it is used for metavalidation. 英語が除外されると、メタバリデーションに使用されます。 0.61
When included, we average results over two sets of experiments: one where ldev = French and one where ldev = Chinese. 1つは ldev = French であり、もう1つは ldev = Chinese である。
訳抜け防止モード: 含めれば、2つの実験セットの平均結果: 1つは ldev = French である。 そして ldev = Chinese である。
0.86
5.2 Baselines We introduce baselines trained in a standard supervised, non-episodic fashion. 5.2 ベースライン 標準的な教師付き非エポゾディックな方法でトレーニングされたベースラインを導入する。 0.55
Again, we use XLMRoBERTa-base as the base-learner in all models. 繰り返しますが、xlmroberta-baseをすべてのモデルのベースリーナーとして使用します。 0.48
Zero-shot This baseline assumes sufficient training data for the task to be available in one language lsrc (English). ゼロショット このベースラインは、タスクが1つの言語lsrc(英語)で利用できるのに十分なトレーニングデータを想定している。 0.61
The base-learner is trained in a nonepisodic manner using mini-batch gradient descent with cross-entropy loss. ベースリーナーは、クロスエントロピー損失を伴うミニバッチ勾配降下を使用して非分離的に訓練される。
訳抜け防止モード: 基礎 - 学習者は素直に訓練される クロスエントロピー損失を伴うミニ-バッチ勾配降下を使用する。
0.56
Performance is monitored during training on a held-out validation set in lsrc, the model with the lowest loss is selected, and then evaluated on the same task in the target languages. lsrcで保持された検証セット上で、トレーニング中にパフォーマンスが監視され、最小損失のモデルが選択され、ターゲット言語で同じタスクで評価される。 0.76
Non-episodic The second baseline aims to quantify the exact impact of learning a model through the meta-learning paradigm versus standard super- 非分離的第2のベースラインは、メタラーニングパラダイムと標準スーパーによるモデル学習の正確な影響を定量化することを目的としている。
訳抜け防止モード: 非エピソディック 第2のベースラインは メタ学習パラダイムと標準スーパーによるモデル学習の正確な影響を定量化します。
0.71
英語(論文から抽出)日本語訳スコア
Method Zero-shot Non-episodic ProtoNet foMAML foProtoMAMLn Reptile 方法 Zero-shot Non-episodic ProtoNet foMAML fo ProtoMAMLn Reptile 0.72
Limited-resource setting de 91.2 90.9 89.7 88.3 89.0 88.1 リミテッドリソース設定 de 91.2 90.9 89.7 88.3 89.0 88.1 0.46
zh 84.6 86.9 85.2 88.1 88.8 87.5 zh 84.6 86.9 85.2 88.1 88.8 87.5 0.47
fr 90.7 90.6 90.2 90.5 91.1 87.9 fr 90.7 90.6 90.2 90.5 91.1 87.9 0.47
ja 87.0 86.1 86.6 86.8 87.3 86.8 ja 87.0 86.1 86.6 86.8 87.3 86.8 0.47
∆ 88.4 88.6 87.9 88.4 89.1 87.6 ∆ 88.4 88.6 87.9 88.4 89.1 87.6 0.47
High-resource setting zh de 84.6 91.2 87.9 91.6 90.7 84.0 90.4 91.4 92.0 89.8 90.6 86.2 高リソース設定 zh de 84.6 91.2 87.9 91.6 90.7 84.0 90.4 91.4 92.0 89.8 90.6 86.2 0.45
fr 90.7 91.0 92.0 92.5 93.1 91.7 fr 90.7 91.0 92.0 92.5 93.1 91.7 0.47
ja 87.0 85.5 86.7 88.0 88.6 87.3 ja 87.0 85.5 86.7 88.0 88.6 87.3 0.47
∆ 88.4 89.0 88.4 90.6 90.9 89.0 ∆ 88.4 89.0 88.4 90.6 90.9 89.0 0.47
Table 3: Average accuracy of 5 different seeds on the unseen target languages for Amazon. 表3:Amazonの目に見えないターゲット言語の5つの異なるシードの平均精度。 0.77
∆ corresponds to the average accuracy across test languages. はテスト言語全体の平均精度に対応する。 0.65
vised learning. The model learns from exactly the same data as the meta-learning algorithms, but in a non-episodic manner: i.e., merging support and query sets in laux (and lsrc when included) and training using mini-batch gradient descent with cross-entropy loss. 視覚的な学習 このモデルはメタ学習アルゴリズムと全く同じデータから学習するが、非エポゾリックな方法で学習する:すなわち、ラックス(およびlsrc)でサポートとクエリセットをマージし、クロスエントロピー損失を伴うミニバッチ勾配勾配を用いたトレーニングを行う。 0.67
During testing, the trained model is independently finetuned for 5 steps on the support set (one mini-batch) of each target language ltgt. テスト中、トレーニングされたモデルは、各ターゲット言語ltgtのサポートセット(1つのミニバッチ)で5ステップ独立に微調整される。 0.71
5.3 Training setup and hyper-parameters We use the Ranger optimizer, an adapted version of Adam (Kingma and Ba, 2014) with improved stability at the beginning of training – by accounting for the variance in adaptive learning rates (Liu et al., 2019) – and improved robustness and convergence speed (Zhang et al., 2019; Yong et al., 2020). 5.3 トレーニングセットアップとハイパーパラメータ トレーニング開始時の安定性向上 – 適応学習率のばらつき(liu et al., 2019)を考慮し、堅牢性と収束速度の向上(zhang et al., 2019; yong et al., 2020)を備えた、adam(kingma and ba, 2014)の適応バージョンであるrangerオプティマイザを使用する。 0.84
We use a batch size of 16 and a learning rate of 3e-5 to which we apply cosine annealing. 我々は16のバッチサイズと3e-5の学習率を使用し、コサインアニールを適用した。 0.74
For meta-training, we perform 100 epochs of 100 episodes and perform evaluation with 5 different seeds on the meta-validation set after each epoch. メタトレーニングでは,100エピソードの100エポックを実行し,各エポックの後に設定したメタ評価セット上で5種類の種を用いて評価を行う。 0.55
One epoch consists of 100 update steps where each update step consists of a batch of 4 episodes. 1つのエポックは100の更新ステップで構成され、各更新ステップは4つのエピソードからなる。 0.69
Earlystopping with a patience of 3 epochs is performed to avoid overfitting. オーバーフィットを避けるために、忍耐力3エポックの早期停止を行う。 0.60
For the non-episodic baselines, we train for 10 epochs on the auxiliary languages while validating after each epoch. 非エポゾディックベースラインでは、補助言語で10のエポックを訓練し、各エポックの後に検証する。 0.50
All models are created using the PyTorch library (Paszke et al., 2017) and trained on a single 24Gb NVIDIA Titan RTX GPU. すべてのモデルは、PyTorchライブラリ(Paszke et al., 2017)を使用して作成され、単一の24Gb NVIDIA Titan RTX GPUで訓練されます。 0.76
We perform grid search on MLDoc in order to determine optimal hyperparameters for the MetaUpdate methods. MLDoc上でグリッド検索を行い、MetaUpdateメソッドに最適なハイパーパラメータを決定します。 0.76
The hyper-parameters resulting in the lowest loss on ldev = Spanish are used in all experiments. ldev = スペイン語の損失が最も低い超パラメータは、すべての実験で使用される。 0.76
The number of update steps in the inner-loop is 5; the (initial) learning rate of the inner-loop is 1e-5 for MAML and ProtoMAML and 5e-5 for Reptile; the factor by which the learn- インナーループの更新ステップ数は5であり、インナーループの(初期)学習速度はMAMLが1e-5、ProtoMAMLが5e-5、Reptileが5e-5である。 0.73
ing rate of the classification head is multiplied is 10 for MAML and ProtoMAML and 1 for Reptile; when applicable, the learning rate with which the inner-loop optimizer is updated is 6e-5. 分類ヘッドのインジ率を乗算すると MAML と ProtoMAML は 10、レプタイルは 1 となり、該当する場合はインナーループオプティマイザを更新した学習率を 6e-5 とする。 0.80
See Table 1 for the considered grid. 考慮されたグリッドの表1を参照。 0.71
6 Results Cross-lingual adaptation Tables 2 and 3 show the accuracy scores on the target languages on MLDoc and Amazon respectively. 6結果 クロス言語適応表2と3は、MLDocとAmazonのターゲット言語の精度スコアをそれぞれ示している。 0.80
We start by noting the strong multilingual capabilities of XLMRoBERTa as our base-learner: Adding the full training datasets in three extra languages (i.e., comparing the zero-shot with the non-episodic baseline in the high-resource, ‘Included’ setting) results in a mere 1.2% points increase in accuracy on average for MLDoc and 0.6% points for Amazon. xlmrobertaの強固なマルチリンガル機能に注意することから始めよう: 3つの余分な言語に完全なトレーニングデータセットを追加する(すなわち、ゼロショットと、高リソースの'インクルード'設定における非標準ベースラインを比較する)ことで、mldocの平均で1.2%の精度向上と、amazon 0.6%のポイントが得られます。 0.67
Although the zero-shot3 and non-episodic baselines are strong, in the majority of cases, a metalearning approach improves performance. ゼロショット3と非分離ベースラインは強力ですが、ほとんどの場合、メタラーニングアプローチはパフォーマンスを改善します。 0.57
This holds especially for our version of ProtoMAML (ProtoMAMLn), which achieves the highest average accuracy in all considered settings. これは特にProtoMAML(ProtoMAMLn )のバージョンで、考慮されたすべての設定で最高平均精度を達成しています。 0.76
The substantial improvements for Russian on MLDoc and Chinese on Amazon indicate that metalearning is most advantageous when the considered task distribution is somewhat heterogeneous or, in other words, when domain drift (Lai et al., 2019) is present. MLDoc上のロシア語とAmazon上の中国語の大幅な改善は、メタラーニングが何らかの不均一である場合や、ドメインドリフトが存在する場合(Lai et al., 2019)に最も有利であることを示している。 0.66
For the Chinese data used for the sentiment polarity task, the presence of domain drift is obvious as the data is collected from a different website and concerns different products than the other languages. 感情極性タスクに使用される中国のデータでは、異なるwebサイトからデータを収集し、他の言語とは異なる製品に関心を持つため、ドメインドリフトの存在は明らかです。 0.75
For Russian in the MLDoc dataset, it holds that the non-episodic baseline has the smallest gain in performance when adding English data (lsrc) in the limited-resource setting (0.2% absolute gain as MLDocデータセットのロシア語の場合、非分離ベースラインは、限られたリソース設定(0.2%絶対ゲイン)に英語データ(lsrc)を追加する際のパフォーマンスが最小である。 0.81
3The zero-shot baseline is only applicable in the ‘Included’ setting, as the English data is not available under ‘Excluded’. 3 ゼロショットベースラインは、英語データが ‘Excluded’ の下で利用できないため、 ‘Included’ 設定でのみ適用される。 0.83
英語(論文から抽出)日本語訳スコア
lsrc = en Method lsrc = en 方法 0.81
Excluded Included Non-episodic ProtoNet foMAML foProtoMAMLn Reptile Non-episodic ProtoNet foMAML foProtoMAMLn Reptile 除外 含む Non-episodic ProtoNet foprotoMAMLn Reptile Non-episodic ProtoNet foProtoMAMLn Reptile 0.75
de 88.4 86.7 88.3 88.9 86.1 91.0 90.3 90.1 90.7 90.0 de 88.4 86.7 88.3 88.9 86.1 91.0 90.3 90.1 90.7 90.0 0.44
fr 88.6 88.0 87.5 89.5 86.3 91.0 91.3 90.7 91.5 89.5 fr 88.6 88.0 87.5 89.5 86.3 91.0 91.3 90.7 91.5 89.5 0.44
Amazon ja 85.7 86.2 84.6 86.5 82.9 87.3 87.5 87.2 88.0 86.5 Amazon ja 85.7 86.2 84.6 86.5 82.9 87.3 87.5 87.2 88.0 86.5 0.65
zh 88.2 87.3 89.1 89.0 87.0 89.4 88.7 89.5 90.4 87.6 zh 88.2 87.3 89.1 89.0 87.0 89.4 88.7 89.5 90.4 87.6 0.44
∆ 87.7 87.1 86.3 88.5 85.6 89.8 89.5 89.4 90.2 88.4 ∆ 87.7 87.1 86.3 88.5 85.6 89.8 89.5 89.4 90.2 88.4 0.44
de 92.8 89.7 94.1 94.8 92.4 94.9 95.5 95.1 96.0 94.4 de 92.8 89.7 94.1 94.8 92.4 94.9 95.5 95.1 96.0 94.4 0.44
fr 89.1 87.6 89.7 89.5 88.2 92.1 91.7 92.5 93.6 93.1 fr 89.1 87.6 89.7 89.5 88.2 92.1 91.7 92.5 93.6 93.1 0.44
it 81.2 80.5 81.5 81.5 80.5 84.7 83.4 83.1 85.0 83.8 it 81.2 80.5 81.5 81.5 80.5 84.7 83.4 83.1 85.0 83.8 0.44
MLDoc ja 83.2 82.2 84.2 84.8 82.5 84.8 85.1 84.9 85.7 85.2 MLDoc ja 83.2 82.2 84.2 84.8 82.5 84.8 85.1 84.9 85.7 85.2 0.65
ru 84.0 80.6 77.6 81.0 79.5 83.7 82.8 84.3 84.8 83.6 ru 84.0 80.6 77.6 81.0 79.5 83.7 82.8 84.3 84.8 83.6 0.44
zh 87.4 85.2 87.5 88.7 87.8 91.4 88.3 90.6 90.8 90.4 zh 87.4 85.2 87.5 88.7 87.8 91.4 88.3 90.6 90.8 90.4 0.44
∆ 86.3 84.3 85.8 86.6 85.3 88.6 87.8 88.4 89.3 88.4 ∆ 86.3 84.3 85.8 86.6 85.3 88.6 87.8 88.4 89.3 88.4 0.44
Table 4: Average accuracy of 5 different seeds on the target languages in the joint-training setting for MLDoc and Amazon. 表4: MLDocとAmazonの合同トレーニング環境で、ターゲット言語上の5つの異なるシードの平均精度。 0.73
∆ corresponds to the average accuracy across test languages. はテスト言語全体の平均精度に対応する。 0.65
opposed to 5.7% on average for the remaining languages) and even a decrease of 2.4% points when adding English data in the high-resource setting. 残りの言語の平均で5.7%に対して)そして高リソース設定に英語データを追加するとき2.4%ポイントの減少。 0.85
Especially for these languages with domain drift, our version of ProtoMAML (foProtoMAMLn) outperforms the non-episodic baselines with a relatively large margin. 特にドメインドリフトを持つこれらの言語では、ProtoMAML(foProtoMAM Ln)の私たちのバージョンは、比較的大きなマージンで非分離ベースラインを上回っています。 0.65
For instance, in Table 2 in the high-resource setting with English included during training, foProtoMAMLn improves over the non-episodic baseline with 9.1% points whereas the average gain over the remaining languages is 0.9% points. 例えば、訓練中に英語を含む高リソース設定の表2では、foprotomamlnは9.1%の非標準ベースラインよりも改善され、残りの言語の平均利得は0.9%である。 0.70
A similar trend can be seen in Table 3 where, in the limited-resource setting, foProtoMAMLn outperforms the non-episodic baseline with 1.9% points on Chinese, with comparatively smaller gains on average for the remaining languages. 同様の傾向が表3で見られるように、限られたリソース設定では、foProtoMAMLnは中国語で1.9%ポイントの非エポゾディックベースラインを上回り、残りの言語では平均的な利得が比較的小さい。 0.77
Joint training In this setting, we achieve a new state of the art on MLDoc for German, Italian, Japanese and Russian using our method, foProtoMAMLn (Table 4).4 The previous state of the art for German and Russian is held by Lai et al. そこで,本稿では,ドイツ語,イタリア語,日本語,ロシア語のmldocに関する新たな技術であるfoprotomamln(第4表)と,前回のドイツ語とロシア語の技術をlaiらによって実施した。
訳抜け防止モード: 共同訓練では, ドイツ語, イタリア語, 日本語, ロシア語に対するMLDocの新たな技術状況が, 提案手法を用いて達成される。 foProtoMAMLn (表4.4) ドイツ語とロシア語の芸術の以前の状態はLai et al によって保持されている。
0.72
(2019) (95.73% and 84.65% respectively). (2019年、95.73%、84.65%)。 0.79
For Japanese and Italian, it is held by Eisenschlos et al. 日本とイタリアではeisenschlosらによって開催されている。 0.67
(2019) (80.55% and 80.12% respectively). (2019)80.55%,80.12%であった。 0.82
The state of the art for French and Chinese is also held by Lai et al. フランス語と中国語の芸術の状況も、Lai et alが保持している。 0.73
(2019) (96.05% and 93.32% respectively). (2019年、96.05%、93.32%)。 0.78
On the Amazon dataset, foProtoMAMLn also outperforms all other methods on average. Amazonデータセットでは、foProtoMAMLnは平均で他のすべてのメソッドよりも優れています。 0.59
The state of the art is held by (2019) with 93.3%, 94.2% and 90.6% for French, German and Chinese respectively and, although we do not outperform it, the differences are rather small – between 0.2% (Chinese) and 3.4% points (German) – even when grid search is based 2019年は93.3%、94.2%、90.6%がフランス語、ドイツ語、中国語で占められており、我々はそれを上回りませんが、違いはかなり小さいです - 0.2%(中国)と3.4%ポイント(ドイツ) - グリッド検索がベースになっている場合でも。 0.74
4The zero-shot baselines are the same as in Tables 2 and 3. 4 ゼロショットのベースラインは、表2と表3と同じです。 0.75
on MLDoc, while we use a much less computationally expensive approach. MLDocでは、計算コストの低いアプローチを採用しています。 0.77
Figure 1: Validation accuracy for 3 seeds for original foProtoMAML and our new method, foProtoMAMLn. 図1:オリジナルのfoProtoMAMLと新しいメソッドfoProtoMAMLnの3つのシードの検証精度。 0.72
Again, we use Russian in MLDoc to exemplify the difference between meta-learning and standard supervised learning. また、メタラーニングと標準教師あり学習の違いを実証するために、MLDocでロシア語を使用します。 0.63
When comparing the difference in performance between excluding and including English meta-training episodes (lsrc), opposite trends are noticeable: for standard supervised, nonepisodic learning, performance drops slightly by 0.3%, whereas all meta-learning algorithms gain between 2.2% and 6.7% in absolute accuracy. 英語メタトレーニングエピソード(lsrc)の除外と含むパフォーマンスの違いを比較すると、反対の傾向が顕著です。標準的な教師付き、非分離学習の場合、パフォーマンスは0.3%低下しますが、すべてのメタラーニングアルゴリズムは絶対精度で2.2%から6.7%になります。
訳抜け防止モード: 英語のメタ・トレーニングエピソード(lsrc)を除いた場合とそれを含む場合の比較 逆の傾向が注目される : 標準教師なし学習について パフォーマンスは0.3%低下しますが すべてのメタ学習アルゴリズムは絶対精度で2.2 %から6.7 %となる。
0.70
This confirms our earlier finding that meta-learning benefits from, and usefully exploits heterogeneity in data distributions; in contrast, this harms performance in the standard supervised-learning case. これは、メタラーニングがデータ分散の多様性を有効活用する、という初期の発見を裏付けるものであり、対照的に、標準的な教師付きラーニングの場合のパフォーマンスに悪影響を及ぼす。 0.41
7 Ablations foProtoMAMLn Figure 1 shows the development of the validation accuracy during training for 25 epochs for the original foProtoMAML and our model, foProtoMAMLn. 7 Ablations foProtoMAMLn 図1は、オリジナルのfoProtoMAMLと私たちのモデルであるfoProtoMAMLnの25エポックのトレーニング中の検証精度の開発を示しています。 0.81
By applying L2 normalization to the prototypes, we obtain a more stable version of foProtoMAML which empirically converges faster. プロトタイプに L2 正規化を適用することにより、より安定な foProtoMAML が得られ、より高速に収束する。 0.66
We furthermore re-run the high- さらに、highを再実行します。 0.40
英語(論文から抽出)日本語訳スコア
Dataset Amazon MLDoc データセット Amazon MLDoc 0.86
de 90.4 92.8 fr 90.9 92.4 90.4 92.8 fr 90.9 92.4 0.62
it78.6 ja 87.3 79.3 78.6 87.3 79.3 0.57
ru69.3 zh 88.3 88.9 ru69.3 zh 88.3 88.9 0.53
Diff -1.7 -4.3 Diff -1.7 -4.3 0.47
Table 5: Average accuracy of 5 different seeds on unseen target languages using the original/unnormalize d foProtoMAML model. 表5: 本来の/非正規化foprotomamlモデルを用いた、ターゲット言語における5つの異なる種の平均精度。 0.64
Diff is the difference in average accuracy ∆ across languages against foProtoMAMLn. Diff は、FoProtoMAMLn に対する言語間の平均精度の差である。 0.78
Method ProtoNet foMAML foProtoMAMLn Reptile 方法 ProtoNet foMAML foProtoMAMLn Reptile 0.81
Limited-resource setting de 91.1 90.8 87.7 89.3 91.1 90.8 87.7 89.3 の限定資源設定 0.52
zh 85.5 85.2 84.4 85.5 zh 85.5 85.2 84.4 85.5 0.50
fr 90.9 87.4 87.8 90.2 fr 90.9 87.4 87.8 90.2 0.50
ja 87.1 87.3 83.9 86.7 87.1 87.3 83.9 86.7 0.51
Diff +0.75 -0.75 -3.1 +0.35 Diff +0.75 -0.75 -3.1 +0.35 0.39
High-resource setting de zh 88.7 91.3 88.1 91.7 90.8 82.3 85.7 90.0 高リソース設定 de zh 88.7 91.3 88.1 91.7 90.8 82.3 85.7 90.0 0.48
fr 91.1 91.2 89.8 89.3 fr 91.1 91.2 89.8 89.3 0.50
ja 87.4 87.2 86.2 87.1 87.4 87.2 86.2 87.1 0.52
Diff +1.44 -1.13 -3.96 -1.04 Diff +1.44 -1.13 -3.96 -1.04 0.39
Table 6: Average accuracy of 5 different seeds on unseen target languages for Amazon when initializing from monolingual classifier in lsrc. 表6: lsrcの単言語分類器から初期化する際、amazonのターゲット言語で5つの異なる種の平均精度。 0.79
Diff : difference in average accuracy ∆ across languages compared to initializing from the XLM-RoBERTa language model. Diff : XLM-RoBERTa言語モデルからの初期化と比較すると、言語間の平均精度の差。 0.75
resource experiments with English for both MLDoc and Amazon using the original foProtoMAML (Table 5) and find it performs 4.3% and 1.7% accuracy points worse on average, respectively, further demonstrating the effectiveness of our approach. MLDocとAmazonの両方で、オリジナルのfoProtoMAML(テーブル5)を使用して英語によるリソース実験を行い、4.3%と1.7%の精度を平均的に悪化させ、アプローチの有効性をさらに実証しました。
訳抜け防止モード: オリジナルのfoProtoMAML(テーブル5)を使用したMLDocとAmazon用の英語によるリソース実験 平均で4.3%と1.7%の精度で それぞれ、我々のアプローチの有効性をさらに証明しています。
0.87
formed. This, in combination with the fact that the first-order approximation of ProtoMAML cannot differentiate through the creation of the prototypes, could explain the difference in performance gain with respect to ProtoNet. 形成された これは、プロトタイプの作成によってProtoMAMLの第一次近似が区別できないという事実と組み合わさって、ProtoNetに対するパフォーマンス向上の違いを説明することができる。 0.64
Initializing from a monolingual classifier In our experiments, we often assume the presence of a source language (English). 単言語分類器から初期化する 我々の実験では、しばしばソース言語(英語)の存在を仮定する。 0.81
We now investigate (in the lsrc = en ‘Excluded’ setting) whether it is beneficial to pre-train the base-learner in a standard supervised way on this source language and use the obtained checkpoint θmono as an initialization for meta-training (Table 6) rather than initializing from the transformer checkpoint. 現在、このソース言語上で標準教師付き方法でベースラーナーを事前学習することが有益かどうか(lsrc = en ‘Excluded’ 設定)を調査し、得られたチェックポイント θmono をトランスフォーマーチェックポイントから初期化するのではなく、メタトレーニングの初期化(Table 6)として使用する。 0.69
We observe that only ProtoNet consistently improves performance, whereas foProtoMAMLn suffers the most with a decrease of 3.1% and 3.96% in accuracy in the low- and high-resource setting respectively. ProtoNetだけがパフォーマンスを継続的に改善するのに対して、FoProtoMAMLnは低リソースと高リソースの設定でそれぞれ3.1%と3.96%の精度で最大の低下を被っている。 0.68
We surmise this difference is attributable to two factors. この違いは2つの要因に起因すると推測する。 0.67
Intuitively, the monolingual classifier aims to learn a transformation from the input space to the final feature space, from which the prototypes for ProtoNet and ProtoMAML are created, in which the learned classes are encoded in their own disjoint sub-spaces such that a linear combination of these features can be used to correctly classify instances. 直感的には、モノリンガル分類器は入力空間から最終特徴空間への変換を学習することを目的としており、そこから ProtoNet と ProtoMAML のプロトタイプが作成され、学習されたクラスは、これらの機能の線形結合がインスタンスを正しく分類するために使用されるように、それぞれの非結合部分空間にエンコードされる。 0.74
ProtoNet aims to learn a similar transformation, but uses a Nearest Neighbours approach to classify instances instead. ProtoNetは、同様の変換を学ぶことを目的としているが、Nearest Neighboursアプローチを使用してインスタンスを分類する。 0.63
ProtoMAML on the other hand benefits the most from prototypes which can be used to classify instances after the inner-loop updates have been per- 一方、ProtoMAMLは、インナーループのアップデートが毎回行われた後、インスタンスの分類に使用できるプロトタイプの利点が最も大きい。 0.64
8 Conclusion We proposed a meta-learning framework for fewshot cross- and multilingual joint-learning for document classification tasks in different domains. 8 結論 異なる領域における文書分類タスクのための多言語間共同学習のためのメタラーニングフレームワークを提案した。 0.72
We demonstrated that it leads to consistent gains over traditional supervised learning on a wide array of data availability and diversity settings, and showed that it thrives in settings with a heterogenous task distribution. 幅広いデータ可用性と多様性設定において、従来の教師付き学習よりも一貫した利益をもたらすことを実証し、異種タスク分散による設定で繁栄することを示した。 0.74
We presented an effective adaptation to ProtoMAML and, among others, obtained a new state of the art on German, Italian, Japanese and Russian in the few-shot setting on MLDoc. 我々はProtoMAMLに効果的な適応を提示し、MLDocのいくつかの場面でドイツ語、イタリア語、日本語、ロシア語に関する新しい技術状況を得た。 0.72
9 Acknowledgements This work was supported by Deloitte Risk Advisory B.V., the Netherlands. 9 承認 この作業はオランダのDeloitte Risk Advisory B.V.によって支援された。 0.70
References Antreas Antoniou, Harrison Edwards, and Amos Storkey. Antreas Antoniou、Harrison Edwards、Amos Storkeyなどを参照。 0.77
2018. How to train your maml. 2018. あなたのmamlを訓練する方法。 0.75
arXiv preprint arXiv:1810.09502. arXiv preprint arXiv:1810.09502 0.71
Mikel Artetxe and Holger Schwenk. Mikel ArtetxeとHolger Schwenk。 0.76
2019. Massively multilingual sentence embeddings for zeroshot cross-lingual transfer and beyond. 2019. ゼロショットクロスリンガル転送などのための大規模な多言語文埋め込み。 0.69
Transactions of the Association for Computational Linguistics, 7:597–610. 計算言語学会の取引、7:597–610。 0.69
英語(論文から抽出)日本語訳スコア
Trapit Bansal, Rishikesh Jha, and Andrew McCallum. Trapit Bansal、Rishikesh Jha、Andrew McCallum。 0.59
2019. Learning to few-shot learn across diverse natural language classification tasks. 2019. さまざまな自然言語分類タスクから数ショットの学習。 0.78
arXiv preprint arXiv:1911.03863. arXiv preprint arXiv:1911.03863 0.72
Gregory Koch, Richard Zemel, and Ruslan Salakhutdinov. Gregory Koch、Richard Zemel、Ruslan Salakhutdinov。 0.67
2015. Siamese neural networks for one-shot image recognition. 2015. siameseニューラルネットワークによるワンショット画像認識 0.79
In ICML deep learning workshop, volume 2. ICMLディープラーニングワークショップでは、ボリューム2。 0.68
Lille. Yoshua Bengio, Samy Bengio, and Jocelyn Cloutier. Lille Yoshua Bengio, Samy Bengio, Jocelyn Cloutier 0.56
1990. Learning a synaptic learning rule. 1990. シナプス学習規則を学習する。 0.80
Citeseer. Mingyang Chen, Wen Zhang, Wei Zhang, Qiang Chen, and Huajun Chen. シテジー。 Mingyang Chen、Wen Zhang、Wei Zhang、Qiang Chen、Huajun Chen。 0.61
2019. Meta relational learning for few-shot link prediction in knowledge graphs. 2019. 知識グラフにおけるリンク数予測のためのメタリレーショナルラーニング 0.76
In Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), pages 4217– 4226, Hong Kong, China. 2019年の自然言語処理の実証的方法に関する会議と第9回自然言語処理に関する国際合同会議(EMNLP-IJCNLP)の進行において、ページ4217-4226、香港、中国。 0.79
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm´an, Edouard Grave, Myle Ott, Luke Zettlemoyer, and Veselin Stoyanov. Alexis Conneau, Kartikay Khandelwal, Naman Goyal, Vishrav Chaudhary, Guillaume Wenzek, Francisco Guzm ́an, Edouard Grave, Myle Ott, Luke Zettlemoyer, Veselin Stoyanov 0.80
2019. Unsupervised cross-lingual representation learning at scale. 2019. 教師なし言語間表現学習の大規模化 0.66
arXiv preprint arXiv:1911.02116. arXiv preprint arXiv:1911.02116 0.72
Alexis Conneau, Guillaume Lample, Ruty Rinott, Adina Williams, Samuel R Bowman, Holger Schwenk, and Veselin Stoyanov. Alexis Conneau, Guillaume Lample, Ruty Rinott, Adina Williams, Samuel R Bowman, Holger Schwenk, Veselin Stoyanov 0.75
2018. Xnli: Evaluating crossarXiv preprint lingual sentence representations. 2018. Xnli: CrossarXivプリプリント言語文表現の評価。 0.81
arXiv:1809.05053. arXiv:1809.05053。 0.48
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin、Ming-Wei Chang、Kenton Lee、Kristina Toutanova。 0.78
2018. Bert: Pre-training of deep bidirectional transformers for language understanding. 2018. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.82
arXiv preprint arXiv:1810.04805. arXiv preprint arXiv:1810.04805 0.71
Zi-Yi Dou, Keyi Yu, and Antonios Anastasopoulos. Zi-Yi Dou、Keyi Yu、Antonios Anastasopoulos。 0.79
2019. Investigating meta-learning algorithms for low-resource natural language understanding tasks. 2019. 低リソース自然言語理解タスクのためのメタ学習アルゴリズムの検討 0.78
arXiv preprint arXiv:1908.10423. arXiv preprint arXiv:1908.10423 0.72
Guokun Lai, Barlas Oguz, and Veselin Stoyanov. Guokun Lai、Barlas Oguz、Veselin Stoyanov。 0.65
2019. Bridging the domain gap in cross-lingual document classification. 2019. 言語間文書分類におけるドメインギャップの橋渡し 0.81
arXiv preprint arXiv:1909.07009. arXiv preprint arXiv:1909.07009。 0.63
Guillaume Lample and Alexis Conneau. Guillaume LampleとAlexis Conneau。 0.78
2019. Crosslingual language model pretraining. 2019. 言語モデルの事前学習。 0.80
arXiv preprint arXiv:1901.07291. arXiv preprint arXiv:1901.07291 0.72
Guillaume Lample, Alexis Conneau, Ludovic Denoyer, and Marc’Aurelio Ranzato. Guillaume Lample、Alexis Conneau、Ludovic Denoyer、Marc’Aurelio Ranzato。 0.69
2017. Unsupervised machine translation using monolingual corpora only. 2017. 単言語コーパスのみを用いた教師なし機械翻訳 0.71
arXiv preprint arXiv:1711.00043. arXiv preprint arXiv:1711.00043 0.71
David D Lewis, Yiming Yang, Tony G Rose, and Fan Li. David D Lewis、Yiming Yang、Tony G Rose、Fan Li。 0.72
2004. Rcv1: A new benchmark collection for Journal of machine text categorization research. 2004. rcv1: journal of machine text categorization researchのための新しいベンチマークコレクション。 0.85
learning research, 5(Apr):361–397. 学習研究、5(Apr):361-397。 0.78
Patrick Lewis, Barlas O˘guz, Ruty Rinott, Sebastian Riedel, and Holger Schwenk. パトリック・ルイス、バラス・オ・シュグス、ルティ・リノット、セバスチャン・リーデル、ホルガー・シュウェンク。 0.58
2019. Mlqa: Evaluating cross-lingual extractive question answering. 2019. mlqa: 言語間抽出型質問応答の評価。 0.76
arXiv preprint arXiv:1910.07475. arXiv preprint arXiv:1910.07475 0.72
Liyuan Liu, Haoming Jiang, Pengcheng He, Weizhu Chen, Xiaodong Liu, Jianfeng Gao, and Jiawei Han. Liyuan Liu、Haoming Jiang、Pengcheng He、Weizhu Chen、Xiaodong Liu、Jianfeng Gao、Jiawei Han。 0.72
2019. On the variance of the adaptive learning rate and beyond. 2019. 適応学習率及びそれ以上のばらつきについて 0.74
arXiv preprint arXiv:1908.03265. arXiv preprint arXiv:1908.03265 0.71
Ilya Loshchilov and Frank Hutter. Ilya LoshchilovとFrank Hutter。 0.79
2016. Sgdr: StochasarXiv 2016. Sgdr: StochasarXiv 0.85
tic gradient descent with warm restarts. ウォームリスタートを伴うtic勾配降下。 0.64
preprint arXiv:1608.03983. arXiv:1608.03983 0.64
Tomas Mikolov, Quoc V Le, and Ilya Sutskever. Tomas Mikolov、Quoc V Le、Ilya Sutskever。 0.65
2013a. Exploiting similarities among languages for machine translation. 2013年。 機械翻訳に言語間の類似性を利用する。 0.72
arXiv preprint arXiv:1309.4168. arXiv preprint arXiv:1309.4168 0.71
Julian Eisenschlos, Sebastian Ruder, Piotr Czapla, Marcin Kardas, Sylvain Gugger, and Jeremy Howard. Julian Eisenschlos、Sebastian Ruder、Piotr Czapla、Marcin Kardas、Sylvain Gugger、Jeremy Howard。 0.66
2019. Multifit: Efficient multi-lingual arXiv preprint language model fine-tuning. 2019. multifit: 効率的な多言語arxivプレプリント言語モデルの微調整。 0.72
arXiv:1909.04761. arXiv:1909.04761。 0.49
Tomas Mikolov, Ilya Sutskever, Kai Chen, Greg S Corrado, and Jeff Dean. Tomas Mikolov、Ilya Sutskever、Kai Chen、Greg S Corrado、Jeff Dean。 0.70
2013b. Distributed representations of words and phrases and their compositionalIn Advances in neural information processing ity. 2013年。 単語とフレーズの分散表現とその構成神経情報処理能力の進歩。 0.71
systems, pages 3111–3119. システム、ページ3111-3119。 0.70
Manaal Faruqui, Jesse Dodge, Sujay K Jauhar, Chris Dyer, Eduard Hovy, and Noah A Smith. Manaal Faruqui、Jesse Dodge、Sujay K Jauhar、Chris Dyer、Eduard Hovy、Noah A Smith。 0.66
2014. Retrofitting word vectors to semantic lexicons. 2014. 単語ベクトルを意味レキシコンに補足する。 0.75
arXiv preprint arXiv:1411.4166. arXiv preprint arXiv:1411.4166 0.72
Chelsea Finn, Pieter Abbeel, and Sergey Levine. Chelsea Finn、Pieter Abbeel、Sergey Levine。 0.61
2017. Model-agnostic meta-learning for fast adaptation of deep networks. 2017. 深層ネットワークの高速適応のためのモデル非依存メタラーニング 0.73
In Proceedings of the 34th International Conference on Machine Learning-Volume 70, pages 1126–1135. 34th International Conference on Machine Learning-Volume 70、ページ1126-1135の進行。 0.82
JMLR. org. JMLR所属。 組織。 0.63
Jiatao Gu, Yong Wang, Yun Chen, Kyunghyun Cho, and Victor OK Li. Jiatao Gu、Yong Wang、Yun Chen、Kyunghyun Cho、Victor OK Li。 0.69
2018. Meta-learning for lowresource neural machine translation. 2018. 低リソースニューラルマシン翻訳のためのメタラーニング 0.74
arXiv preprint arXiv:1808.08437. arXiv preprint arXiv:1808.08437 0.71
Alex Nichol, Joshua Achiam, and John Schulman. Alex Nichol、Joshua Achiam、John Schulman。 0.69
On first-order meta-learning algorithms. 1次メタ学習アルゴリズムについて 0.55
2018. arXiv preprint arXiv:1803.02999. 2018 arXiv preprint arXiv:1803.02999。 0.68
Farhad Nooralahzadeh, Giannis Bekoulis, Johannes Bjerva, and Isabelle Augenstein. Farhad Nooralahzadeh、Giannis Bekoulis、Johannes Bjerva、Isabelle Augenstein。 0.58
2020. Zero-shot arXiv cross-lingual transfer with meta learning. 2020. メタ学習によるゼロショットarXivの言語間変換 0.69
preprint arXiv:2003.02739. arXiv:2003.02739 0.61
Abiola Obamuyide and Andreas Vlachos. Abiola ObamuyideとAndreas Vlachos。 0.73
2019a. Meta-learning improves lifelong relation extraction. 2019年。 メタラーニングは生涯関係抽出を改善する。 0.59
In Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), pages 224–229, Florence, Italy. In Proceedings of the 4th Workshop on Representation Learning for NLP (RepL4NLP-2019), page 224-229, Florence, Italy。 0.88
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Diederik P Kingma and Jimmy Ba. Diederik P KingmaとJimmy Ba。 0.80
2014. Adam: A method for stochastic optimization. 2014. Adam: 確率最適化の方法です。 0.77
arXiv preprint arXiv:1412.6980. arXiv preprint arXiv:1412.6980 0.71
Abiola Obamuyide and Andreas Vlachos. Abiola ObamuyideとAndreas Vlachos。 0.73
2019b. Model-agnostic meta-learning for relation classification with limited supervision. 2019年。 限定教師付き関係分類のためのモデル非依存メタラーニング 0.64
In Proceedings of the 訴訟の手続において 0.51
英語(論文から抽出)日本語訳スコア
Michael Zhang, James Lucas, Jimmy Ba, and Geoffrey E Hinton. Michael Zhang、James Lucas、Jimmy Ba、Geoffrey E Hinton。 0.71
2019. Lookahead optimizer: k steps forward, 1 step back. 2019. lookaheadオプティマイザ:kステップ前進、1ステップ後退。 0.75
In Advances in Neural Information Processing Systems, pages 9597–9608. 神経情報処理システムの進歩では、ページ9597-9608。 0.70
Yongfeng Zhang, Min Zhang, Yi Zhang, Guokun Lai, Yiqun Liu, Honghui Zhang, and Shaoping Ma. Yongfeng Zhang、Min Zhang、Yi Zhang、Guokun Lai、Yiqun Liu、Honghui Zhang、Shaoping Ma。 0.69
2015. Daily-aware personalized recommendation based on In Proceedings feature-level time series analysis. 2015. In Proceedings機能レベルの時系列分析に基づくデイリーアウェアのパーソナライズドレコメンデーション。 0.77
of the 24th international conference on world wide web, pages 1373–1383. 第24回ワールドワイドウェブ国際会議の1373-1383ページ。 0.73
57th Annual Meeting of the Association for Computational Linguistics, pages 5873–5879, Florence, Italy. 57th Annual Meeting of the Association for Computational Linguistics, page 5873–5879, イタリア・フィレンツェ。 0.91
Association for Computational Linguistics. 計算言語学協会(Association for Computational Linguistics)。 0.50
Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, Adam Lerer 0.75
2017. Automatic differentiation in pytorch. 2017. パイトーチの自動分化。 0.73
In NIPS 2017 Workshop Autodiff Submission. nips 2017 workshop autodiffの投稿。 0.65
Peter Prettenhofer and Benno Stein. Peter PrettenhoferとBenno Stein。 0.79
2010. Crosslanguage text classification using structural correIn Proceedings of the 48th spondence learning. 2010. 構造相関を用いたクロスランゲージテキスト分類第48回応答学習の進歩 0.81
Annual Meeting of the Association for Computational Linguistics, pages 1118–1127, Uppsala, Sweden. スウェーデンのウプサラにある計算言語協会の年次総会、ページ1118-1127。 0.66
Association for Computationprettenho feral Linguistics. Computationprettenho feral Linguisticsの協会。 0.76
Sachin Ravi and Hugo Larochelle. Sachin RaviとHugo Larochelle。 0.79
2017. Optimization In International 2017. 国際的最適化 0.84
as a model for few-shot learning. 数発の学習のモデルです。 0.71
Conference on Learning Representations. 学習表現に関する会議。 0.81
Jurgen Schmidhuber. Jurgen Schmidhuber。 0.82
1987. Evolutionary principles in self-referential learning. 1987. 自己参照学習における進化的原則。 0.75
On learning how to learn: The meta-meta-... 学習の仕方について:メタ・メタ・... 0.62
hook.) Diploma thesis, Institut f. Informatik, Tech. フック) Diploma論文、Institut f.Informatik、Tech。 0.58
Univ. Munich, 1(2). 大学。 ミュンヘン、1(2)。 0.60
Holger Schwenk and Xian Li. Holger SchwenkとXian Li。 0.78
2018. A corpus for multilingual document classification in eight languages. 2018. 8言語の多言語文書分類のためのコーパス。 0.83
In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018), Paris, France. 第11回言語資源と評価に関する国際会議(LREC 2018)の開催(パリ、フランス)。 0.76
European Language Resources Association (ELRA). 欧州言語資源協会 (ELRA) の略。 0.77
Jake Snell, Kevin Swersky, and Richard Zemel. Jake Snell、Kevin Swersky、Richard Zemel。 0.72
2017. Prototypical networks for few-shot learning. 2017. 数発学習のためのプロトタイプネットワーク。 0.75
In Advances in neural information processing systems, pages 4077–4087. 神経情報処理システムの進歩では、4077-4087ページ。 0.73
Sebastian Thrun and Lorien Pratt. セバスチャン・スランとロリアン・プラット 0.47
1998. Learning to In Learning to 1998. 学ぶことを学ぶこと 0.72
learn: Introduction and overview. 学習: 紹介と概要。 0.70
learn, pages 3–17. Springer. 3-17ページ。 Springer 0.57
Eleni Triantafillou, Tyler Zhu, Vincent Dumoulin, Pascal Lamblin, Utku Evci, Kelvin Xu, Ross Goroshin, Carles Gelada, Kevin Swersky, Pierre-Antoine Manzagol, and Hugo Larochelle. Eleni Triantafillou, Tyler Zhu, Vincent Dumoulin, Pascal Lamblin, Utku Evci, Kelvin Xu, Ross Goroshin, Carles Gelada, Kevin Swersky, Pierre-Antoine Manzagol, Hugo Larochelle 0.82
2020. Meta-dataset: A dataset of datasets for learning to learn from few exIn International Conference on Learning amples. 2020. meta-dataset: 学習アンプルに関するexin国際会議から学ぶためのデータセットのデータセット。 0.81
Representations. Yan Wang, Wei-Lun Chao, Kilian Q Weinberger, and Laurens van der Maaten. 代表。 Yan Wang、Wei-Lun Chao、Kilian Q Weinberger、Laurens van der Maaten。 0.63
2019. Simpleshot: Revisiting nearest-neighbor classification for few-shot learning. 2019. simpleshot: 最寄り-neighbor分類を再検討する。 0.78
arXiv preprint arXiv:1911.04623. arXiv preprint arXiv:1911.04623 0.71
Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, and Quoc V Le. Qizhe Xie, Zihang Dai, Eduard Hovy, Minh-Thang Luong, Quoc V Le 0.78
2019. Unsupervised data augmentation for consistency training. 2019. 一貫性トレーニングのための教師なしデータ拡張。 0.67
arXiv preprint arXiv:1904.12848. arXiv preprint arXiv:1904.12848 0.72
Hongwei Yong, Jianqiang Huang, Xiansheng Hua, and Lei Zhang. Hongwei Yong、Jianqiang Huang、Xiansheng Hua、Lei Zhang。 0.68
2020. Gradient centralization: A new optimization technique for deep neural networks. 2020. Gradient Centralization: ディープニューラルネットワークのための新しい最適化技術。 0.84
arXiv preprint arXiv:2004.01461. arXiv preprint arXiv:2004.01461 0.72
                       ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。