論文の概要、ライセンス

# (参考訳) ランダム単位による事前学習モデルの拡張による神経教師あり領域適応 [全文訳有]

Neural Supervised Domain Adaptation by Augmenting Pre-trained Models with Random Units ( http://arxiv.org/abs/2106.04935v1 )

ライセンス: CC BY 4.0
Sara Meftah, Nasredine Semmar, Youssef Tamaazousti, Hassane Essafi, Fatiha Sadat(参考訳) ニューラルトランスファーラーニング(TL)は自然言語処理(NLP)において、特に低リソースのシナリオにおいて、多くのタスクで高いパフォーマンスを実現しているため、ユビキタスになりつつある。 特に、TLは高リソース領域から低リソース領域への貴重な知識の伝達にニューラルネットワーク適応に広く用いられている。 TLの標準的な微調整方式では、モデルは当初ソースドメインで事前訓練され、その後ターゲットドメインで微調整されるため、ソースドメインとターゲットドメインは同じアーキテクチャでトレーニングされる。 本稿では,そのようなスキームは,その効率性に拘わらず,大きな制限を負っているという解釈法を提示する。 実際には、新しいドメインに適応できるが、事前訓練されたニューロンは、ターゲットドメインに固有の特定のパターンを学ぶのに苦労する。 さらに,ソース領域とターゲット領域の関連度が高いにもかかわらず,隠れた負の伝達が引き起こされる可能性について考察した。 これらの問題に対処するため,我々は,正規化,重み付け,ランダム初期化単位を用いて事前学習したモデルを強化し,価値ある情報源知識を維持しつつ,適応性を高めることを提案する。 提案手法は,ニューラルドメインをニュースドメインからソーシャルメディアドメインに適応させるための標準的な微調整方式を4つのnlpタスク(part-of-speech tagging, chunking, named entity recognition, morphosyntactic tagging)で大幅に改善したことを示す。

Neural Transfer Learning (TL) is becoming ubiquitous in Natural Language Processing (NLP), thanks to its high performance on many tasks, especially in low-resourced scenarios. Notably, TL is widely used for neural domain adaptation to transfer valuable knowledge from high-resource to low-resource domains. In the standard fine-tuning scheme of TL, a model is initially pre-trained on a source domain and subsequently fine-tuned on a target domain and, therefore, source and target domains are trained using the same architecture. In this paper, we show through interpretation methods that such scheme, despite its efficiency, is suffering from a main limitation. Indeed, although capable of adapting to new domains, pre-trained neurons struggle with learning certain patterns that are specific to the target domain. Moreover, we shed light on the hidden negative transfer occurring despite the high relatedness between source and target domains, which may mitigate the final gain brought by transfer learning. To address these problems, we propose to augment the pre-trained model with normalised, weighted and randomly initialised units that foster a better adaptation while maintaining the valuable source knowledge. We show that our approach exhibits significant improvements to the standard fine-tuning scheme for neural domain adaptation from the news domain to the social media domain on four NLP tasks: part-of-speech tagging, chunking, named entity recognition and morphosyntactic tagging.
公開日: Wed, 9 Jun 2021 09:29:11 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Neural Supervised Domain Adaptation by Augmenting Pre-trained 事前訓練によるニューラルスーパービジョンドメイン適応 0.71
Models with Random Units ランダム単位を持つモデル 0.89
Sara Meftah∗, Nasredine Semmar∗, Youssef Tamaazousti∗, Hassane Essafi∗, Fatiha Sadat+ sara meftah∗, nasredine semmar∗, youssef tamaazousti∗, hassane essafi∗, fatiha sadat+ 0.70
∗CEA-List, Universit´e Paris-Saclay, F-91120, Palaiseau, France ∗CEA-List, Universit ́e Paris-Saclay, F-91120, Palaiseau, France 0.65
{firstname.lastname}@cea.fr, sadat.fatiha@uqam.ca {firstname.lastname}@cea.fr, sadat.fatiha@uqam.ca 0.65
+UQ `AM, Montr´eal, Canada +UQ `AM, Montr ́eal, Canada 0.86
1 2 0 2 n u J 1 2 0 2 n u J 0.85
9 ] L C . s c [ 9 ]LC。 sc [ 0.60
1 v 5 3 9 4 0 1 v 5 3 9 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract Neural Transfer Learning (TL) is becoming ubiquitous in Natural Language Processing (NLP), thanks to its high performance on many tasks, especially in low-resourced scenarios. 概要 ニューラルトランスファーラーニング(TL)は自然言語処理(NLP)において、特に低リソースのシナリオにおいて、多くのタスクで高いパフォーマンスを実現しているため、ユビキタスになりつつある。
訳抜け防止モード: 概要 自然言語処理(NLP)において,ニューラルトランスファー学習(TL)が普及しつつある。 多くのタスク、特に低リソースシナリオにおけるパフォーマンスのおかげです。
0.60
Notably, TL is widely used for neural domain adaptation to transfer valuable knowledge from high-resource to low-resource domains. 特に、TLは高リソース領域から低リソース領域への貴重な知識の伝達にニューラルネットワーク適応に広く用いられている。
訳抜け防止モード: 特に、TLは神経領域適応に広く用いられている 高リソースから低リソースドメインに貴重な知識を転送する。
0.68
In the standard fine-tuning scheme of TL, a model is initially pre-trained on a source domain and subsequently fine-tuned on a target domain and, therefore, source and target domains are trained using the same architecture. TLの標準的な微調整方式では、モデルは当初ソースドメインで事前訓練され、その後ターゲットドメインで微調整されるため、ソースドメインとターゲットドメインは同じアーキテクチャでトレーニングされる。 0.73
In this paper, we show through interpretation methods that such scheme, despite its efficiency, is suffering from a main limitation. 本稿では,そのようなスキームは,その効率性に拘わらず,大きな制限を負っているという解釈法を提示する。 0.70
Indeed, although capable of adapting to new domains, pre-trained neurons struggle with learning certain patterns that are specific to the target domain. 実際には、新しいドメインに適応できるが、事前訓練されたニューロンは、ターゲットドメインに固有の特定のパターンを学ぶのに苦労する。
訳抜け防止モード: 実際、新しい領域に適応できるが、事前訓練されたニューロンは苦闘する ターゲットドメインに特有の特定のパターンを学ぶ。
0.69
Moreover, we shed light on the hidden negative transfer occurring despite the high relatedness between source and target domains, which may mitigate the final gain brought by transfer learning. さらに,ソース領域とターゲット領域の関連度が高いにもかかわらず,隠れた負の伝達が引き起こされる可能性について考察した。 0.57
To address these problems, we propose to augment the pre-trained model with normalised, weighted and randomly initialised units that foster a better adaptation while maintaining the valuable source knowledge. これらの問題に対処するため,我々は,正規化,重み付け,ランダム初期化単位を用いて事前学習したモデルを強化し,価値ある情報源知識を維持しつつ,適応性を高めることを提案する。 0.58
We show that our approach exhibits significant improvements to the standard fine-tuning scheme for neural domain adaptation from the news domain to the social media domain on four NLP tasks: part-ofspeech tagging, chunking, named entity recognition and morphosyntactic tagging.1 Introduction 提案手法は,ニューラルドメインをニュースドメインからソーシャルメディアドメインに適応させるための標準的な微調整方式を,パートオブスピーチタグ,チャンキング,名前付きエンティティ認識,モーフォシンタクタギングという4つのnlpタスクで大幅に改善したことを示す。
訳抜け防止モード: 提案手法は,4つのNLPタスクにおいて,ニューズドメインからソーシャルメディアドメインへのニューラルドメイン適応のためのチューニングスキーム(Part-ofspeech tagging)を改良した。 chunking , named entity recognition and morphosyntactic tagging.1 紹介
0.83
1 NLP aims to produce resources and tools to understand texts coming from standard languages and their linguistic varieties, such as dialects or usergenerated-conten t in social media platforms. NLP 1.1の目的は、標準言語からのテキストと、ソーシャルメディアプラットフォームにおける方言やユーザ生成コンテンツなどの言語的多様性を理解するためのリソースとツールを作ることだ。 0.68
This diversity is a challenge for developing high-level この多様性はハイレベルな開発に挑戦する 0.74
1Under review 1Underレビュー 0.82
tools that are capable of understanding and generating all forms of human languages. あらゆる種類の人間の言語を理解し、生成できるツール。 0.72
Furthermore, in spite of the tremendous empirical results achieved by NLP models based on Neural Networks (NNs), these models are in most cases based on a supervised learning paradigm, i.e. さらに,ニューラルネットワーク(NN)に基づくNLPモデルによる膨大な実験結果にもかかわらず,これらのモデルはほとんどの場合,教師付き学習パラダイムに基づくものである。 0.85
trained from scratch on large amounts of labelled examples. 大量のラベル付きサンプルを ゼロから訓練しました 0.55
Nevertheless, such training scheme is not fully optimal. しかし、この訓練は必ずしも最適ではない。 0.69
Indeed, NLP neural models with high performance often require huge volumes of manually annotated data to produce powerful results and prevent overfitting. 実際、高いパフォーマンスを持つnlpニューラルモデルは、強力な結果を生み出すために大量の手作業による注釈データを必要とし、過剰なフィッティングを防ぐ。 0.54
However, manual data annotation is timeconsuming. しかし、手動データアノテーションは時間がかかります。 0.68
Besides, language changes over years (Eisenstein, 2019). また、言語は年々変化している(Eisenstein, 2019)。 0.83
Thus, most languages varieties are under-resourced (Baumann and Pierrehumbert, 2014; Duong, 2017). したがって、ほとんどの言語は未資源である(Baumann and Pierrehumbert, 2014; Duong, 2017)。 0.80
Particularly, in spite of the valuable advantage of social media’s content analysis for a variety of applications (e g advertisement, health, or security), this large domain is still poor in terms of annotated data. 特に、ソーシャルメディアのさまざまなアプリケーション(広告、健康、セキュリティなど)におけるコンテンツ分析の貴重な利点にもかかわらず、この大きなドメインは、注釈付きデータに関してはまだ貧弱である。 0.73
Furthermore, it has been shown that models intended for news fail to work efficiently on Tweets (Owoputi et al , 2013). さらに、ニュースを意図したモデルはツイート上で効果的に動作しないことが示されている(owoputi et al , 2013)。 0.74
This is mainly due to the conversational nature of the text, the lack of conventional orthography, the noise, linguistic errors, spelling inconsistencies, informal abbreviations and the idiosyncratic style of these texts (Horsmann, 2018). これは主にテキストの会話の性質、従来の正書法がないこと、ノイズ、言語的誤り、綴りの不一致、非公式な省略、そしてこれらのテキストの慣用的スタイルが原因である(Horsmann, 2018)。 0.67
One of the best approaches to address this issue is Transfer Learning (TL); an approach that allows handling the problem of the lack of annotated data, whereby relevant knowledge previously learned in a source problem is leveraged to help in solving a new target problem (Pan et al , 2010). この問題に対処する最善のアプローチの1つは、Transfer Learning (TL) である。これは、アノテーション付きデータの欠如の問題に対処できるアプローチであり、ソース問題で以前に学んだ関連する知識を活用して、新しいターゲット問題の解決に役立つ(Pan et al , 2010)。 0.76
In the context of artificial NNs, TL relies on a model learned on a source-task with sufficient data, further adapted to the target-task of interest. 人工NNの文脈では、TLは十分なデータを持つソースタスクで学習したモデルに依存し、さらに関心のターゲットタスクに適応する。 0.69
TL has been shown to be powerful for NLP and outperforms the standard supervised learning from scratch paradigm, because it takes benefit from the pre-learned knowledge. TLはNLPにとって強力であり、学習前の知識の恩恵を受けるため、スクラッチパラダイムからの標準教師付き学習よりも優れていることが示されている。 0.56
英語(論文から抽出)日本語訳スコア
Particularly, the standard fine-tuning (SFT) scheme of sequential transfer learning has been shown to be efficient for supervised domain adaptation from the source news domain to the target social media domain (Gui et al , 2017; Meftah et al , 2018b,a; M¨arz et al , 2019; Zhao et al , 2017; Lin and Lu, 2018). 特に、シーケンシャル転送学習の標準的な微調整(sft)スキームは、ソースニュースドメインからターゲットのソーシャルメディアドメインへの教師ありドメイン適応に効率的であることが示されている(gui et al , 2017; meftah et al , 2018b,a; m sarz et al , 2019; zhao et al , 2017; lin and lu, 2018)。 0.81
In this work we first propose a series of analysis to spot the limits of the standard fine-tuning adaptation scheme of sequential transfer learning. 本稿では,まず,逐次転送学習の標準微調整適応方式の限界を突き止めるために,一連の解析手法を提案する。 0.83
We start by taking a step towards identifying and analysing the hidden negative transfer when transferring from the news domain to the social media domain. まず、ニュースドメインからソーシャルメディアドメインへの転送時に隠されたネガティブな転送を識別し、分析するステップから始めます。 0.66
Negative transfer (Rosenstein et al , 2005; Wang et al , 2019) occurs when the knowledge learnt in the source domain hampers the learning of new knowledge from the target domain. 負の移動(Rosenstein et al , 2005; Wang et al , 2019)は、ソース領域で学んだ知識がターゲット領域から新しい知識を学ぶことを妨げたときに発生する。 0.84
Particularly, when the source and target domains are dissimilar, transfer learning may fail and hurt the performance, leading to a worse performance compared to the standard supervised training from scratch. 特に、ソースとターゲットドメインが異なる場合、転送学習が失敗し、パフォーマンスが損なわれ、標準の教師付きトレーニングに比べてパフォーマンスが低下する可能性がある。 0.64
In this work, we rather perceive the gain brought by the standard fine-tuning scheme compared to random initialisation2 as a combination of a positive transfer and a hidden negative transfer. 本研究は、正の転送と隠れ負の転送を組み合わせたランダム初期化2と比較して、標準的な微調整方式による利得をむしろ知覚する。 0.70
We define positive transfer as the percentage of predictions that were wrongly predicted by random initialisation, but using transfer learning changed to the correct ones. ランダムな初期化によって誤って予測された予測の比率として正の転送を定義するが、転送学習は正しいものへと変化した。 0.70
The negative transfer represents the percentage of predictions that were tagged correctly by random initialisation, but using transfer learning gives incorrect predictions. 負の転送は、ランダム初期化によって正しくタグ付けされた予測の割合を表すが、転送学習を使用することで誤った予測が得られる。 0.60
Hence, the final gain brought by transfer learning would be the difference between positive and negative transfer. したがって、転送学習による最終的な利益は、正と負の転送の違いである。 0.78
We show that despite the final positive gain brought by transfer learning from the high-resource news domain to the low-resource social media domain, the hidden negative transfer may mitigate the final gain. 我々は、高リソースのニュースドメインから低リソースのソーシャルメディアドメインへの移行学習による最終利益にもかかわらず、隠れた負の転送によって最終利益が軽減されることを示した。 0.62
Then we perform an interpretive analysis of individual pre-trained neurons behaviours in different settings. 次に,個別の学習済みニューロンの動作を異なる設定で解釈分析する。 0.70
We find that some of pretrained neurons are biased by what they have learnt in the sourcedataset. トレーニング済みのニューロンのいくつかは、ソースデータセットで学んだことによってバイアスを受けています。 0.50
For instance, we observe a unit3 firing on proper nouns (e g “George” and “Washington”) before fine-tuning and on words with capitalised first-letter whether the word is a proper noun or not (e g “Man” and “Father”) during fine-tuning. 例えば、適切な名詞(例えば「George」や「Washington」)に対して、微調整の前に、その単語が適切な名詞であるかどうか(例えば「Man」や「Father」)を大文字化した第一文字の単語を発射する。 0.66
Indeed, in news, only proper nouns start with an 2Random initialisation means training from scratch on 実際、ニュースでは、適切な名詞だけが、2ランダムな初期化から始まります。 0.71
target data (in-domain data). ターゲットデータ(ドメイン内のデータ)。 0.75
3We use “unit” and “neuron” interchangeably. 3 “unit” と “neuron” を相互に使用します。 0.73
upper-case letter. Thus the pre-trained units fail to discard this pattern which is not always respected in user-generated-conte nt in social media. 上段の文字。 したがって、事前訓練されたユニットは、ソーシャルメディアのユーザー生成コンテンツにおいて常に尊重されないこのパターンを捨てることができない。 0.52
As a consequence of this phenomenon, specific patterns to the target-dataset (e g “wanna” or “gonna”) are difficult to learn by pre-trained units. この現象の結果として、ターゲットデータセット("wanna"や"gonna"など)に対する特定のパターンは、事前訓練されたユニットで学ぶのは難しい。 0.76
This phenomenon is non-desirable, since such specific units are essential, especially for target-specific classes (Zhou et al , 2018b; Lakretz et al , 2019). この現象は、特にターゲット固有のクラス(Zhou et al , 2018b; Lakretz et al , 2019)に必須であるため、望ましくない。 0.68
Stemming from our analysis, we propose a new method to overcome the above-mentioned drawbacks of the standard fine-tuning scheme of transfer learning. そこで,本研究では,トランスファー学習の標準的な微調整方式の欠点を克服する新しい手法を提案する。 0.72
Precisely, we propose a hybrid method that takes benefit from both worlds, random initialisation and transfer learning, without their drawbacks. そこで本研究では,ランダムな初期化と移動学習という両世界の利点を生かしたハイブリッド手法を提案する。 0.72
It consists in augmenting the sourcenetwork (set of pre-trained units) with randomly initialised units (that are by design non-biased) and jointly learn them. これは、ランダムに初期化された単位(偏りのない単位)でソースネットワーク(事前訓練された単位の集合)を増強し、共同で学習する。 0.62
We call our method PretRand (Pretrained and Random units). メソッドをPretRand(PretrainedおよびRandomユニット)と呼びます。 0.71
PretRand consists of three main ideas: PretRandは3つの主要なアイデアで構成されています。 0.43
1. Augmenting the source-network (set of pretrained units) with a random branch composed of randomly initialised units, and jointly learn them. 1. ランダムに初期化された単位からなるランダム分岐で、ソースネットワーク(事前訓練された単位の集合)を増強し、共同で学習する。 0.74
2. Normalising the outputs of both branches to balance their different behaviours and thus forcing the network to consider both. 2. 両方のブランチの出力を正規化し、異なる振る舞いのバランスをとることで、ネットワークは両方のことを考慮せざるを得なくなる。 0.70
3. Applying learnable attention weights on both branches predictors to let the network learn which of random or pre-trained one is better for every class. 3. 学習可能な注意重みを両方の分岐予測器に適用することにより、ネットワークは各クラスにランダムまたは事前訓練済みのどれが良いかを学ぶことができる。 0.76
Our experiments on 4 NLP tasks: Part-of-Speech tagging (POS), Chunking (CK), Named Entity Recognition (NER) and Morphosyntactic Tagging (MST) show that PretRand enhances considerably the performance compared to the standard finetuning adaptation scheme.4 4つのNLPタスクについて実験を行った: Part-of-Speech tagging (POS), Chunking (CK), Named Entity Recognition (NER) と Morphosyntactic Tagging (MST) により、PretRand は標準的な微調整適応方式に比べて性能を大幅に向上することが示された。 0.73
The remainder of this paper is organised as follows. 本論文の残りは以下のとおり整理される。 0.79
Section 2 presents the background related to our work: transfer learning and interpretation methods for NLP. 第2節では,NLPの伝達学習と解釈手法について述べる。 0.54
Section 3 presents the base neural architecture used for sequence labelling in NLP. 第3節は、NLPにおけるシーケンスラベリングに使用されるベースニューラルアーキテクチャを示す。 0.62
Section 4 describes our proposed methods to analyse the standard fine-tuning scheme of sequential transfer learning. 第4節では、シーケンシャルトランスファーラーニングの標準的な微調整方式を解析するための提案手法について述べる。
訳抜け防止モード: 第4節 提案手法について述べる 逐次転送学習の標準ファインチューニングスキームを分析する。
0.82
Section 5 describes our proposed approach PretRand. 第5節では,提案手法について述べる。 0.55
Section 6 reports the datasets 第6節 データセットを報告する 0.66
4This paper is an extension of our previous work (Meftah 4 本稿は,我々の先行研究(meftah)の拡張である。 0.63
et al , 2019). と2019年)。 0.51
英語(論文から抽出)日本語訳スコア
and the experimental setup. 実験的なセットアップです 0.62
Section 7 reports the experimental results of our proposed methods and is divided into two sub-sections: Sub-section 7.1 reports the empirical analysis of the standard finetuning scheme, highlighting its drawbacks. 第7節では,提案手法の実験結果を報告し,以下の2つのサブセクションに分けられる。
訳抜け防止モード: 第7節では提案手法の実験結果について報告し、第7節では2つの部分に分けられる。 欠点を浮き彫りにしています
0.55
Subsection 7.2 presents the experimental results of our proposed approach PretRand, showing the effectiveness of PretRand on different tasks and datasets and the impact of incorporating contextualised representations. サブセクション7.2では,提案手法であるPretRandのさまざまなタスクやデータセットに対する効果と,文脈表現の導入による影響を示す。 0.83
Finally, section 8 wraps up by discussing our findings and future research directions. 最後に,第8節では,我々の発見と今後の研究方向性について論じる。 0.62
It includes two categories. カテゴリーは2種類ある。 0.78
models designed for specific high-resourced source setting(s) (language, language variety, domain, task, etc) to work in a target low-resourced setting(s). 特定の高リソースソース設定(言語、言語の種類、ドメイン、タスクなど)のために設計されたモデルは、ターゲットの低リソース設定で動作する。 0.73
First, unsupervised domain adaptation assumes that labelled examples in the source domain are sufficiently available, but for the target domain, only unlabelled examples are available. まず、教師なしのドメイン適応は、ソースドメインのラベル付き例が十分に利用可能であると仮定するが、ターゲットドメインでは、未実装の例のみが利用可能である。 0.60
Second, in supervised domain adaptation setting, a small number of labelled target examples are assumed to be available. 第二に、教師付きドメイン適応設定では、少数のラベル付き対象例が利用可能であると仮定される。 0.54
2 Background Since our work involves two research topics: Sequential Transfer Learning (STL) and Interpretation methods, we discuss in the following subsections the state-of-the-art of each topic with a positioning of our contributions regarding each one. 背景 本研究はシーケンシャル・トランスファー・ラーニング(stl)と解釈手法の2つの研究トピックを含んでいるため,各トピックの最先端について,各トピックに対するコントリビュートの位置を議論する。 0.53
2.1 Sequential Transfer Learning In STL, training is performed in two stages, sequentially: pretraining on the source task, followed by an adaptation on the downstream target tasks (Ruder, 2019). 2.1 シーケンシャル・トランスファー・ラーニング STLでは、ソースタスクの事前訓練と下流ターゲットタスクの適応の2つの段階でトレーニングが行われる(Ruder, 2019)。 0.71
The purpose behind using STL techniques for NLP can be divided into two main research areas, universal representations and domain adaptation. NLPにSTL技術を用いる目的は、普遍的な表現とドメイン適応の2つの主要な研究領域に分けられる。 0.78
Universal representations aim to build neural features (e g words embeddings and sentence embeddings) that are transferable and beneficial to a wide range of downstream NLP tasks and domains. ユニバーサル表現は、幅広い下流のNLPタスクやドメインに転送可能で有益なニューラルネットワーク機能(例えば、単語の埋め込みと文埋め込み)を構築することを目的としている。 0.62
Indeed, the probabilistic language model proposed by Bengio et al (2003) was the genesis of what we call words embedding in NLP, while Word2Vec (Mikolov et al , 2013) was its outbreak and a starting point for a surge of works on learning words embeddings: e g FastText (Bojanowski et al , 2017) enriches Word2Vec with subword information. 実際、Bengio et al (2003) によって提案された確率的言語モデルは、私たちが NLP に組み込んだ言葉の創始であり、Word2Vec (Mikolov et al , 2013) は、単語の埋め込みに関する学習の急激な動きの出発点である: e g FastText (Bojanowski et al , 2017) は、Word2Vec にサブワード情報を加えて強化している。 0.79
Recently, universal representations re-emerged with contextualised representations, handling a major drawback of traditional words embedding. 近年、普遍表現と文脈表現が融合し、従来の単語の埋め込みの大きな欠点を扱うようになった。 0.52
Indeed, these last learn a single context-independent representation for each word thus ignoring words polysemy. 実際、これらの単語は各単語の文脈に依存しない単一の表現を学習し、単語ポリセミーを無視する。 0.50
Therefore, contextualised words representations aim to learn context-dependent word embeddings, i.e. したがって、文脈依存語表現は、文脈依存語埋め込み、すなわち、学習することを目的としている。 0.47
considering the entire sequence as input to produce each word’s embedding. 各単語の埋め込みを生成する入力としてシーケンス全体を考慮します。 0.79
While universal representations seek to be propitious for any downstream task, domain adaptation is designed for particular target tasks. ユニバーサル表現はダウンストリームタスクに広まりたいが、ドメイン適応は特定のターゲットタスクのために設計されている。 0.63
Domain adaptation consists in adapting NLP ドメイン適応はNLPを適応する 0.76
Pretraining In the pretraining stage of STL, a crucial key for the success of transfer is the ruling about the pretrained task and domain. 事前訓練 STLの事前訓練段階では、移行の成功の重要な鍵は、事前訓練されたタスクとドメインに関する決定である。
訳抜け防止モード: プレトレーニング STL の事前トレーニング段階で 転送の成功の重要な鍵は、事前訓練されたタスクとドメインに関する決定である。
0.84
For universal representations, the pre-trained task is expected to encode useful features for a wide number of target tasks and domains. 普遍表現の場合、事前訓練されたタスクは、幅広い対象のタスクやドメインに対して有用な機能をエンコードすることが期待される。
訳抜け防止モード: 普遍表現の場合、事前訓練されたタスクが期待される 様々なタスクやドメインに有用な機能をエンコードします
0.72
In comparison, for domain adaptation, the pre-trained task is expected to be most suitable for the target task in mind. 対照的に、ドメイン適応においては、事前訓練されたタスクは、ターゲットタスクを念頭に置いて最も適することが期待される。
訳抜け防止モード: 対照的に、ドメイン適応においては、事前訓練されたタスクが期待される 目標のタスクに最も適しています
0.71
We classify pretraining methods into four main categories: unsupervised, supervised, multi-task and adversarial pretraining: 我々は,事前学習手法を,教師なし,教師なし,マルチタスク,敵対的事前訓練の4つのカテゴリに分類する。 0.45
• Unsupervised pretraining uses raw unlabelled data for pretraining. •教師なし事前訓練は、事前訓練に生の未ラベルデータを使用する。 0.47
Particularly, it has been successfully used in a wide range of seminal works to learn universal representations. 特に、普遍表現を学ぶために広範囲の独創的な作品でうまく使われている。 0.68
Language modelling task has been particularly used thanks to its ability to capture general-purpose features of language.5 For instance, TagLM (Peters et al , 2017) is a pretrained model based on a bidirectional language model (biLM), also used to generate ELMo (Embeddings from Language Models) representations (Peters et al , 2018). 例えば、TagLM (Peters et al , 2017) は双方向言語モデル (biLM) に基づく事前訓練されたモデルであり、ELMO (Embeddings from Language Models) 表現を生成するためにも使用されている(Peters et al , 2018)。
訳抜け防止モード: 言語モデリングタスクは、言語.5の汎用フィーチャをキャプチャする機能のおかげで、特に使われている。 TagLM(Peters et al, 2017)は、双方向言語モデル(biLM)に基づいた事前訓練されたモデルである。 また、ELMo(言語モデルからの埋め込み)表現を生成するためにも使われる(Peters et al, 2018)。
0.76
With the recent emergence of the “Transformers” architectures (Vaswani et al , 2017), many works propose pretrained models based on these architectures (Devlin et al , 2019; Yang et al , 2019; Raffel et al , 2019). 最近の“Transformers”アーキテクチャ(Vaswani et al , 2017)の出現に伴い、多くの研究がこれらのアーキテクチャに基づいた事前トレーニングモデルを提案している(Devlin et al , 2019; Yang et al , 2019; Raffel et al , 2019)。 0.83
Unsupervised pretraining has also been used to improve sequence to sequence learning. 教師なし事前学習はシーケンス学習を改善するためにも使われている。 0.57
We can cite the work of Ramachandran et al (2017) who proposed to improve the performance of an encoder-decoder neural machine translation model by initialising both encoder and decoder parameters with pretrained weights エンコーダとデコーダの両方のパラメータを事前学習した重み付きで初期化することにより、エンコーダ-デコーダのニューラルマシン変換モデルの性能を改善することを提案したramachandran et al (2017)の仕事を引き合いに出すことができる。
訳抜け防止モード: エンコーダ-デコーダニューラルマシン変換モデルの性能向上を提唱したramachandranら(2017年)の仕事を引き合いに出すことができる。 プリトレーニングウェイトによるエンコーダパラメータとデコーダパラメータの両パラメータの初期化
0.69
5Note that language modelling is also considered as a self-supervised task since, in fact, labels are automatically generated from raw data. 5) 言語モデリングは, ラベルが生データから自動的に生成されるので, 自己教師型タスクとみなされる。 0.72
英語(論文から抽出)日本語訳スコア
from two language models. 2つの言語モデルから 0.85
• Supervised pretraining has been particularly used for cross-lingual transfer (e g machine translation (Zoph and Knight, 2016)), crosstask transfer from POS tagging to words segmentation task (Yang et al , 2017) and crossdomain transfer for biomedical texts for question answering by Wiese et al (2017) and for NER by Giorgi and Bader (2018). • 教師付き事前訓練は、特に言語間変換(例えば、機械翻訳(zoph and knight, 2016))、posタグ付けから単語分割タスク(yang et al, 2017)へのクロスタスク転送、wiese et al (2017)による質問応答のための生体医学的テキストのクロスドメイン転送、giorgi and bader (2018) によるnerで使われている。 0.77
Crossdomain transfer has also been used to transfer from news to social media texts for POS tagging (Meftah et al , 2017; M¨arz et al , 2019) and sentiment analysis (Zhao et al , 2017). クロスドメイン転送はまた、POSタグ付けのためのニュースからソーシャルメディアテキスト(Meftah et al , 2017; M sarz et al , 2019)や感情分析(Zhao et al , 2017)への転送にも使用されている。 0.73
Supervised pretraining has been also used effectively for universal representations learning, e g neural machine translation (McCann et al , 2017), language inference (Conneau et al , 2017) and discourse relations (Nie et al , 2017). 教師付き事前訓練は、普遍的な表現学習、egニューラルマシン翻訳(McCann et al , 2017)、言語推論(Conneau et al , 2017)、談話関係(Nie et al , 2017)にも効果的に使用されている。 0.74
• Multi-task pretraining has been successfully applied to learn general universal sentence representations by a simultaneous pretraining on a set of supervised and unsupervised tasks (Subramanian et al , 2018; Cer et al , 2018). • マルチタスク事前学習は、教師なしおよび教師なしタスクのセット(subramanian et al , 2018; cer et al , 2018)上での同時事前学習によって、一般的な普遍文表現を学習するためにうまく適用されている。 0.57
Subramanian et al (2018), for instance, proposed to learn universal sentences representations by a joint pretraining on skip-thoughts, machine translation, constituency parsing, and natural language inference. Subramanian et al (2018) は、スキップ思想、機械翻訳、選挙区解析、自然言語推論に基づいて、共同で普遍的な文表現を学ぶことを提案した。 0.65
For domain adaptation, we have performed in (Meftah et al , 2020) a multi-task pretraining for supervised domain adaptation from the news domain to the social media domain. ドメイン適応については,ニュースドメインからソーシャルメディアドメインへの教師付きドメイン適応のためのマルチタスク事前訓練を実施している(Meftah et al , 2020)。 0.74
• Adversarial pretraining is particularly used for domain adaptation when some annotated examples from the target domain are available. • 対象ドメインからの注釈付き例が利用可能である場合、特にドメイン適応に逆順事前トレーニングが使用される。 0.69
Adversarial training (Ganin et al , 2016) is used as a pretraining step followed by an adaptation step on the target dataset. 対人訓練(Ganin et al , 2016)は事前訓練ステップとして使用され、その後ターゲットデータセットへの適応ステップが続く。 0.75
Adversarial pretraining demonstrated its effectiveness in several NLP tasks, e g cross-lingual sentiment analysis (Chen et al , 2018). 対人プレトレーニングは、言語間感情分析(Chen et al , 2018)など、いくつかのNLPタスクにおいて効果を示した。 0.59
Also, it has been used to learn cross-lingual words embeddings (Lample et al , 2018). また、言語間の単語埋め込みの学習にも使われている(lample et al , 2018)。 0.76
Adaptation During the adaptation stage of STL, one or more layers from the pretrained model are transferred to the downstream task, and one or more randomly 適応 STL の適応段階では、事前訓練されたモデルから1つ以上のレイヤが下流タスクに1つ以上のランダムに転送される。 0.76
initialised layers are added on top of pretrained ones. 事前訓練されたレイヤの上に初期化レイヤが追加される。 0.45
Three main adaptation schemes are used in sequential transfer learning: Feature Extraction, Fine-Tuning and the recent Residual Adapters. 逐次的転送学習では,特徴抽出,微調整,最近の残差アダプタの3つの適応方式が用いられている。
訳抜け防止モード: シーケンシャルトランスファー学習における3つの主要な適応スキーム : 特徴抽出, Fine - チューニングと最近のResidual Adapters。
0.79
In a Feature Extraction scheme, the pretrained layers’ weights are frozen during adaptation, while in Fine-Tuning scheme weights are tuned. 特徴抽出スキームでは、事前訓練されたレイヤの重みは適応中に凍結され、ファインチューニングスキームでは重みは調整される。
訳抜け防止モード: 特徴抽出スキームでは、事前訓練されたレイヤの重みは適応中に凍結される。 while in Fine - Tuning scheme weights are tuneed.
0.72
Accordingly, the former is computationally inexpensive while the last allows better adaptation to target domains peculiarities. したがって、前者は計算コストが低く、後者は対象のドメインの特異性への適応性を向上する。 0.59
In general, fine-tuning pretrained models begets better results, except in cases wherein the target domain’s annotations are sparse or noisy (Dhingra et al , 2017; Mou et al , 2016). 一般的に、訓練済みの微調整モデルは、対象ドメインのアノテーションが希少でノイズの多い場合を除いて、より良い結果を得られる(Dhingra et al , 2017; Mou et al , 2016)。 0.74
Peters et al (2019) found that for contextualised representations, both adaptation schemes are competitive, but the appropriate adaptation scheme to pick depends on the similarity between the source and target problems. peters et al (2019) は、文脈化された表現の場合、両方の適応スキームは競合的であるが、選択する適切な適応スキームは、ソースとターゲット問題の類似性に依存することを見出した。 0.59
Recently, Residual Adapters were proposed by Houlsby et al (2019) to adapt pretrained models based on Transformers architecture, aiming to keep Fine-Tuning scheme’s advantages while reducing the number of parameters to update during the adaptation stage. 最近、houlsbyら(2019)によって、トランスフォーマーアーキテクチャに基づいた事前訓練されたモデルに適応するための残差アダプタが提案され、適応段階で更新するパラメータの数を削減しつつ、微調整スキームの利点を維持することを目的としている。 0.64
This is achieved by adding adapters (intermediate layers with a small number of parameters) on top of each pretrained layer. これは各プリトレーニングされたレイヤの上にアダプタ(少数のパラメータを持つ中間層)を追加することで実現される。 0.72
Thus, pretrained layers are frozen, and only adapters are updated during training. したがって、事前トレーニングされたレイヤは凍結され、トレーニング中にアダプタだけが更新される。 0.53
Therefore, Residual Adapters performance is near to Fine-tuning while being computationally cheaper (Pfeiffer et al , 2020b,a,c). したがって、残差アダプタの性能は計算的に安価でありながら微調整に近い(pfeiffer et al , 2020b,a,c)。 0.72
Our work Our work falls under supervised domain adaptation research area. 私たちの仕事は、ドメイン適応研究分野の監督下にあります。 0.59
Specifically, cross-domain adaptation from the news domain to the social media domain. 具体的には、ニュースドメインからソーシャルメディアドメインへのクロスドメイン適応。 0.78
The fine-tuning adaptation scheme has been successfully applied on domain adaptation from the news domain to the social media domain (e g adversarial pretraining (Gui et al , 2017) and supervised pretraining (Meftah et al , 2018a)). この微調整適応方式は、ニュースドメインからソーシャルメディアドメインへのドメイン適応(例えば、adversarial pretraining (gui et al , 2017) と教師付き事前トレーニング (meftah et al , 2018a) にうまく適用されている。 0.74
In this research, we highlight the aforementioned drawbacks (biased pre-trained units and the hidden negative transfer) of the standard fine-tuning adaptation scheme. 本研究では, 標準の微調整適応方式における, 上記の欠点(バイアス付き事前学習単位と隠れ負の伝達)を強調する。 0.74
Then, we propose a new adaptation scheme (PretRand) to handle these problems. そこで我々はこれらの問題に対処する新しい適応方式(PretRand)を提案する。 0.72
Furthermore, while ELMo contextualised words representations efficiency has been proven for different tasks and datasets (Peters et al , 2019; Fecht et al , 2019; Schumacher and Dredze, 2019), here we investigate their impact when used, simultaneously, with a sequential transfer learning scheme for supervised domain adaptation. さらに,複数のタスクやデータセット(Peters et al , 2019; Fecht et al , 2019; Schumacher and Dredze, 2019)に対して,ELMoの文脈化された単語表現効率が証明されているのに対し,これらは同時に使用時の影響を調査し,教師付きドメイン適応のためのシーケンシャルな伝達学習手法を用いて検討する。 0.72
英語(論文から抽出)日本語訳スコア
2.2 Interpretation methods for NLP 2.2 NLPの解釈法 0.65
Recently, a rising interest is devoted to peek inside black-box neural NLP models to interpret their internal representations and their functioning. 近年,ブラックボックス型ニューラルNLPモデルの内部を覗き見して,内部表現とその機能を理解することへの関心が高まっている。 0.70
A variety of methods were proposed in the literature, here we only discuss those that are most related to our research. 文献では様々な方法が提案され,本研究に最も関係しているものについてのみ論じる。 0.80
Probing tasks is a common approach for NLP models analysis used to investigate which linguistic properties are encoded in the latent representations of the neural model (Shi et al , 2016). 探索タスクは、ニューラルモデルの潜在表現にどの言語特性がエンコードされているかを調べるために使われるNLPモデル解析の一般的なアプローチである(Shi et al , 2016)。 0.78
Concretely, given a neural model M trained on a particular NLP task, whether it is unsupervised (e g language modelling (LM)) or supervised (e g Neural Machine Translation (NMT)), a shallow classifier is trained on top of the frozen M on a corpus annotated with the linguistic properties of interest. 具体的には、特定のNLPタスクで訓練されたニューラルモデルMが、教師なし(eg言語モデリング(LM)または教師付き(egニューラル機械翻訳(NMT))であるかに関わらず、凍結したMの上に、興味のある言語特性を付加したコーパスで浅い分類器を訓練する。
訳抜け防止モード: 具体的には、特定のNLPタスクで訓練された神経モデルMが与えられる。 教師なしかどうか(例:言語モデリング(LM)) あるいは (eg Neural Machine Translation (NMT ) ) 浅い分類器は、興味のある言語的性質を付加したコーパス上で、凍ったMの上に訓練される。
0.80
The aim is to examine whether M’s hidden representations encode the property of interest. 目的は、M の隠された表現が興味のある性質を符号化するかどうかを調べることである。 0.59
For instance, Shi et al (2016) found that different levels of syntactic information are learned by NMT encoder’s layers. 例えば、Shi et al (2016) は、NMTエンコーダの層によって異なるレベルの構文情報が学習されることを発見した。 0.72
Adi et al (2016) investigated what information (between sentence length, words order and word-content) is captured by different sentence embedding learning methods. Adi et al (2016) は、異なる文埋め込み学習手法により、どの情報(文の長さ、単語順、単語内容)をキャプチャするかを調査した。 0.62
Conneau et al (2018) proposed 10 probing tasks annotated with fine-grained linguistic properties and compared different approaches for sentence embeddings. Conneau et al (2018) は、微粒な言語特性を付加した10の探索タスクを提案し、文の埋め込みに対する異なるアプローチを比較した。 0.55
Zhu et al (2018) inspected which semantic properties (e g are encoded by different sentence embeddings approaches. Zhu et al (2018) は、どの意味特性 (eg) が異なる文埋め込みアプローチによってエンコードされているかを検査した。 0.52
Furthermore, the emergence of contextualised words representations have triggered a surge of works on probing what these representations are learning (Liu et al , 2019a; Clark et al , 2019). さらに、文脈化された単語表現の出現によって、これらの表現が何を学んでいるのかを探究する作業が急増した(liu et al , 2019a; clark et al , 2019)。 0.63
This approach, however, suffers from two main flaws. しかし、このアプローチには2つの大きな欠陥がある。 0.67
First, probing tasks examine properties captured by the model at a coarse-grained level, i.e. 第一に、探索タスクはモデルによって得られた特性を粗い粒度で調べる。 0.66
layers representations, and thereby, will not identify features captured by individual neurons. レイヤーの表現は 個々のニューロンが捉えた特徴を識別しません 0.67
Second, probing tasks will not identify linguistic properties that do not appear in the annotated probing datasets (Zhou et al , 2018a). 第二に、探索タスクは注釈付き探索データセット(Zhou et al , 2018a)に現れない言語特性を識別しない。 0.75
negation, synonymy, etc.) Individual units stimulus: Inspired by works on receptive fields of biological neurons (Hubel and Wiesel, 1965), much work has been devoted for interpreting and visualising individual hidden units stimulus-features in neural networks. 否定、同義語など 個々の単位刺激: 生物学的ニューロンの受容野の研究(hubel and wiesel, 1965)に触発され、ニューラルネットワークにおける個々の隠れ単位刺激の解釈と可視化に多くの研究が費やされてきた。 0.59
Initially, in computer vision (Coates and Ng, 2011; Girshick et al , 2014; Zhou et al , 2015), and more recently in NLP, wherein units activations are visualised in heatmaps. 当初は コンピュータビジョン(Coates and Ng, 2011; Girshick et al , 2014; Zhou et al , 2015)、最近ではNLPではユニットの活性化がヒートマップで可視化されている。 0.69
For instance, Karpathy et al (2016) visualised character-level Long Short-Term Memory (LSTM) cells learned in language modelling and found multiple interpretable units that track long-distance dependencies, such as line lengths and quotes; Radford et al (2017) visualised a unit which performs sentiment analysis in a language model based on Recurrent Neural Networks (RNNs); Bau et al (2019) visualised neurons specialised on tense, gender, number, etc. 例えば、Karpathy et al (2016) 言語モデリングで学習し、行の長さや引用など、長距離依存を追跡する複数の解釈可能なユニットを発見した。Radford et al (2017) は、リカレントニューラルネットワーク(RNN)に基づいた言語モデルで感情分析を行うユニットを視覚化し、Bau et al (2019) は緊張、性別、数などに特化した視覚化されたニューロンを可視化した。 0.78
in NMT models; and K´ad´ar et al (2017) proposed top-k-contexts approach to identify sentences, an thus linguistic patterns, sparking the highest activation values of each unit in an RNNs-based model. nmtモデル; and k ́ad ́ar et al (2017) では、言語パターンである文を識別するためのtop-k-contextsアプローチが提案され、rnnsベースのモデルで各ユニットのアクティベーション値が最高値となった。
訳抜け防止モード: NMTモデル ; and K ́ad ́ar et al ( 2017 ) proposed top - k - contexts approach to identify sentences。 RNNベースのモデルでは、各ユニットのアクティベーション値が最も高い。
0.68
Neural representations correlation analysis: Cross-network and cross-layers correlation is a significant approach to gain insights on how internal representations may vary across networks, network-depth and training time. ニューラルネットワークの相関解析:クロスネットワークとクロス層相関は、ネットワーク、ネットワーク深度、トレーニング時間で内部表現がどのように異なるかを理解するための重要なアプローチである。 0.71
Suitable approaches are based on Correlation Canonical Analysis (CCA) (Hotelling, 1992; Uurtio et al , 2018), such as Singular Vector Canonical Correlation Analysis (Raghu et al , 2017) and Projected Weighted Canonical Correlation Analysis (Morcos et al , 2018), that were successfully used in NLP neural models analysis. 適切なアプローチは、singular vector canonical correlation analysis (raghu et al , 2017) や projected weighted canonical correlation analysis (morcos et al , 2018) といった、nlpニューラルネットワーク分析でうまく使われた相関標準解析 (cca) (hotelling, 1992; uurtio et al , 2018) に基づいている。 0.73
For instance, it was used by Bau et al (2019) to calculate cross-networks correlation for ranking important neurons in NMT and LM. 例えば Bau et al (2019) は、NMT と LM における重要なニューロンのランク付けのためのクロスネットワーク相関を計算した。 0.73
Saphra and Lopez (2019) applied it to probe the evolution of syntactic, semantic, and topic representations cross-time and cross-layers. Saphra と Lopez (2019) がこれを応用して、構文、意味論、トピック表現のクロスタイムとクロスレイヤーの進化を探索した。 0.62
Raghu et al (2019) compared the internal representations of models trained from scratch vs models initialised with pre-trained weights. Raghu et al (2019)は、スクラッチから訓練されたモデルの内部表現と、事前訓練された重量で初期化されたモデルを比較した。 0.54
CCA based methods aim to calculate similarity between neural representations at the coarse-grained level. CCAに基づく手法は、粗粒度レベルでの神経表現の類似性を計算することを目的としている。 0.52
In contrast, correlation analysis at the fine-grained level, i.e. 対照的に,細粒度における相関解析,すなわち相関解析 0.70
between individual neurons, has also been explored in the literature. 個々のニューロンの間では、文献でも研究されている。 0.54
Initially, Li et al (2015) used Pearson’s correlation to examine to which extent each individual unit is correlated to another unit, either within the same network or between different networks. 当初、li et al (2015) はピアソンの相関を用いて、各ユニットが同じネットワーク内または異なるネットワーク間で、他のユニットとどの程度相関しているかを調査した。 0.73
The same correlation metric was used by Bau et al (2019) to determine important neurons in NMT and LM tasks. 同じ相関メトリックがbau et al (2019) によってnmtおよびlmタスクの重要なニューロンを決定するために用いられた。 0.73
Our Work: 私たちの仕事 0.73
英語(論文から抽出)日本語訳スコア
In this work, we propose two approaches (§4.2) to highlight the bias effect in the standard finetuning scheme of transfer learning in NLP, the first method is based on individual units stimulus and the second on neural representations correlation analysis. 本研究では,NLPにおける転写学習の標準的な微調整方式におけるバイアス効果を明らかにするための2つの手法を提案する。
訳抜け防止モード: 本研究では,2つのアプローチを提案する(4.2 )。 NLPにおける転写学習の標準微調整方式におけるバイアス効果の強調 最初の方法は 個々の単位刺激に基づいて 2つ目は 神経表現相関分析です
0.82
To the best of our knowledge, we are the first to harness these interpretation methods to analyse individual units behaviour in a transfer learning scheme. 我々の知識を最大限に活用するために、我々はこれらの解釈手法を利用して、伝達学習方式で個々のユニットの振る舞いを分析する。
訳抜け防止モード: 私たちの知る限りでは 人類は初めて 伝達学習方式における個々の単位行動の分析にこれらの解釈法を利用する。
0.78
Furthermore, the most analysed tasks in the literature are Natural Language Inference, NMT and LM (Belinkov and Glass, 2019), here we target under-explored tasks in visualisation works such as POS, MST, CK and NER. さらに,自然言語推論,nmt と lm (belinkov and glass, 2019) を対象とし,pos,mst,ck,ner などの可視化作業において未熟なタスクを対象とする。
訳抜け防止モード: さらに、文献で最も分析されたタスクは自然言語推論である。 NMT と LM (Belinkov and Glass, 2019) では,POS,MST,CK,NER などの可視化作業のタスクを対象とする。
0.76
3 Base Neural Sequence Labelling Model 3塩基性神経配列ラベリングモデル 0.77
Given an input sentence S of n successive tokens S = [w1, . n 連続トークンの入力文 S = [w1, ) が与えられる。 0.72
. . , wn], the goal of sequence labelling is to predict the label ct ∈ C of every wt, with C being the tag-set. . . , wn] シーケンスラベリングの目標は、すべての wt のラベル ct ∈ c を予測し、c をタグ集合とすることである。 0.82
We use a commonly used end-to-end neural sequence labelling model (Ma and Hovy, 2016; Plank et al , 2016; Yang et al , 2018), which is composed of three components (illustrated in Figure 1). 私たちは一般的に使用されているエンドツーエンドのニューラルネットワークラベリングモデル(Ma and Hovy, 2016; Plank et al , 2016; Yang et al , 2018)を使用します。
訳抜け防止モード: 一般的に使用されるエンド-to- end neural sequence labelling model (ma)を使用する。 そしてhovy, 2016; plank et al, 2016; yang et al 2018年)。 3つの構成要素で構成されています(図1に示されています)。
0.64
First, the Word Representation Extractor (WRE), denoted Υ, computes a vector representation xt for each token wt. まず、単語表現抽出器(wre)が、各トークンwtに対してベクトル表現xtを算出する。
訳抜け防止モード: 第一に、単語表現エクストラクタ (WRE ) は ? と表記される。 各トークン wt に対してベクトル表現 xt を計算する。
0.66
Second, this representation is fed into a Feature Extractor (FE) based on a bidirectional Long Short-Term Memory (biLSTM) network (Graves et al , 2013), denoted Φ. 第2に、この表現は、双方向長短記憶(biLSTM)ネットワーク(Graves et al , 2013)に基づいて、機能エクストラクタ(FE)に入力される。 0.72
It produces a hidden representation, ht, that is fed into a Classifier (Cl): a fully-connected layer (FCL), denoted Ψ. 隠された表現 ht を生成し、クラス化子 (cl: full-connected layer, fcl) に供給する。 0.54
Formally, given wt, the logits are obtained using the following equation: ˆyt = (Ψ ◦ Φ ◦ Υ)(wt).6 形式的には、wt が与えられたとき、ロジットは次の方程式を用いて得られる。 0.45
In the standard supervised training scheme, the three modules are jointly trained from scratch by minimising the Softmax Cross-Entropy (SCE) loss using the Stochastic Gradient Descent (SGD) algorithm. 標準教師付きトレーニングスキームでは、SGD(Stochastic Gradient Descent)アルゴリズムを用いて、SCE(Softmax Cross-Entropy)損失を最小化することにより、3つのモジュールをスクラッチから共同でトレーニングする。
訳抜け防止モード: 標準的な教師付き訓練では、3つのモジュールはスクラッチから共同で訓練される。 確率勾配降下(sgd)アルゴリズムを用いたソフトマックスクロスエントロピー(sce)損失の最小化
0.73
Let us consider a training set of M annotated sentences, where each sentence i is composed of mi tokens. ここでは、各文 i が mi トークンからなる M アノテーション付き文のトレーニングセットを考える。 0.60
Given a training word (wi,t, yi,t) from the training sentence i, where yi,t is the gold standard label for the word wi,t, the cross-entropy loss for this example is calculated as follows: L(i,t) = − yi,t × log(ˆyi,t) . トレーニング文 i からトレーニング語 (wi,t, yi,t) を与えられた場合、yi,t は wi,t のゴールドスタンダードラベルであり、この例のクロスエントロピー損失は次のようになる: L(i,t) = − yi,t × log( yi,t) 。 0.70
(1) Thus, during the training of the sequence labelling (1) このように 配列ラベリングの訓練中に 0.73
6For simplicity, we define ˆyt only as a function of wt. 6 単純性については、yt を wt の関数としてのみ定義する。 0.62
In reality, the prediction ˆyt for the word wt is also a function of the remaining words in the sentence and the model’s parameters, in addition to wt. 実際、単語 wt の予測は、wt に加えて、文中の残りの単語とモデルのパラメータの関数でもある。 0.58
model on M annotated sentences, the model’s loss is defined as follows: M アノテーション付き文のモデルでは、モデルの損失は次のように定義される。 0.74
M(cid:88) mi(cid:88) m(cid:88) mi(cid:88) 0.81
L = L(i,t) . L = L(i,t)。 0.79
(2) 4 Analysis of the Standard Fine-Tuning (2) 4 標準微調整の解析 0.76
Scheme i=1 t=1 スキーム i=1 t=1。 0.56
The standard fine-tuning scheme consists in transferring a part of the learned weights from a source model to initialise the target model, which is further fine-tuned on the target task with a small number of training examples from the target domain. 標準的な微調整方式は、学習した重みの一部をソースモデルから移行して、ターゲットモデルを初期化することで構成され、ターゲットドメインから少数のトレーニング例でターゲットタスクにさらに微調整される。 0.78
Given a source neural network Ms with a set of parameters θs split into two sets: θs = (θ1 s ) and a target network Mt with a set of parameters θt split into two sets: θt = (θ1 t ), the standard fine-tuning scheme of transfer learning includes three simple yet effective steps: パラメータの集合 θs を持つソースニューラルネットワーク Ms が 2 つの集合に分裂する: θs = (θ1 s ) と、パラメータの集合 θt を持つ対象ネットワーク Mt が 2 つの集合に分裂する: θt = (θ1 t ) 転写学習の標準的な微調整スキームは、単純な3つのステップを含む。 0.79
t , θ2 s , θ2 t, θ2 s , θ2 0.93
1. We train the source model on annotated data from the source domain on a source dataset. 1. ソースデータセットのソースドメインからアノテートされたデータに対して、ソースモデルをトレーニングします。 0.78
2. We transfer the first set of parameters from the source network Ms to the target network Mt: θ1 t of parameters is randomly initialised. 2. パラメータの最初の集合をソースネットワークMsからターゲットネットワークMuntに転送する:パラメータのθ1 tはランダムに初期化される。 0.86
s, whereas the second set θ2 一方、第二集合 θ2 は 0.85
t = θ1 3. Then, the target model is further fine-tuned on t = θ1 3. そして、ターゲットモデルはさらに微調整される。 0.85
the small target data-set. ターゲットの小さなデータセット。 0.80
Source and target datasets may have different tag-sets, even within the same NLP task. ソースとターゲットのデータセットは、同じNLPタスク内であっても、異なるタグセットを持つことができる。 0.57
Hence, transferring the parameters of the classifier (Ψ) may not be feasible in all cases. したがって、クラス化子 (ψ) のパラメータの転送は、すべての場合において実現不可能である。 0.67
Therefore, in our experiments, WRE’s layers (Υ) and FE’s layers (Φ) are initialised with the source model’s weights and Ψ is randomly initialised. したがって, 実験では, wre 層と fe 層 (φ) はソースモデルの重みで初期化され, ψ はランダムに初期化される。 0.68
Then, the three modules are further jointly trained on the target-dataset by minimising a SCE loss using the SGD algorithm. そして、SGDアルゴリズムを用いてSCE損失を最小化することにより、3つのモジュールを目標データセット上でさらに協調的に訓練する。 0.61
4.1 The Hidden Negative Transfer It has been shown in many works in the literature (Rosenstein et al , 2005; Ge et al , 2014; Ruder, 2019; Gui et al , 2018; Cao et al , 2018; Chen et al , 2019; Wang et al , 2019; O’Neill, 2019) that, when the source and target domains are less related (e g languages from different families), sequential transfer learning may lead to a negative effect on the performance, instead of improving it. 4.1 The Hidden Negative Transfer 文学における多くの著作(Rosenstein et al , 2005; Ge et al , 2014; Ruder, 2019; Gui et al , 2018; Cao et al , 2018; Chen et al , 2019; Wang et al , 2019; O’Neill, 2019)で示されているように、ソースとターゲットドメインが(異なるファミリーの言語など)関連性が低い場合には、シーケンシャルトランスファー学習がパフォーマンスに悪影響を及ぼす可能性がある。 0.82
This phenomenon is referred to as negative transfer. この現象は負転移と呼ばれる。 0.69
Precisely, negative transfer is considered when transfer learning is harmful to the target task/dataset, 正確には、転送学習がターゲットタスク/データセットに有害である場合に負の転送を考慮する。 0.59
英語(論文から抽出)日本語訳スコア
Figure 1: Illustrative scheme of the base neural model for sequence labelling tasks. 図1: シーケンスラベリングタスクのためのベースニューラルモデルの図解的スキーム。 0.80
i.e. the performance when using transfer learning algorithm is lower than that with a solely supervised training on in-target data (Torrey and Shavlik, 2010). i.e. 転送学習アルゴリズムを使用する場合のパフォーマンスは、目標内データ(torrey and shavlik, 2010)上でのみ教師ありトレーニングを行う場合よりも低い。 0.72
In NLP, negative transfer phenomenon has only seldom been studied. NLPでは、負転移現象はほとんど研究されていない。 0.71
We can cite the recent work of Kocmi (2020) who evaluated the negative transfer in transfer learning in neural machine translation when the transfer is performed between different language-pairs. 我々は,ニューラルマシン翻訳における伝達学習における負の伝達を,異なる言語ペア間で行う際に評価したKocmi(2020)の最近の研究を引用することができる。 0.70
They found that: 1) The distributions mismatch between source and target language-pairs does not beget a negative transfer. 1) ソースとターゲット言語間の分布ミスマッチは、負の転送を得られない。 0.64
2) The transfer may have a negative impact when the source language-pair is less-resourced compared to the target one, in terms of annotated examples. 2) 注釈付き例では, ソース言語ペアが対象言語に比べて低リソース化されている場合, 否定的な影響が生じる可能性がある。 0.69
Our experiments in (Meftah et al , 2018a,b) have shown that transfer learning techniques from the news domain to the social media domain using the standard fine-tuning scheme boosts the tagging performance. meftah et al , 2018a,b)の実験では、標準の微調整方式を用いてニュースドメインからソーシャルメディアドメインに学習技術を移すことで、タグ付け性能が向上することが示された。 0.60
Hence, following the above definition, transfer learning from news to social media does not beget a negative transfer. したがって、上記の定義に従えば、ニュースからソーシャルメディアに学習を移すことは否定的ではない。 0.69
Contrariwise, in this work, we instead consider the hidden negative transfer, i.e. 反対に、この研究では、代わりに隠れた負の伝達、すなわち、考慮します。 0.54
the percentage of predictions that were correctly tagged by random initialisation, but using transfer learning gives wrong predictions. ランダムな初期化によって 正しくタグ付けされた予測の比率 でも 転送学習は 間違った予測を与える 0.77
Let us consider the gain Gi brought by the standard fine-tuning scheme (SFT) of transfer learning compared to the random initialisation for a dataset i. Gi is defined as the difference between positive transfer PT i and negative transfer NT i: データセットのランダム初期化と比較して、転送学習の標準的な微調整スキーム(SFT)によってもたらされるゲインGiを考えてみましょう。 0.41
(3) where positive transfer PT i represents the percent- (3)正転移PT iがパーセントを表す場合 0.64
Gi = PT i − NT i, Gi = PT i − NT i, 0.85
age of tokens that were wrongly predicted by random initialisation, but the SFT changed to the correct ones. ランダム初期化によって誤って予測されたトークンの年齢は正しいものに変更された。 0.66
Negative transfer NT i represents the percentage of words that were tagged correctly by random initialisation, but using SFT gives wrong predictions. 否定移動 NT i はランダムな初期化によってタグ付けされた単語の割合を表すが、SFT を用いると誤った予測が得られる。 0.65
PT i and NT i are defined as follows: PT i と NT i は次のように定義される。 0.70
PT i = N corrected PT i = 修正N 0.77
i Ni NT i = 私は 二 NT i = 0.63
N f alsif ied N f alsif ied 0.85
i Ni , , (4) 私は 二 , , (4) 0.72
(5) i where Ni is the total number of tokens in the validation-set, N corrected is the number of tokens from the validation-set that were wrongly tagged by the model trained from scratch but are correctly predicted by the SFT scheme, and N f alsif ied is the number of tokens from the validation-set that were correctly tagged by the model trained from scratch but are wrongly predicted by the SFT scheme. (5) 私は Ni がバリデーションセットのトークンの総数である場合、補正された N は、スクラッチからトレーニングされたモデルによって誤ってタグ付けされたバリデーションセットからのトークンの個数であり、SFTスキームによって正しく予測された検証セットからのトークンの個数であり、N f alsif ied は、スクラッチからトレーニングされたモデルによって正しくタグ付けされたが、SFTスキームによって誤って予測されたバリデーションセットからのトークンの数である。 0.67
i Interpretation of Pretrained Neurons 私は 事前学習ニューロンの解釈 0.64
4.2 Here, we propose to perform a set of analysis techniques to gain some insights into how the inner pretrained representations are updated during finetuning on social media datasets when using the standard fine-tuning scheme of transfer learning. 本稿では,移動学習の標準的な微調整方式を用いたソーシャルメディアデータセットの微調整において,内部の事前学習表現がどのように更新されるかを知るための分析手法を提案する。 0.75
For this, we propose to analyse the feature extractor’s (Φ) activations. そこで本稿では,特徴抽出器の活性化を解析することを提案する。 0.80
Precisely, we attempt to visualise biased neurons, i.e. 正確には、偏りのあるニューロンを可視化しようと試みる。 0.60
pre-trained neurons that do not change that much from their initial state. 初期状態からそれほど変化しない事前学習されたニューロン。 0.74
Let us consider a validation-set of N words, the feature extractor Φ generates a matrix h ∈ MN,H (R) of activations over all the words of the validation-set, where Mf ,g(R) is the space N 個の単語のバリデーション集合を考えると、特徴抽出子は Mf ,g(R) が空間であるような検証集合のすべての単語上で活性化の行列 h ∈ MN,H(R) を生成する。 0.80
英語(論文から抽出)日本語訳スコア
of f × g matrices over R and H is the size of the hidden representation (number of neurons). R と H の上の f × g 行列は、隠れた表現(ニューロンの数)の大きさである。 0.77
Each element hi,j from the matrix represents the activation of the neuron j on the word wi. 行列からの各要素 hi,j は、単語 wi 上のニューロン j の活性化を表す。 0.67
Given two models, the first before fine-tuning and the second after fine-tuning, we obtain ∈ MN,H (R) and two matrices hbef ore haf ter ∈ MN,H (R), which give the activations of Φ over all validation-set’s words before and after fine-tuning, respectively. 微調整前の第一のモデルと微調整後の第二のモデルが与えられると、それぞれ微チューニング前後の検証集合の言葉に対して φ の活性化を与える、2つの行列 hbef ore haf ter ∈ mn,h (r) が得られる。 0.67
We aim to visualise and quantify the change of the representations generated by the model from the initial state, hbef ore (before fine-tuning), to the final state, haf ter (after fine-tuning). 我々は,モデルが生成した表現の変化を初期状態,hbef ore(微調整前)から最終状態,haf ter(微調整後)へ可視化し,定量化する。 0.78
For this purpose, we perform two experiments: この目的のために2つの実験を行いました 0.68
1. Quantifying the change of pretrained individ- 1. 事前訓練による個人差の定量化- 0.68
ual neurons (§4.2.1); 2. AL(4.2.1) 2. 0.55
Visualising the evolution of pretrained neu- プレトレーニングニューロの進化を可視化する 0.66
rons stimulus during fine-tuning (§4.2.2). 微調整中のロンズ刺激(4.2.2) 0.52
4.2.1 Quantifying the change of individual 4.2.1 個人の変化の定量化 0.65
pretrained neurons In order to quantify the change of the knowledge encoded in pretrained neurons after fine-tuning, we propose to calculate the similarity (correlation) between neurons activations before and after finetuning, when using the SFT adaptation scheme. 訓練済みニューロン 微調整後の前訓練ニューロンにコードされる知識の変化を定量化するために,sft適応法を用いてニューロンの活性化前後における類似性(相関)を計算することを提案する。 0.69
Precisely, we calculate the correlation coefficient between each neuron’s activations on the targetdomain validation-set before starting fine-tuning and at the end of fine-tuning. 正確には、ターゲットドメイン検証セットにおける各ニューロンの活性化の相関係数を、微調整開始前と微調整終了時とで計算する。 0.63
.j .j Following the above formulation and as illustrated in Figure 2, from hbef ore and haf ter matri∈ RN and ces, we extract two vectors hbef ore ∈ RN , representing respectively the actihaf ter vations of a unit j over all validation-set’s words before and after fine-tuning. J J 上記の定式化と図2に示すように、hbef ore と haf ter matri∂ RN と ces から、2つのベクトル hbef ore ∈ RN を抽出する。
訳抜け防止モード: J J 上述の定式化及び等に従って 図2に示すのは、hbef ore と haf ter matriı RN と ces である。 我々は2つのベクトル hbef ore ∈ RN を抽出し、それぞれ、すべてのバリデーション上の単位 j のアクティハフ ter vation を表す。 そして、罰金 -- チューニング。
0.67
Next, we generate an asymmetric correlation matrix C ∈ MH,H (R), where each element cjt in the matrix represents the Pearson’s correlation between the activation vector of unit j after fine-tuning (haf ter ) and the activation vector of unit t before fine-tuning (hbef ore ), computed as follows: 次に、非対称相関行列 C ∈ MH,H (R) を生成し、行列内の各要素 cjt は、微調整後の単位 j の活性化ベクトル (haf ter ) と微調整前の単位 t の活性化ベクトル (hbef ore ) の間のピアソンの相関を表す。 0.74
.j .t E[(haf ter J t E[(haf ter) 0.74
.j cjt = − µbef ore J cjt = -μbef鉱石 0.75
t )] . − µaf ter j σaf ter j t )] . − μaf ter j σaf ter j 0.80
.t )(hbef ore σbef ore t t )(hbef ore σbef ore t 0.83
(6) Here µbef ore represent, respectively, the mean and the standard deviation of unit j activations over the validation set. (6) ここで μbef の鉱石はそれぞれ、検証集合上の単位 j の活性化の平均と標準偏差を表す。 0.76
Clearly, we are and σbef ore 明らかに私たちは σbef鉱石は 0.70
j j interested by the matrix diagonal, where cjj represents the charge of each unit j from Φ, i.e. j j 行列対角線(英語版)に興味を持ち、cjj は各単位 j の電荷を表す。
訳抜け防止モード: j j マトリックス対角線に興味を持ち cjj は φ,i.e の各単位 j の電荷を表す。
0.82
the correlation between each unit’s activations after fine-tuning to its activations before fine-tuning. 微調整後の各ユニットの活性化と微調整前のアクティベーションとの相関。 0.75
4.2.2 Visualising the Evolution of Pretrained Neurons Stimulus during Fine-tuning 4.2.2 微調整時の前訓練ニューロン刺激の進化の可視化 0.57
Here, we perform units visualisation at the individual-level to gain insights on how the patterns encoded by individual units progress during fine-tuning when using the SFT scheme. そこで我々は,SFTスキームを用いた微調整において,個々の単位によって符号化されたパターンがどのように進行するかを,個々のレベルで可視化する。 0.58
To do this, we generate top-k activated words by each unit; i.e. これを実現するために、各ユニット、すなわち、トップkアクティベートされた単語を生成する。 0.56
words in the validation-set that fire the most the said unit, positively and negatively (since LSTMs generate positive and negative activations). 検証セットの語は、最上位の単位を正負に発射する(LSTMは正と負のアクティベーションを生成する)。 0.73
In (K´ad´ar et al , 2017), top-k activated contexts from the model were plotted at the end of training (the best model), which shows on what each unit is specialised, but it does not give insights about how the said unit is evolving and changing during training. K ́ad ́ar et al , 2017)では、トレーニングの終わりにモデルの上位kアクティベートされたコンテキストがプロットされ(最良のモデル)、各ユニットの専門性を示すが、トレーニング中にそのユニットがどのように変化しているかについての洞察は得られない。 0.72
Thus, taking into account only the final state of training does not reveal the whole picture. したがって、最終的な訓練状態のみを考慮すると、全体像は明らかではない。 0.74
Here, we instead propose to generate and plot top-k words activating each unit throughout the adaptation stage. ここでは、適応段階を通して各ユニットを活性化するトップk語の生成とプロットを提案する。
訳抜け防止モード: ここでは、代わりに提案します to generate and plot top - k words activating each unit during the adapt stage.
0.83
We follow two main steps (as illustrated in Figure 3): 以下の2つの主要なステップに従います(図3に示すように)。 0.63
1. We represent each unit j from Φ with a random matrix A(j) ∈ MN,D(R) of the said unit’s activations on all the validation-set at different training epochs, where D is the number of epochs and N is the number of words in the validation-set. 1. 我々は、異なる訓練エポックにおける全ての検証セットにおいて、上記の単位のアクティベーションのランダム行列 A(j) ∈ MN,D(R) と、各単位 j を表わし、D はエポックの数、N は検証セットの単語の数である。 0.78
Thus, each element a(j) y,z represents the activation of the unit j on the word wy at the epoch z. したがって、各要素 a(j) y,z は、エポック z における単語 wy 上の単位 j の活性化を表す。 0.80
2. We carry out a sorting of each column of the matrix (each column represents an epoch) and pick the higher k words (for top-k words firing the unit positively) and the lowest k words (for top-k words firing the unit negatively), best+ ∈ MD,k(R) leading to two matrices, A(j) best− ∈ MD,k(R), the first for top-k and A(j) words activating positively the unit j at each training epoch, and the last for top-k words activating negatively the unit j at each training epoch. 2. 行列の各列(各列はエポックを表す)をソートし、上位k語(単位を負に発射するトップk語)と下位k語(単位を負に発射するトップk語)を選別し、ベスト+ ∈ MD,k(R)を2つの行列に導くベスト+ ∈ MD,k(R)、トップk語とA(j)語をそれぞれトレーニングエポックで正に活性化するトップk語と、各トレーニングエポックでユニットjを負に活性化するトップk語をそれぞれ選択する。
訳抜け防止モード: 2. 行列の各列を並べ替えて (各列は時代を表わす) そして、上位のkワード(上位-kワードが正にユニットを発射する)を選ぶ。 そして最低の k 語(上 - k 語で単位を負に発射する)。 best+ ∈ md, k(r ) は二つの行列、a(j ) best− ∈ md, k(r ) を導く。 first for top - k and a(j ) words activating the unit j at each training epoch. (英語) そして、トップ - k ワードは各トレーニング期間の単位 j を負に活性化する。
0.83
英語(論文から抽出)日本語訳スコア
Figure 2: Illustrative scheme of the computation of the charge of unit j, i.e. 図 2: 単位 j のチャージの計算の図式的スキーム、すなわち、 0.63
the Pearson correlation between unit j activations vector after fine-tuning to its activations vector before fine-tuning. 単位jの活性化ベクトルのパーソン相関は、微調整前の活性化ベクトルに微調整した後である。 0.55
Figure 3: Illustrative scheme of the calculus of top-k-words activating unit j, positively (A(j) (A(j) 図3: トップkワード活性化単位 j, 正に (A(j) (A(j)) 0.66
best−) during fine-tuning epochs. best−)は微調整期である。 0.48
hepochz states for Φ’s outputs at epoch number z. hepochz は、エポック数 z における s の出力を表す。 0.67
best+) and negatively best + and negatively 0.73
英語(論文から抽出)日本語訳スコア
5 Joint Learning of Pretrained and Random Units: PretRand 5 事前学習とランダム・ユニットの統合学習: PretRand 0.84
pre-trained branch predicts class-probabilities following: 事前訓練されたブランチは以下のクラス確率を予測する。 0.41
We found from our analysis (in section 7.1) on pretrained neurons behaviours, that the standard finetuning scheme suffers from a main limitation. 予備学習ニューロンの挙動を解析した結果(第7条1項)、標準微調整方式は主な制限を負うことがわかった。 0.68
Indeed, some pre-trained neurons still biased by what they have learned from the source domain despite the fine-tuning on target domain. 実際、訓練済みのニューロンの中には、ターゲットドメインの微調整にもかかわらず、ソースドメインから学んだことにまだ偏っているものもある。 0.52
We thus propose a new adaptation scheme, PretRand, to take benefit from both worlds, the pre-learned knowledge in the pretrained neurons and the target-specific features easily learnt by random neurons. そこで本研究では,事前学習したニューロンの知識と,ランダムニューロンで容易に学習できるターゲット特異的特徴を両世界から活用するために,新しい適応スキームPretRandを提案する。 0.75
PretRand, illustrated in Figure 4, consists of three steps: 図4に示すPretRandは3つのステップで構成されています。 0.65
1. Augmenting the pre-trained branch with a random one to facilitate the learning of new target-specific patterns (§5.1); 1. 事前訓練された分岐をランダムに拡張して、新しいターゲット固有パターンの学習を容易にする(5.1)。 0.74
2. Normalising both branches to balance their 2. 両枝のバランスをとるための正規化 0.71
behaviours during fine-tuning (§5.2); 微調整時の挙動(5.2) 0.64
3. Applying learnable weights on both branches to let the network learn which of random or pre-trained one is better for every class. 3. 両方のブランチに学習可能な重みを適用することで、ネットワークがランダムまたは事前訓練されたもののいずれかを学ぶことができる。
訳抜け防止モード: 3. 学習可能な重みを両枝に適用する ランダムまたは事前トレーニングのどちらがどのクラスでよいかをネットワークに学ばせるようにする。
0.79
(§5.3). 5.1 Adding the Random Branch We expect that augmenting the pretrained model with new randomly initialised neurons allows a better adaptation during fine-tuning. (§5.3). 5.1 ランダムブランチの追加 新しいランダム初期化ニューロンで事前訓練されたモデルを増強することで、微調整時の適応性が向上すると予想する。 0.68
Thus, in the adaptation stage, we augment the pre-trained model with a random branch consisting of additional random units (as illustrated in the scheme “a” of Figure 4). したがって、適応段階では、事前学習されたモデルを、追加のランダム単位からなるランダム分岐で拡張する(図4のスキーム「a」に示すように)。 0.75
Several works have shown that deep (top) layers are more task-specific than shallow (low) ones (Peters et al , 2018; Mou et al , 2016). 深層(上層)層が浅い(下層)層よりもタスク固有であることを示すいくつかの研究がある(peters et al , 2018; mou et al , 2016)。 0.69
Thus, deep layers learn generic features easily transferable between tasks. したがって、ディープレイヤはタスク間で簡単に転送可能なジェネリック機能を学習する。 0.38
In addition, word embeddings (shallow layers) contain the majority of parameters. さらに、単語埋め込み(浅層)にはパラメータの大半が含まれている。 0.81
Based on these factors, we choose to expand only the top layers as a trade-off between performance and number of parameters (model complexity). これらの要因に基づいて、パフォーマンスとパラメータの数(モデルの複雑さ)の間のトレードオフとして、上位層のみを拡張することを選びます。 0.72
In terms of the expanded layers, we add an extra biLSTM layer of k units in the FE (Φr - r for random); and a new fully-connected layer of C units (called Ψr). 拡張された層については、FE に k 個の k 個の余分な biLSTM 層(ランダムは r )を追加し、C 個の C 個の新しい完全連結層(「r 」と呼ばれる)を加える。 0.69
With this choice, we increase the complexity of the model only 1.02× compared to the base one (The standard fine-tuning scheme). この選択により、ベースモデル(標準微調整スキーム)と比較して、モデルの複雑さは1.02倍になる。 0.77
Concretely, for every wi, two predictions veci from the pre-trained branch i from the random one. 具体的には、wi ごとに、事前訓練されたブランチ i からランダムな wi から 2 つの予測がveci される。 0.55
Specifically, the tors are computed; ˆyp and ˆyr 具体的には tors (countable かつ uncountable, 複数形 tors) 0.61
i = (Ψp ◦ Φp)(xi), ˆyp i = (ψp ) φp)(xi) である。 0.80
(7) with xi = Υ(wi). (7) xi = s(wi) で表す。 0.82
Likewise, the additional random branch predicts class-probabilities following: 同様に、追加のランダム分岐は以下のクラス確率を予測する。 0.62
i = (Ψr ◦ Φr)(xi). i = (ψr ) φr)(xi) である。 0.75
ˆyr (8) To get the final predictions, we simply apply an element-wise sum between the outputs of the pretrained branch and the random branch: ジイ (8) 最終的な予測を得るためには、事前訓練された分岐の出力とランダム分岐の出力の間に要素の和を単純に適用する。 0.67
ˆyi = ˆyp i ⊕ ˆyr i . yi = yp に登場。 0.32
(9) As in the classical scheme, the SCE loss is minimised but here, both branches are trained jointly. (9) 古典的なスキームと同様に、SCEの損失は最小限に抑えられるが、ここでは両方のブランチが共同で訓練される。
訳抜け防止モード: (9) 古典的なスキームのように、SCE損失は最小化される しかしここでは 両枝は共同で訓練されています
0.75
Independent Normalisation 5.2 Our first implementation of adding the random branch was less effective than expected. 独立正規化 5.2 ランダムブランチを追加する最初の実装は、予想より効果が低かった。 0.69
The main explanation is that the pre-trained units were dominating the random units, which means that the weights as well as the gradients and outputs of pretrained units absorb those of the random units. 主な説明では、事前訓練された単位がランダム単位を支配していたため、事前訓練された単位の重みと勾配と出力がランダム単位を吸収している。 0.75
As illustrated in the left plot of Figure 5, the absorption phenomenon stays true even at the end of the training process; we observe that random units weights are closer to zero. 図5の左プロットに示されるように、吸収現象はトレーニングプロセスの最後にも真であり、ランダム単位の重みがゼロに近いことが観察される。 0.77
This absorption propriety handicaps the random units in firing on the words of the target dataset.7 この吸収性は、ターゲットデータセット.7の単語を発射する際にランダム単位をハンディキャップする。 0.65
To alleviate this absorption phenomenon and push the random units to be more competitive, we normalise the outputs of both branches (ˆyp i and ˆyr i ) using the (cid:96)2-norm, as illustrated in the scheme “b” of Figure 4. この吸収現象を緩和し、ランダム単位をより競争力のあるものにするために、図4のスキーム “b” に示すように、 (cid:96)2-norm を用いて両方の枝の出力を正規化する。 0.75
The normalisation of a vector “x” is computed using the following formula: ベクトル "x" の正規化は以下の式を用いて計算される。 0.89
N2(x) = [ xi ||x||2 N2(x) = [ xi ||x|2 0.74
]i=|x| i=1 . i=|x| i=1。 0.50
(10) Thanks to this normalisation, the absorption phenomenon was solved, and the random branch starts to be more effective (see the right distribution of Figure 5). (10) この正規化により吸収現象は解かれ、ランダム分岐はより効果的になり始める(図5の正しい分布を参照)。 0.78
Furthermore, we have observed that despite the normalisation, the performance of the pre-trained classifiers is still much better than the randomly initialised ones. さらに, 正規化にもかかわらず, 事前学習した分類器の性能は, ランダムに初期化したものよりもはるかに優れていることがわかった。 0.67
Thus, to make them more competitive, we propose to start with optimising only したがって、競争力を高めるために、最適化のみから始めることを提案します。 0.67
7The same problem was stated in some computer-vision works (Liu et al , 2015; Wang et al , 2017; Tamaazousti et al , 2017). 7同じ問題がコンピュータビジョン作品(Liu et al , 2015; Wang et al , 2017; Tamaazousti et al , 2017)で述べられた。 0.84
英語(論文から抽出)日本語訳スコア
Figure 4: Illustrative scheme of the three ideas composing our proposed adaptation method, PretRand. 図4:提案手法であるPretRandを構成する3つのアイデアの図解的スキーム。 0.74
a) We augment the pre-trained branch (grey branch) with a randomly initialised one (green branch) and jointly adapt them with pre-trained ones (grey branch). a) 予め訓練された枝(グレー枝)をランダムに初期化した枝(グリーン枝)で補強し、事前訓練した枝(グレー枝)と共同で適応させる。 0.65
An element-wise sum is further applied to merge the two branches. さらに2つの枝をマージするために要素の和が適用される。 0.55
b) Before merging, we balance the different behaviours of pre-trained and random units, using an independent normalisation (N). b) 合併前は, 独立正規化(N)を用いて, 事前学習単位とランダム単位の異なる挙動のバランスをとる。 0.80
c) Finally we let the network learn which of pre-trained or random neurons are more suited for every class, by performing an element-wise product of the FC layers with learnable weighting vectors (u and v initialised with 1-values). c) 最後に,学習可能な重み付けベクトル(u,vを1値で初期化する)を持つfc層を要素的に生成することにより,事前学習したニューロン又はランダムニューロンのどれが各クラスに適しているかをネットワークに学習させる。 0.67
英語(論文から抽出)日本語訳スコア
Figure 5: The distributions of the learnt weight-values for the randomly initialised (green) and pre-trained (grey) fully-connected layers after their joint training. 図5: ランダムに初期化された(緑)層と事前訓練された(灰色の)完全連結層の学習された重み値の分布。 0.72
Left: without normalisation, right: with normalisation. 左:正常化なし、右:正常化なし。 0.78
the randomly initialised units while freezing the pre-trained ones, then, we launch the joint training. ランダムに初期化したユニットは 訓練済みのユニットを凍結しながら 共同訓練を開始する 0.73
We call this technique random++. このテクニックをランダム++と呼びます。 0.50
5.3 Attention Learnable Weighting Vectors 5.3 学習可能な重み付けベクトル 0.65
i and ˆyr Heretofore, pre-trained and random branches participate equally for every class’ predictions, i.e. 私とシルは 現在までに、事前訓練された分岐とランダム分岐は、すべてのクラスの予測、すなわち、等しく参加している。 0.52
we do not weight the dimensions of ˆyp i before merging them with an element-wise summation. 我々は、これらを要素的和とマージする前に yp i の次元を重み付けしない。 0.59
Nevertheless, random classifiers may be more efficient for specific classes compared to pre-trained ones and vice-versa. それにもかかわらず、ランダム分類器は事前訓練されたクラスや逆クラスに比べて特定のクラスに対してより効率的である。 0.49
In other terms, we do not know which of the two branches (random or pretrained) is better for making a suitable decision for each class. 言い換えれば、2つのブランチ(ランダムまたは事前訓練)のどちらが、各クラスに適した決定を下すのに良いのか分からないのです。 0.69
For instance, if the random branch is more efficient for predicting a particular class cj, it would be better to give more attention to its outputs concerning the class cj compared to the pretrained branch. 例えば、ランダム分岐が特定のクラス cj を予測するためにより効率的であれば、事前訓練された分岐と比較して、クラス cj に関する出力にもっと注意を払うほうがよい。 0.77
Therefore, instead of simply performing an element-wise sum between the random and pretrained predictions, we first weight ˆyp i with a learnable weighting vector u ∈ RC and ˆyr i with a learnable weighting vector v ∈ RC, where C is the tagset size (number of classes). そのため ランダムな予測と事前学習された予測の間の要素の和を単に実行する代わりに、学習可能な重みベクトル u ∈ RC と、学習可能な重みベクトル v ∈ RC とで、C はタグセットサイズ (クラス数) である。 0.76
Such as, the element uj from the vector u represents the random branch’s attention weight for the class cj, and the element vj from the vector v represents the pretrained branch’s attention weight for the class cj. 例えば、ベクトル u の元 uj は類 cj に対するランダム分岐の注意重みを表し、ベクトル v からの要素 vj は類 cj に対する事前訓練された分岐の注意重みを表す。
訳抜け防止モード: 例えば、ベクトル u からの要素 uj はクラス cj に対するランダム分岐 の注意重みを表す。 そして、ベクトルvからの要素vjは、cjクラスに対する事前訓練された分岐の注意重みを表す。
0.77
Then, we compute a Hadamard product with their associated normalised predictions (see the scheme “c” of Figure 4). 次に、ハダマール積とその関連する正規化予測を計算する(図4の「c」スキームを参照)。 0.73
Both vectors u and v are initialised with 1-values and are fine-tuned by back-propagation. ベクトル u と v はどちらも 1-値で初期化され、バックプロパゲーションによって微調整される。 0.57
Formally, the final predictions are computed as follows: 正式な予測は以下のとおりである。 0.55
ˆyi = u (cid:12) Np(ˆyp syi = u (cid:12) Np(syp) 0.67
i ) ⊕ v (cid:12) Np(ˆyr i ). i) V (cid:12) Np(syr i )。 0.70
(11) 6 Experimental Settings (11) 6 実験的設定 0.88
6.1 Datasets 6.1 データセット 0.53
We conduct experiments on supervised domain adaptation from the news domain (formal texts) to the social media domain (noisy texts) for English Part-Of-Speech tagging (POS), Chunking (CK) and Named Entity Recognition (NER). 我々は、英語のPart-Of-Speech tagging(POS), Chunking(CK), Named Entity Recognition(NER)のための、ニュースドメイン(形式テキスト)からソーシャルメディアドメイン(ノイズテキスト)への教師付きドメイン適応の実験を行った。 0.77
In addition, we experiment on Morpho-syntactic Tagging (MST) of three South-Slavic languages: Slovene, Croatian and Serbian. さらに,スロヴェネ語,クロアチア語,セルビア語という3つの南スラヴ語言語のモーフォ・シンタクタギング(mst)について実験を行った。 0.55
For POS task, we use the WSJ part of Penn-Tree-Bank (PTB) (Marcus et al , 1993) news dataset for the source news domain and TPoS (Ritter et al , 2011), ArK (Owoputi et al , 2013) and TweeBank (Liu et al , 2018) for the target social media domain. posタスクでは、penn-tree-bank(ptb)( marcus et al , 1993)のwsj部分と、ソースニュースドメインとtpos(ritter et al , 2011)、ark(owoputi et al , 2013)、tweebank(liu et al , 2018)のニュースデータセットをターゲットのソーシャルメディアドメインに使用します。 0.71
For CK task, we use the CONLL2000 (Tjong Kim Sang and Buchholz, 2000) dataset for the news source domain and TChunk (Ritter et al , 2011) for the target domain. CKタスクでは、ニュースソースドメインに CONLL2000 (Tjong Kim Sang and Buchholz, 2000) データセット、ターゲットドメインに TChunk (Ritter et al , 2011) を使用します。 0.78
For NER task, we use the CONLL2003 dataset (Tjong Kim Sang and De Meulder, 2003) for the source news domain and WNUT-17 dataset (Derczynski et al , 2017) for the social media target domain. NERタスクでは、ソースニュースドメインにはCONLL2003データセット(Tjong Kim Sang, De Meulder, 2003)、ソーシャルメディアターゲットドメインにはWNUT-17データセット(Derczynski et al , 2017)を使用します。 0.78
For MST, we use the MTT shared-task (Zampieri et al , 2018) benchmark containing two types of datasets: social media and news, for three south-Slavic languages: Slovene (sl), Croatian (hr) and Serbian (sr). MSTでは、スロヴェニア語(sl)、クロアチア語(hr)、セルビア語(sr)の3つの南スラヴ語で、ソーシャルメディアとニュースの2種類のデータセットを含むMTT共有タスク(Zampieri et al , 2018)ベンチマークを使用します。 0.69
Statistics of all the datasets are summarised in Table 1. すべてのデータセットの統計は表1にまとめられている。 0.76
6.2 Evaluation Metrics We evaluate our models using metrics that are commonly used by the community. 6.2評価指標 コミュニティが一般的に使用しているメトリクスを使用して、モデルを評価する。 0.65
Specifically, accuracy (acc.) 具体的には、正確さ (acc.) 0.70
for POS, MST and CK and entity-level F1 for NER. POS、MST、CK、NERのエンティティレベルF1。 0.70
Comparison criteria: A common approach to compare the performance between different approaches across different datasets and tasks is to take the average of each approach across all tasks and datasets. 比較基準: 異なるデータセットとタスクの異なるアプローチ間でのパフォーマンスを比較する一般的なアプローチは、すべてのタスクとデータセットのそれぞれのアプローチの平均を取ることです。 0.84
However, as it has been discussed in many research papers (Subramanian et al , 2018; Rebuffi et al , 2017; Tamaazousti, 2018), when tasks are not evaluated using the same metrics or results across datasets are not of the same order of magnitude, the simple average does not allow a “coherent aggregation”. しかし、多くの研究論文(Subramanian et al , 2018; Rebuffi et al , 2017; Tamaazousti, 2018)で議論されているように、タスクが同じメトリクスを使って評価されていない場合、データセット全体での結果が同じ桁ではない場合、単純な平均は"コヒーレントアグリゲーション"を許容しない。 0.74
For this, we use the average Normalized Relative Gain (aNRG) proposed by Tamaazousti et al (2019), where a score aNRGi for each approach i is calculated compared to a そこで,Tamaazousti et al (2019)により提案された平均正規化相対ゲイン(aNRG)を用いて,各アプローチ i に対するスコア aNRGi を a と比較した。 0.84
英語(論文から抽出)日本語訳スコア
Task POS: POS Tagging CK: Chunking NER: Named Entity Recognition Task POS: POS Tagging CK: Chunking NER: Named Entity Recognition 0.85
MST: Morpho-syntactic Tagging MST:Morpho-syntactic Tagging 0.74
POS: POS Tagging CK: Chunking NER: Named Entity Recognition POS:POSタグ CK: Chunking NER: Named Entity Recognition 0.81
MST: Morpho-syntactic Tagging MST:Morpho-syntactic Tagging 0.74
#Classes Sources CONLL-2000 CONLL-2003 Slovene-news Croatian-news Serbian-news TPoS ArK TweeBank TChunk #クラス 資料 CONLL-2000 CONLL-2003 Slovene-news Croatian-news Serbian-news TPoS ArK TweeBank TChunk 0.61
36 WSJ 22 4 1304 772 557 40 25 17 18 6 WNUT-17 Slovene-sm Croatian-sm Serbian-sm 36 WSJ 22 4 1304 772 557 40 25 17 18 18 WNUT-17 Slovene-sm Croatian-sm Serbian-sm 0.80
1102 654 589 1102 654 589 0.85
Eval. Metrics Top-1 Acc. Eval メトリクス top-1 acc。 0.54
Top-1 Acc. Top-1 Exact-match F1. トップ1acc。 Top-1 Exact-Match F1。 0.62
Top-1 Acc. Top-1 Acc. トップ1acc。 トップ1acc。 0.73
Top-1 Acc. Top-1 Acc. トップ1acc。 トップ1acc。 0.73
Top-1 Acc. Top-1 Acc. トップ1acc。 トップ1acc。 0.73
Top-1 Top-1 Acc.. Top-1 Exact-match F1. Top-1 Top-1 Acc.. Top-1 Exact-match F1 0.57
Top-1 Acc. Top-1 Acc. トップ1acc。 トップ1acc。 0.73
Top-1 Acc. # Tokens-splits (train - val - test) 912,344 - 131,768 - 129,654 211,727 - n/a - 47,377 203,621 - 51,362 - 46,435 439k - 58k - 88k 379k - 50k - 75k 59k - 11k, 16k 10,500 - 2,300 - 2,900 26,500 - / - 7,700 24,753 - 11,742 - 19,112 10,652 - 2,242 - 2,291 62,729 - 15,734 - 23,394 37,756 - 7,056 - 19,296 45,609 - 8,886 - 21,412 45,708- 9,581- 23,327 トップ1acc。 # Tokens-splits (train - val - test) 912,344 - 131,768 - 129,654 211,727 - n/a - 47,377 203,621 - 51,362 - 46,435 439k - 58k - 88k 379k - 50k - 75k 59k - 11k, 16k 10,500 - 2,300 - 2,900 26,500 - / - 7,700 24,753 - 11,742 - 19,112 10,652 - 2,242 - 2,291 62,729 - 15,734 - 23,394 37,756 - 7,056 - 19,296 45,609 - 8,886 - 21,412 45,708- 9,581- 23,327 0.66
Table 1: Statistics of the used datasets. 表1: 使用されるデータセットの統計。 0.89
Top: datasets of the source domain. Top: ソースドメインのデータセット。 0.72
Bottom: datasets of the target domain. Bottom: ターゲットドメインのデータセット。 0.71
reference approach (baseline) as follows: 参照アプローチ(ベースライン)は以下の通り。 0.83
aNRGi = L(cid:88) aNR Gi = l(cid:88) 0.75
j=1 1 L j − sref (si ) − sref j=1 1L j − sref (si ) − sref 0.74
(smax j j (smax) j j 0.85
j , ) (12) j , ) (12) 0.85
j being the score of the approachi on with si the datasetj, sref being the score of the reference approach on the datasetj and smax is the best achieved score across all approaches on the datasetj. j は si による approachi on のスコアである datasetj、sef は datasetj の参照アプローチのスコアであり、smax は datasetj のすべてのアプローチで最高のスコアである。
訳抜け防止モード: j は approachi on with si the datasetj のスコアです。 srefはdatasetjの参照アプローチのスコアである smaxは、datasetjのすべてのアプローチにおいて、最高のスコアです。
0.63
j j Implementation Details 6.3 We use the following Hyper-Parameters (HP): WRE’s HP: In the standard word-level embeddings, tokens are lower-cased while the characterlevel component still retains access to the capitalisation information. j j 実施内容 6.3 WREのHP: 標準的なワードレベルの埋め込みでは、トークンはローケース化され、キャラクタレベルのコンポーネントは、大文字化情報へのアクセスを保持します。
訳抜け防止モード: j j 実施内容 6.3 以下のハイパーパラメータ (HP) : WRE の HP : 標準語で「レベル埋め込み」。 トークンは低く 文字レベルのコンポーネントは、大文字化情報へのアクセスを保持する。
0.73
We set the randomly initialised character embedding dimension at 50, the dimension of hidden states of the character-level biLSTM at 100 and used 300-dimensional word-level embeddings. ランダムに初期化した文字埋め込み次元を50とし,文字レベルのbiLSTMの隠れ状態の次元を100とし,300次元の単語埋め込みを用いた。 0.72
The latter were pre-loaded from publicly available GloVe pre-trained vectors on 42 billions words from a web crawling and containing 1.9M words (Pennington et al , 2014) for English experiments, and pre-loaded from publicly available FastText (Bojanowski et al , 2017) pre-trained vectors on common crawl for South-Slavic languages.8 These embeddings are also updated during training. 後者は、webクローリングから440億語にプリトレーニングされたグローブのプリトレーニングベクターからプレロードされ、英語の実験用に190万語(pennington et al , 2014)が含まれ、一般公開されたfasttext (bojanowski et al , 2017)からプレロードされた。 0.54
For experiments with contextual words embeddings (§7.2.3), we used ELMo (Embeddings from Language Models) embeddings (Peters et al , 2018). 文脈語埋め込みの実験(7.2.3)では、ELMo (Embeddings from Language Models) Embeddings (Peters et al , 2018)を使用しました。 0.78
For English, we use the small official pre-trained ELMo model on 1 billion word benchmark (13.6M parameters).9 Regarding South-Slavic languages, 英語では、10億ワードのベンチマーク (13.6Mパラメータ) 上の小さな公式な ELMo モデルを使用します。 0.63
8https://github.com/ facebookresearch/ 8https://github.com/ facebookresearch/ 0.39
fastText/blob/master /docs/crawl-vectors. fastText/blob/master /docs/crawl-vectors。 0.26
md 9https://allennlp.or g/elmo md 9https://allennlp.or g/elmo 0.64
ELMo pre-trained models are not available but for Croatian (Che et al , 2018).10 Note that, in all experiments contextual embeddings are frozen during training. ELMo事前訓練モデルは使用できないが、クロアチア(Che et al , 2018.10)では、すべての実験において、文脈埋め込みは訓練中に凍結される。 0.66
FE’s HP: we use a single biLSTM layer (tokenlevel feature extractor) and set the number of units to 200. FEのHP: 単一のbiLSTM層(tokenlevel feature extractor)を使用して、ユニット数を200に設定します。 0.81
PretRand’s random branch HP: we experiment our approach with k = 200 added random-units. PretRand のランダム分岐 HP: k = 200 付加ランダムユニットによるアプローチの実験を行った。 0.78
Global HP: In all experiments, training (pretraining and fine-tuning) are performed using the SGD with momentum with early stopping, mini-batches of 16 sentences and learning rate of 1.5 × 10−2. グローバルHP: すべての実験において、早期停止、16文のミニバッチと1.5×10−2の学習速度を持つ運動量を持つSGDを用いてトレーニング(事前訓練と微調整)を行う。 0.66
All our models are implemented with the PyTorch library (Paszke et al , 2017). 私たちのモデルはすべてPyTorchライブラリで実装されています(Paszke et al , 2017)。 0.75
7 Experimental Results This section reports all our experimental results and analysis. 7 実験結果 本稿では, 実験結果と分析結果について報告する。 0.74
First we analyse the standard finetuning scheme of transfer learning (§7.1). まず、転写学習の標準的な微調整方式 (7.1) を解析する。 0.61
Then we assess the performance of our proposed approach, PretRand (§7.2). 次に提案したアプローチであるPretRand(7.2)の性能を評価します。 0.71
7.1 Analysis of the Standard Fine-tuning 7.1 標準微調整の解析 0.82
Scheme We report in Table 2 the results of the reference supervised training scheme from scratch, followed by the results of the standard fine-tuning scheme, which outperforms the reference. スキーム 表2では,参照教師付き学習方式の結果をスクラッチから報告し,それに続く標準微調整方式の結果について報告する。 0.62
Precisely, transfer learning exhibits an improvement of ∼+3% acc. 正確には、トランスファー・ラーニングは、+3% accの改善を示す。 0.55
for TPoS, ∼+1.2% acc. TPoS の場合 は+1.2% である。 0.62
for ArK, ∼+1.6% acc. ArK の場合 は+1.6% である。 0.58
for TweeBank, ∼+3.4% acc. TweeBankの場合、 は+3.4% である。 0.54
for TChunk and ∼+4.5% F1 for WNUT. TChunk と WNUT の F1 は sh+4.5% である。 0.54
In the following we provide the results of our 以下は我々の成果です 0.45
analysis of the standard fine-tuning scheme: 標準微調整スキームの解析 0.58
1. Analysis of the hidden negative transfer 1. 隠れた負の伝達の解析 0.82
(§7.1.1). 10https://github.com /HIT-SCIR/ (§7.1.1). 10https://github.com /HIT-SCIR/ 0.46
ELMoForManyLangs ELMoForManyLangs 0.85
英語(論文から抽出)日本語訳スコア
Dataset Method From scratch Standard Fine-tuning データセット スクラッチ標準微調整法 0.59
TPoS dev 88.52 90.95 TPoS dev 88.52 90.95 0.72
test 86.82 89.79 テスト86.82 89.79 0.55
POS (Acc.) ARK test 90.89 92.09 POS (Acc) ARK test 90.89 92.09 0.67
Tweebank dev test 91.66 91.61 93.04 93.29 Tweebank dev test 91.66 91.61 93.04 93.29 0.59
CK (Acc.) CK (複数形 CKs) 0.79
TChunk dev 87.76 90.71 TChunk dev 87.76 90.71 0.72
test 85.83 89.21 試験85.83 89.21 0.52
NER (F1) WNUT NER (F1) WNUT 0.99
test 36.75 41.25 テスト36.75 41.25 0.55
Table 2: The main results of our proposed approach, transferring pretrained models, on social media datasets (Acc (%) for POS and CK and F1 (%) for NER). 表2: 提案手法の主な結果は,事前学習したモデルをソーシャルメディアデータセット上で転送することである(posとckではacc(%),nerではf1(%))。
訳抜け防止モード: 表2:提案手法の主な成果 事前訓練されたモデルを転送します POSおよびCKのためのソーシャルメディアデータセット(Acc(%))について NER は F1 ( % ) である。
0.88
The best score for each dataset is highlighted in bold. 各データセットのベストスコアは、大胆に強調される。 0.70
2. Quantifying the change of individual pre- 2. 個人前の変化の定量化 0.83
trained neurons after fine-tuning (§7.1.2). 微調整後の訓練されたニューロン(7.1.2)。 0.41
3. Visualising the evolution of pretrained neu- 3. プレトレーニングニューロの進化を可視化する 0.75
rons stimulus during fine-tuning (§7.1.3). 微調整中のロンズ刺激(7.1.3)。 0.45
7.1.1 Analysis of the Hidden Negative 7.1.1 隠れた否定の分析 0.66
Transfer To investigate the hidden negative transfer in the standard fine-tuning scheme of transfer learning, we propose the following experiments. 移転 転写学習の標準微調整方式における隠れ負の伝達について検討するため,以下の実験を提案する。 0.68
First, we show that the final gain brought by the standard fine-tuning can be separated into two categories: positive transfer and negative transfer. まず、標準微調整による最終的な利得は、正の転送と負の転送の2つのカテゴリに分けることができることを示す。 0.64
Second, we provide some qualitative examples of negative transfer. 第二に、負の伝達の定性的な例を示す。 0.68
Quantifying Positive Transfer & Negative Transfer 正の転移と負の転移の定量化 0.60
Figure 6: The percentage of negative transfer and positive transfer brought by the standard fine-tuning adaptation scheme compared to supervised training from scratch scheme. 図6: 標準微調整適応スキームによる負転移率と正転移率を、スクラッチスキームによる教師付きトレーニングと比較した。 0.78
We recall that we define positive transfer as the percentage of tokens that were wrongly predicted by random initialisation (supervised training from scratch), but the standard fine-tuning changed to the correct ones, while negative transfer represents the percentage of words that were tagged correctly by random initialisation, but using standard finetuning gives wrong predictions. 我々は、ランダム初期化によって誤って予測されたトークンの割合(スクラッチから教師付きトレーニング)として正の転送を定義するが、標準の微調整は正しいものに変化し、負の転送はランダム初期化によって正しくタグ付けされた単語の割合を表すが、標準の微調整は間違った予測を与える。 0.72
Figure 6 shows the results on English social media datasets, first tagged with the classic supervised training scheme and then using the standard fine-tuning. 図6は、イギリスのソーシャルメディアデータセットでの結果を示し、最初に古典的な教師付きトレーニングスキームでタグ付けし、それから標準の微調整を使用します。 0.58
Blue bars show the percentage of positive transfer and red bars give the percentage of negative transfer. ブルーバー 正の転送率を示し、赤いバーは負の転送率を示します。 0.70
We observe that even though the standard fine-tuning approach is effective since the resulting positive transfer is higher than the negative transfer in all cases, this last mitigates the final gain brought by the standard fine-tuning. 標準の微調整アプローチは、結果の正の転送が全てのケースで負の転送よりも高いため有効であるが、この最後の方法は標準の微調整によってもたらされる最終的な利得を緩和する。 0.68
For instance, for TChunk dataset, standard fine-tuning corrected ∼4.7% of predictions but falsified ∼1.7%, which reduces the final gain to ∼3%.11 例えば、tchunkデータセットでは、標準的な微調整は予測の4.7%を補正したが、1.7%は改ざんされ、最終的な利得は3%.11に低下した。
訳抜け防止モード: 例えば、TChunkデータセットの場合、標準の fine - 修正された4.7%の予測 しかし、1.7 %のファルシフィケートで最終利得は3%に減少する。
0.59
Qualitative Examples of Negative Transfer We report in Table 3 concrete examples of words whose predictions were falsified when using the standard fine-tuning scheme compared to standard supervised training scheme. 否定伝達の質的例 表3に示すように、標準的な教師付き訓練方式と比較して、標準的な微調整方式を用いて予測を改ざんした単語の具体例である。
訳抜け防止モード: 表3に示す否定伝達の質的例 : 予測した単語の具体例 標準ファインチューニングスキームを使用する際に、標準教師付きトレーニングスキームと比較して改ざんされる。
0.72
Among mistakes we have observed: 私たちが見てきた誤りの中で: 0.55
• Tokens with an upper-cased first letter: In news (formal English), only proper nouns start with an upper-case letter inside sentences. •上段の第一文字付きトークン:ニュース(形式英語)では、適切な名詞のみが文中の上段の文字から始まる。 0.71
Consequently, when using transfer learning, the pre-trained units fail to slough this pattern which is not always respected in social media. したがって、転校学習を使用する場合、予め訓練された単位は、常にソーシャルメディアで尊重されるわけではないこのパターンをずらすことができない。
訳抜け防止モード: 従って、転送学習を使用する場合、事前訓練されたユニットは失敗する。 ソーシャルメディアでは必ずしも尊敬されないこのパターンを
0.62
Hence, we found that most of the tokens with an upper-cased first letter are mistakenly predicted as proper nouns (PROPN) in POS, e g Award, Charity, Night, etc. したがって、上段の第一文字を持つトークンのほとんどは、POS, e g Award, Charity, Nightなどの固有名詞(PROPN)として誤って予測されている。 0.78
and as entities in NER, e g Father, Hey, etc., which is consistent with the findings of Seah et al (2012): negative transfer is mainly due to conditional distribution differences between source and target domains. そして、ner、e.g. father、heyなどのエンティティは、seah et al (2012)の結果と一致している。
訳抜け防止モード: そして NER, eg Father, Hey のエンティティとして Seah et al (2012) の発見と一致している。 負の転送は、主にソースドメインとターゲットドメインの条件分布の違いに起因する。
0.69
• Contractions are frequently used in social media to shorten a set of words. • 短縮は、ソーシャルメディアにおいて、単語の組を短くするために頻繁に用いられる。 0.62
For instance, in TPoS dataset, we found that “’s” is in most cases predicted as a “possessive ending (pos)” instead of “Verb, 3rd person singular present (vbz)”. 例えば、tposデータセットでは、"’s" が "verb, 3rd person singular present (vbz)" ではなく "possessive ending (pos)" として予測される場合が多い。
訳抜け防止モード: 例えば、tposデータセットでは、"'s " は " verb," ではなく " possessive ending ( pos ) " として予測される場合が多いことが分かりました。 3人称単数現在 (vbz ) ” である。
0.70
Indeed, in formal English, “’s” is used in most cases to express the possessive form, 実際、フォーマルな英語では「’s」は所有形態を表現するために使われることが多い。 0.69
11Here we calculate positive and negative transfer at the token-level. 11 トークンレベルで正および負の転送を計算する。 0.75
Thus, the gain shown in Figure 6 for WNUT dataset does not correspond to the one in Table 2, since the F1 metric is calculated only on named-entities. したがって、WNUTデータセットの図6に示すゲインは表2のものと一致しない。
訳抜け防止モード: したがって、WNUTデータセットの図6に示す利得は表2の利得と一致しない。 F1 の計量は名前付きエンティティでのみ計算される。
0.77
英語(論文から抽出)日本語訳スコア
DataSet TPoS DataSet TPoS 0.85
ArK TweeBank ArK TweeBank 0.85
TChunk Wnut TChunk ナッツ 0.74
Award(cid:5) nn nnp 賞(cid:5) nn nnp 0.80
Charity(cid:5) noun pnoun amazin• Charity (cid:5) noun pnoun amazin• 0.85
adj noun luv× b-vp i-intj Hey(cid:5) O adj noun luv×b-vp i-intj hey(cid:5) o 0.77
Mum nn uh 2× P $ ママ nn uh 2× p $ 0.77
stangs propn noun ONLY i-np b-np IMO× stangs propn noun Only i-np b-np IMO× 0.77
O wont(cid:63) MD VBP Titans(cid:63) お wont(cid:63) MD VBP Titans(cid:63) 0.75
Z N #Trump propn X Just(cid:5) b-advp b-np UN O Z N #Trump propn X Just(cid:5) b-advp b-np UN O 0.83
b-group id(cid:63) prp nn wth× bグループ id(cid:63) prp nn wth× 0.82
! P adj intj wyd× b-np b-intj ! P adj intj wyd×b-np b-intj 0.83
awsome• Exactly awsome• その通り 0.67
uh rb nvr× R V bout• adp verb id(cid:63) b-np i-np rb nvr× R V bout• adp verb id(cid:63) b-np i-np 0.83
Glasgow b-location b-group glasgow b-location b-group 0.49
Supreme b-person ’s vbz pos I’M(cid:63) 最高b人 のvbz pos I’M(cid:63) 0.71
L E its(cid:63) prp prp$ 2pac× pnoun Angry(cid:5) l.e. its(cid:63) prp$ 2pac× pnoun angry(cid:5) 0.68
$ Night(cid:5) noun propn **ROCKSTAR**THURSDAY $ Night(cid:5) noun propn **ROCKSTAR**THURSDAY 0.92
adj propn Father(cid:5) adj propn 父(cid:5) 0.81
O b-np O &× O お b-np O &×O 0.63
b-corporation nn=N=noun=common noun / nnp=pnoun=propn=proper noun / vbz=Verb, 3rd person singular present / pos=possessive ending / prp=personal pronoun / prp$=possessive pronoun / md=modal / VBP=Verb, non-3rd person singular present / uh=!=intj=interjection / rb=R=adverb / L=nominal + verbal or verbal + nominal / E=emoticon / $=numerical / P=pre- or postposition, or subordinating conjunction / Z=proper noun + possessive ending / V=verb / adj=adjective / adp=adposition b-corporation nn=N=noun=common noun / nnp=pnoun=propn=proper noun / vbz=Verb, 3rd person singular present / pos=possessive ending / prp$=possessive pronoun / md=modal / VBP=Verb, non-3rd person singular present / uh=!=intj=interjection / rb=R=adverb / L=nominal + verbal + nominal / E=emoticon / $=numerical / P=pre- or postposition, or subordinating connection / Z=proper noun + possessive ending / Vverb=adjective ending / VBP=pposition 0.73
b-person b-person b-group b人 b人 bグループ 0.64
i-group Table 3: Examples of falsified predictions by standard fine-tuning scheme when transferring from news domain to social media domain. i‐group 表3:ニュースドメインからソーシャルメディアドメインへの転送における標準的な微調整方式による偽造予測の例。 0.65
Line 1: Some words from the validation-set of each data-set. 行1: 各データセットの検証セットからのいくつかの単語。 0.65
Line 2: Correct labels predicted by the classic supervised setting (Random-200). 2行目:古典的な教師付き設定で予測される正しいラベル(random-200)。 0.59
Line 3: Wrong labels predicted by SFT setting. ライン3: SFT設定で予測される誤りラベル。 0.80
Mistake type: (cid:5) for words with first capital letter, • for misspelling, (cid:63) for contractions, × for abbreviations. Mistake type: (cid:5) for first capital letter, • for misspelling, (cid:63) for contractions, × for abbreations 0.80
ArK dataset Tchunk dataset ArKデータセット Tchunk データセット 0.79
Wnut dataset wnutデータセット 0.70
Figure 7: Correlation results between Φ units’ activations before fine-tuning (columns) and after fine-tuning (rows). 図7: φユニットの微調整前のアクティベーション(カラム)と微調整後の(行)の相関結果。 0.75
Brighter colours indicate higher correlation. 明るい色は高い相関を示す。 0.71
e g “company’s decision”, but rarely in contractions that are frequently used in social media, e g “How’s it going with you?”. 例: “company’s decision”, “how’s it going with you?”, “how’s it going with you?
訳抜け防止モード: 例えば、“会社の決定”ではありますが、ソーシャルメディアで頻繁に使用される収縮では滅多に行われません。 例えば “how s” です。 あなたと一緒に行くの?
0.62
Similarly, “wont” is a frequent contraction for “will not”, e g “i wont get bday money lool”, predicted as “verb” instead of “modal (MD)”12 by the SFT scheme. 同様に “wont” は “will not” に対して,SFT スキームでは “modal (MD)”12 ではなく “verb” と予測される “I don't get bday money lool” を頻繁に収縮させる。 0.86
The same for “id”, which stands for “I would”. i would” の略である “id” も同じです。 0.65
• Abbreviations are frequently used in social media to shorten the way a word is standardly written. ・略語は、しばしばソーシャルメディアにおいて、単語の標準的な表記方法の短縮に使用される。 0.67
We found that the standard finetuning scheme stumbles on abbreviations predictions, e g 2pac (Tupac), 2 (to), ur (your), wth (what the hell) and nvr (never) in ArK 標準的な微調整方式は,ArKの略語予測 e g 2pac (Tupac), 2 (to), ur (Your), wth (What the hell), nvr (never) に反することがわかった。 0.77
12A modal is an auxiliary verb expressing: ability (can), 12A modal は補助動詞で、能力 (can) を表す。 0.84
obligation (have), etc. obligation (countable かつ uncountable, 複数形 obligations) 0.54
dataset; and luv (love) and wyd (what you doing?) データセット; and luv (love) と wyd (what you doing? 0.79
in TChunk dataset. TChunk のデータセット。 0.72
• Misspellings: Likewise, we found that the standard fine-tuning scheme often gives wrong predictions for misspelt words, e g awsome, bout, amazin. • ミススペル: 同様に、標準的な微調整方式は、しばしばミススペルト語、例えばawsome、bout、amazinに対して間違った予測を与える。 0.74
7.1.2 Quantifying the change of individual 7.1.2 個人の変化の定量化 0.63
pretrained neurons To visualise the bias phenomenon occurring when using the standard fine-tuning scheme, we quantify the charge of individual neurons. 訓練済みニューロン 標準的な微調整方式で発生するバイアス現象を可視化するため,個々のニューロンの電荷を定量化する。 0.67
Precisely, we plot the asymmetric correlation matrix C (The method described in §4.2.1) between the Φ layer’s units before and after fine-tuning for each social media dataset (ArK for POS, TChunk for CK and 正確には、各ソーシャルメディアデータセット(ArK for POS, TChunk for CK, TChunk for CK)の微調整前後における非対称相関行列Cをプロットする。
訳抜け防止モード: 正確には、前もって非対称な相関行列 C を 2 層 の単位の間の非対称相関行列 C にプロットする。 そして、罰金が課された後、各ソーシャルメディアデータセット(POS用のArK、)のチューニングを行う。 TChunk for CK and
0.59
英語(論文から抽出)日本語訳スコア
WNUT-17 for NER). WNUT-17 for NER)。 0.77
From the resulting correlation matrices illustrated in Figure 7, we can observe the diagonal representing the charge of each unit, with most of the units having a high charge (light colour), alluding the fact that every unit after fine-tuning is highly correlated with itself before fine-tuning. 図7で示される相関行列から、各単位の電荷を表す対角線を観察することができ、ほとんどの単位は電荷が高い(光色)ので、微調整後の各単位が微調整の前にそれ自身と高い相関関係を持つという事実を暗示する。 0.76
Hypothesising that high correlation in the diagonal entails high bias, the results of this experiment confirm our initial motivation that pretrained units are highly biased to what they have learnt in the source-dataset, making them limited to learn some patterns that are specific to the targetdataset. 対角線における高い相関は高いバイアスを伴うと仮定すると、この実験の結果は、トレーニング済みのユニットがソースデータセットで学んだことに非常に偏っているという最初の動機を確認でき、ターゲットデータセットに特有のパターンを学ぶことが制限される。 0.72
Our remarks were confirmed recently in the recent work of Merchant et al (2020) who also found that fine-tuning is a “conservative process”. 最近の merchant et al (2020) では、微調整は“保守的プロセス”であることが分かった。 0.56
7.1.3 Visualising the Evolution of Pretrained Neurons Stimulus during Fine-tuning 7.1.3 微調整時の前訓練ニューロン刺激の進化の可視化 0.56
best+) or negatively (A(j) best+) または負の (A(j)) 0.76
Here, we give concrete visualisations of the evolution of pretrained neurons stimulus during finetuning when transferring from the news domain to the social media domain. ここでは、ニュース領域からソーシャルメディア領域へ移行する際の微調整時の前訓練されたニューロン刺激の進化を具体的に可視化する。 0.62
Following the method described in section 4.2.2, we plot the matrices of top-10 words activating each neuron j, positively (A(j) best−). 第4.2.2節で述べた方法に従い、各ニューロンjを活性化するトップ10語の行列を(a(j) best−)プロットする。 0.62
The results are plotted in Figure 8 for ArK (POS) dataset and Figure 9 for TweeBank dataset (POS). 結果は、ark(pos)データセットの図8とtweebankデータセット(pos)の図9にプロットされます。 0.77
Rows represent the top-10 words from the target dataset activating each unit, and columns represent fine-tuning epochs; before fine-tuning in column 0 (at this stage the model is only trained on the source-dataset), and during fine-tuning (columns 5 to 20). ロウは各ユニットを活性化するターゲットデータセットの上位10語を表し、カラムは細調整エポックを表し、カラム0で微調整する前に(この段階では、モデルはソースデータセットでのみ訓練される)、微調整の間(カラム5から20)。 0.68
Additionally, to get an idea about each unit’s stimulus on source dataset, we also show, in the first column (Final-WSJ), top-10 words from the source dataset activating the same unit before fine-tuning. さらに、ソースデータセットに対する各ユニットの刺激についてアイデアを得るには、最初の列(final-wsj)で、微調整の前に同じユニットを活性化するソースデータセットのトップ10ワードも示します。 0.73
In the following, we describe the information encoded by each provided neuron.13 以下、各ニューロンがコードする情報について述べる。 0.52
• Ark - POS: (Figure 8) • ark - pos: (第8図) 0.81
– Unit-196 is sensitive to contractions containing an apostrophe regardless of the contraction’s class. 単位196は、収縮のクラスに関係なく、アポストロフェを含む収縮に敏感である。 0.61
However, unlike news, in social media and particularly ArK dataset, apostrophes are used in different cases. しかし、ニュースやソーシャルメディア、特にarkデータセットとは異なり、apostrophesは異なるケースで使われている。 0.72
For instance i’m, i’ll and it’s belong to the class “L” that stands for “nominal + verbal or verbal + nominal”, while the contractions can’t and don’t belong to the class “Verb”. i’m, i’m, and it’s in the class "l" は "nominal + verbal or verbal + nominal" の略で、縮小は "verb" のクラスに属しない。
訳抜け防止モード: 例えば、私はそう思う。 私はそうする。 l」は「名目 + 動詞 + 動詞 + 名目 + 名目 + 」を意味する「l」のクラスに属する。 can’t と do n't の縮小は " verb " のクラスに属しない。
0.68
13Here we only select some interesting neurons. 13 興味深いニューロンのみを選択します。 0.66
However we also found many neurons that are not interpretable. しかし また、解釈できない多くのニューロンも発見しました。 0.67
Unit-196: ArK dataset Unit-196: ArK データセット 0.71
Unit-64: ArK dataset Unit-64: ArK データセット 0.70
Figure 8: Individual units activations before and during fine-tuning from ArK POS dataset. 図8: ArK POSデータセットの微調整前後の個々のユニットのアクティベーション。 0.84
For each unit we show Top-10 words activating the said unit. 各ユニットについて、当該ユニットを活性化するトップ10ワードを示す。 0.59
The first column: top-10 words from the source validation-set (WSJ) before fine-tuning, Column 0: top10 words from the target validation-set (ArK) before fine-tuning. 最初の列: ソースバリデーションセット(wsj)からのtop-10ワード 微調整前のカラム0: ターゲットバリデーションセット(ark)からのtop10ワード 微調整前のカラム。 0.68
Columns 5 to 20: top-10 words from the target validation-set during fine-tuning epochs. カラム5〜20: 微調整エポック中の目標検証セットから上位10語。 0.59
– Unit-64 is sensitive to plural proper nouns on news-domain before finetuning, e g Koreans and Europeans, and also on ArK during fine-tuning, e g Titans and Patriots. – Unit-64は、微調整の前に複数の固有名詞に敏感で、韓国人やヨーロッパ人、微調整中はArK、タイタン、パトリオットに敏感である。 0.61
However, in ArK dataset, “Z” is a special class for “proper noun + possessive ending”, e g Jay’s mum, and in some cases the apostrophe is omitted, e g Fergusons house for Ferguson’s house, which thus may bring ambiguity with plural proper nouns in formal English. しかし、ArKデータセットでは、"Z" は "proper noun + possessive ending" の特別なクラスであり、e g Jay の母語である "e g Fergusons house for Ferguson's house" を省略する場合もある。
訳抜け防止モード: しかし、ArKデータセットでは、"Z" は "proper noun + possessive ending " の特別なクラスである。 e.g.Jayの母親、場合によっては 使徒は省略される e g Fergusons (複数形 eg Fergusonss) したがって、正式な英語で複数の固有名詞とあいまいさをもたらす可能性がある。
0.76
Consequently, unit-64, initially sensitive to plural proper nouns, is also firing on words from the class “Z”, e g Timbers (Timber’s). その結果、最初複数の固有名詞に敏感な unit-64 は、"z" というクラス(例えばティンバーズ(timber's))の単語を発射している。 0.70
• Tweebank - POS: (Figure 9) • tweebank - pos: (第9図) 0.79
– Unit-37 is sensitive before and during fine-tuning on plural nouns, such as gazers and feminists. – Unit-37は、ガウンやフェミニストなどの複数の名詞を微調整する前後に敏感である。 0.69
However, it is also firing on the word slangs because of the s ending, which is in fact a proper noun. しかし、sの語尾からスラング(スラング)という言葉も発火しており、これは実際には固有名詞である。 0.63
This might explain the wrong prediction for the word slangs (noun instead of proper noun) given by the standard fine-tuning scheme (Table 3). これは標準微調整スキーム(Table 3)によって与えられるスラング(固有名詞の代わりに名詞)の誤った予測を説明するかもしれない。 0.69
英語(論文から抽出)日本語訳スコア
– Unit-169 is highly sensitive to proper nouns (e g George and Washington) before fine-tuning, and to words with capitalised first-letter whether the word is a proper noun or not (e g Man and Father) during fine-tuning on the TweeBank dataset. 単位169は、微調整前の固有名詞(ジョージやワシントンなど)や、tweebankデータセットの微調整時に単語が固有名詞であるか否か(人間や父など)を大文字で表す単語に対して非常に敏感である。 0.64
Which may explain the frequent wrong predictions of tokens with upper-cased first letter as proper nouns by the standard fine-tuning scheme. これは、標準的な微調整スキームによる適切な名詞として、上段第一文字のトークンの誤予測を説明できる。 0.58
Unit-37: Tweebank dataset unit-37: tweebankデータセット 0.66
Unit-169: Tweebank dataset Unit-169: Tweebank データセット 0.69
Figure 9: Individual units activations before and during fine-tuning on Tweebank POS dataset. 図9:Tweebank POSデータセットの微調整前後の個々のユニットのアクティベーション。 0.83
For each unit we show Top-10 words activating the said unit. 各ユニットについて、当該ユニットを活性化するトップ10ワードを示す。 0.59
The first column: top-10 words from the source validation-set (WSJ) before fine-tuning, Column 0: top10 words from the target validation-set (Tweebank) before fine-tuning. 最初の列: ソースバリデーションセット(wsj)からのtop-10ワード 微調整前のカラム0: ターゲットバリデーションセット(tweebank)からのtop10ワード 微調整前。 0.74
Columns 5 to 20: top-10 words from the target validation-set during fine-tuning epochs. カラム5〜20: 微調整エポック中の目標検証セットから上位10語。 0.59
7.2 PretRand’s Results In this section, we present PretRand’s performance on POS, CK, NER and MST tasks on social media datasets: 7.2 PretRandの結果 この節では、POS、CK、NER、MSTタスクにおけるPretRandのパフォーマンスについて述べます。 0.59
1. We compare PretRand’s to baseline methods, in the scenario in which contextual representations (ELMo) are not used (§7.2.1). 1. 文脈表現 (ELMo) が使われないシナリオでは、PretRand のメソッドをベースラインメソッドと比較する(7.2.1)。 0.79
2. We measure the importance of each component of PretRand on the overall performance (§7.2.2). 2. PretRandの各コンポーネントが全体的なパフォーマンス (7.2.2) に与える影響を測る。 0.75
3. We investigate the impact of incorporating contextual representations, on baselines vs PretRand (§7.2.3). 3. 文脈表現がベースライン対PretRand (7.2.3) に与える影響について検討する。 0.73
4. We compare PretRand to best state-of-the-art 4. 私たちはPretRandを最先端技術と比較する 0.68
approaches (§7.2.4). 接近 (7.2.4)。 0.41
5. We investigate in which scenarios PretRand is 5. PretRandのシナリオについて検討する。 0.77
most advantageous (§7.2.5). 最も有利(7.2.5)。 0.60
6. We assess the impact of PretRand on the hidden negative transfer compared to the standard fine-tuning (§7.2.6) 6. 我々は,PretRandが隠れ負の伝達に与える影響を標準微調整(7.2.6)と比較して評価する。 0.72
7.2.1 Comparison with Baseline Methods In this section we assess the performance of PretRand through a comparison to six baselinemethods, illustrated in Figure 10. 7.2.1 ベースラインメソッドとの比較 この節では、図10に示す6つのベースラインメソッドとの比較を通して、PretRandのパフォーマンスを評価します。 0.68
First, since PretRand is an amelioration of the standard fine-tuning (SFT) adaptation scheme, we mainly compare it to the SFT baseline. 第一に、PretRandは標準微調整(SFT)適応方式の改良であるため、主にSFTベースラインと比較する。 0.69
Besides, we assess whether the gain brought by PretRand is due to the increase in the number of parameters; thus we also compare with the standard supervised training scheme with a wider model. また, pretrand による利得がパラメータ数の増加によるものであるかどうかを評価するとともに, 標準教師付きトレーニングスキームとより広いモデルとの比較を行った。 0.80
Finally, the final predictions of PretRand are the combination of the predictions of the two branches, randomly initialised and pretrained, which can make one think about ensemble methods (Dietterich, 2000). 最後に、PretRandの最終的な予測は、ランダムに初期化され、事前訓練された2つの分岐の予測を組み合わせることで、アンサンブル法について考えることができる(Dietterich, 2000)。 0.64
Thus we also compare with ensemble methods. したがって、アンサンブル法と比較する。 0.48
The following items describe the different baseline-methods used for comparison: 以下の項目では、比較に使用される異なるベースラインメソッドについて説明する。 0.56
• (a) From-scratch200: The base model described in section 1, trained from scratch using the standard supervised training scheme on social media dataset (without transfer learning). • (a) from-scratch200: 第1節に記述されたベースモデルは、ソーシャルメディアデータセット(転送学習なしで)の標準教師付きトレーニングスキームを使用してスクラッチからトレーニングする。 0.75
Here the number 200 refers to the dimensionality of the biLSTM network in the FE (Φ). ここで200は、fe (φ) における bilstm ネットワークの次元を表す。 0.62
• (b) From-scratch400: The same as “Fromscratch200” baseline but with 400 instead of 200 biLSTM units in the FE. b) From-scratch400: “Fromscratch200”ベースラインと同じだが、FEでは200biLSTMではなく400である。 0.77
Indeed, by experimenting with this baseline, we aim to highlight that the impact of PretRand is not due to the increase in the number of parameters. 実際、このベースラインを実験することで、PretRandの影響はパラメータの数の増加によるものではないことを強調することを目指している。 0.77
• (c) Standard Fine-tuning (SFT): Pretraining the base model on the source-dataset, followed by an adaptation on the targetdataset with the standard fine-tuning scheme (§4). c) 標準ファインチューニング(SFT): ソースデータセットのベースモデルを事前調整した後、標準ファインチューニングスキーム(4)でターゲットデータセットに適応する。 0.77
• (d) Standard Feature Extraction (SFE): The same as SFT, but the pretrained parameters are frozen during fine-tuning on the social media datasets. • (d)標準特徴抽出(SFE): SFTと同じだが、事前訓練されたパラメータはソーシャルメディアデータセットの微調整中に凍結される。 0.84
英語(論文から抽出)日本語訳スコア
Figure 10: Illustrative schemes of baseline-methods and PretRand. 図10: ベースラインメソッドとPretRandの図解的なスキーム。 0.78
• (e) Ensemble (2 rand): Averaging the predictions of two base models that are randomly initialised and learnt independently on the same target dataset, but with a different random initialisation. • (e) Ensemble (2 rund): ランダムに初期化され、同じターゲットデータセット上で独立に学習される2つのベースモデルの予測を平均化する。 0.81
• (f) Ensemble (1 pret + 1 rand): same as the previous but with one pre-trained on the source-domain (SFT baseline) and the other randomly initialised (From-scratch200 baseline). • (f) Ensemble (1 pret + 1 rund): 前と同じだが、ソースドメイン(SFTベースライン)とランダムに初期化されている(From-scratch200ベースライン)。 0.75
We summarise the comparison of PretRand to the above baselines in Tables 4. 表4において、PretRandと上記のベースラインの比較を要約する。 0.79
In the first table, we report the results of POS, CK and NER English social media datasets. 第1表では, POS, CKおよびNER英語ソーシャルメディアデータセットの結果を報告する。 0.65
In the second table, we report the results of MST on Serbian, Slovene and Croatian social media datasets. 第2の表では,セルビア,スロベニア,クロアチアのソーシャルメディアデータセットにおけるmstの結果について報告する。 0.58
We compare the different approaches using the aNRG metric (see equation 12) compared to the reference Fromscratch200. 我々は、aNRG計量を用いて異なるアプローチ(方程式12を参照)を基準の Fromscratch200 と比較する。 0.74
First, we observe that PretRand outperforms the popular standard fine-tuning baseline significantly by +13.1 aNRG (28.8-15.7). まず、PretRandは標準微調整ベースラインを+13.1 aNRG (28.8-15.7) で大幅に上回っている。 0.55
More importantly, PretRand outperforms the challenging Ensemble method across all tasks and datasets and by +15.4 (28.8-13.4) on aNRG, while using much さらに重要なことに、pretrandは、anrg上のすべてのタスクとデータセットと+15.4 (28.8-13.4)の挑戦的なアンサンブルメソッドを多く使用しながら上回っている。 0.46
fewer parameters. パラメータが少ない。 0.69
This highlights the difference between our method and the ensemble methods. これは我々の方法とアンサンブル法の違いを強調します。 0.65
Indeed, in addition to normalisation and weighting vectors, PretRand is conceptually different since the random and pretrained branches share the WRE component. 実際、正規化と重み付けベクトルに加えて、PretRandはランダムおよび事前訓練された分岐がWRE成分を共有するため概念的に異なる。 0.73
Also, the results of From-scratch400 compared to From-scratch200 baseline confirm that the gain brought by PretRand is not due to the supplement parameters. また、From-scratch400とFrom-scratch200のベースラインを比較した結果、PretRandがもたらすゲインはサプリメントパラメータによるものではないことが確認された。 0.54
In the following (§7.2.2), we show that the gain brought by PretRand is mainly due to the shared word representation in combination with the normalisation and the learnable weighting vectors during training. 以下に示す (7.2.2) において、PretRand がもたらす利得は、トレーニング中の正規化と学習可能な重み付けベクトルを組み合わせた共有語表現が主な原因であることを示す。 0.73
Moreover, a key asset of PretRand is that it uses only 0.02% more parameters compared to the fine-tuning baseline. さらに、PretRandの重要な資産は、微調整ベースラインと比較して0.02%しかパラメータを使用しないことだ。 0.57
7.2.2 Diagnostic Analysis of the Importance 7.2.2 重要度の診断分析 0.69
of PretRand’s Components PretRandのコンポーネントの 0.61
While in the precedent experiment we reported the best performance of PretRand, here we carry out an ablation study to diagnose the importance of each component in our proposed approach. 先行実験ではpretrandの最高の性能を報告したが,提案手法における各成分の重要性を診断するためのアブレーション研究を行った。 0.82
Specifically, we successively ablate the main components of PretRand, namely, the learnable weighting vectors (learnVect), the longer training of the 具体的には,学習可能な重み付けベクトル(learnvect)と,学習の長期化という,pretrandの主成分を逐次省略する。 0.68
英語(論文から抽出)日本語訳スコア
Method From-scratch200 From-scratch400 Feature Extraction Fine-Tuning Ensemble (2 rand) Ensemble (1p+1r) PretRand From-scratch200 From-scratch400 Feature extract Fine-Tuning Ensemble (2 rund) Ensemble (1p+1r) PretRand 0.65
#params 1× 1.03× 1× 1× 2× 2× 1.02× #params 1× 1.03× 1× 1× 2× 2× 1.02× 0.56
TPoS 86.82 86.61 86.08 89.57 88.98 88.74 91.27 TPoS 86.82 86.61 86.08 89.57 88.98 88.74 91.27 0.46
POS (acc.) POS (複数形 POSs) 0.80
ArK TweeBank 91.10 91.31 85.25 92.09 91.45 91.67 93.81 ArK TweeBank 91.10 91.31 85.25 92.09 91.45 91.67 93.81 0.49
91.66 91.81 87.93 93.23 92.26 93.06 95.11 91.66 91.81 87.93 93.23 92.26 93.06 95.11 0.43
CK (acc.) CK (複数形 CKs) 0.83
NER (F1) TChunk WNUT 36.75 38.64 27.83 41.25 39.54 42.66 43.12 NER (F1) TChunk WNUT 36.75 38.64 27.83 41.25 39.54 42.66 43.12 0.57
85.96 87.11 81.49 88.86 86.72 88.78 89.95 85.96 87.11 81.49 88.86 86.72 88.78 89.95 0.43
aNRG 0 +2.7 -32.4 +15.7 +7.5 +13.4 +28.8 国鉄 0 +2.7 -32.4 +15.7 +7.5 +13.4 +28.8 0.53
Method From-scratch200 From-scratch400 Feature Extraction Fine-Tuning Ensemble (2 rand) Ensemble (1p+1r) PretRand From-scratch200 From-scratch400 Feature extract Fine-Tuning Ensemble (2 rund) Ensemble (1p+1r) PretRand 0.65
#params 1× 1.03× 1× 1× 2× 2× 1.02× #params 1× 1.03× 1× 1× 2× 2× 1.02× 0.56
Serbian 86.18 86.05 73.56 87.59 87.01 87.96 88.21 Serbian 86.18 86.05 73.56 87.59 87.01 87.96 88.21 0.46
MST (acc.) MST (複数形 MSTs) 0.86
Slovene Croatian 84.42 84.37 70.22 88.76 84.67 88.54 90.01 スロベニア 84.42 84.37 70.22 88.76 84.67 88.54 90.01 0.42
85.67 85.77 79.11 88.79 86.05 88.87 90.23 85.67 85.77 79.11 88.79 86.05 88.87 90.23 0.43
aNRG 0 -0.2 -76.1 +19.9 +3.4 +20.6 +27.5 国鉄 0 -0.2 -76.1 +19.9 +3.4 +20.6 +27.5 0.38
Table 4: Comparison of PretRand to baselines methods. 表4: PretRandとベースラインメソッドの比較。 0.72
Comparison of our method to baselines in terms of token-level accuracy for POS, CK and MST and entity-level F1 for NER (in %) on social media test-sets. 提案手法を, POS, CK, MSTのトークンレベル精度, NERのエンティティレベルF1(%)の基準値と比較した。
訳抜け防止モード: POSにおけるトークンレベル精度と基準値の比較 CK と MST とエンティティ - NER の % のレベル F1 がソーシャルメディアテストで設定されます。
0.77
In the second column (#params), we highlight the number of parameters of each method compared to the reference From-scratch200 baseline. 第2列(#params)では、scratch200ベースラインからの参照と比較して、各メソッドのパラメータ数を強調する。 0.76
In the last column, we report the aNRG score of each method compared to the reference From-scratch200. 最後のコラムでは、参照の From-scratch200 と比較して各手法の ANRG スコアを報告する。 0.62
Best score per dataset is in bold, and the second best score is underlined. データセット毎のベストスコアは太字で、第2のスコアは下線で示される。 0.63
Method TPoS PretRand 91.27 -learnVect 91.11 -learnVect -random++ 90.84 -learnVect -random++ -l2 norm 90.54 メソッド TPoS PretRand 91.27 -learnVect 91.11 -learnVect -random++ 90.84 -learnVect -random++ -l2 norm 90.54 0.51
POS ArK TweeBank 93.81 93.41 93.56 92.19 POS ArK TweeBank 93.81 93.41 93.56 92.19 0.70
95.11 94.71 94.26 93.28 95.11 94.71 94.26 93.28 0.45
CK NER TChnuk WNUT 43.12 42.76 42.70 41.84 CK NER TChnuk WNUT 43.12 42.76 42.70 41.84 0.72
89.95 89.64 89.05 88.66 89.95 89.64 89.05 88.66 0.45
Serbian 88.21 88.01 87.85 87.66 セルビア 88.21 88.01 87.85 87.66 0.39
MST Slovene Croatian 90.01 89.83 89.39 88.64 MST スロベニア クロアチア 90.01 89.83 89.39 88.64 0.65
90.23 90.12 89.51 88.49 90.23 90.12 89.51 88.49 0.45
Table 5: Diagnostic analysis of the importance of each component in PretRand. 表5: PretRandにおける各コンポーネントの重要性の診断分析。 0.88
Accuracy for POS, CK and MST and F1 for NER (in %) when progressively ablating PretRand components. POS, CK, MST の精度と NER の F1 の精度(%) 0.53
random branch (random++) and the normalisation ((cid:96)2-norm). ランダムブランチ(random++)と正規化(cid:96)2-norm)。 0.73
From the results in Table 5, we can first observe that ablating each of them successively degrades the results across all datasets, which highlights the importance of each component. 表5の結果から、まず各コンポーネントのアブレーションが、各コンポーネントの重要性を強調するすべてのデータセットをまたいで結果を順次分解することを観察します。 0.77
Second, the results are only marginally better than the SFT when ablating the three components from PretRand (the last line in Table 5). 第二に、結果はPretRand(表5の最後のライン)の3つのコンポーネントを非難するとき、SFTよりもわずかに良い。 0.76
Third, ablating the normalisation layer significantly hurts the performance across all data-sets, confirming the importance of this step of making the two branches more competitive. 第3に,正規化レイヤの廃止はすべてのデータセットのパフォーマンスを著しく損なうと同時に,この2つのブランチの競争力を高めるためのこのステップの重要性を確認する。 0.61
7.2.3 Incorporating Contextualised Word Representations 7.2.3 文脈型単語表現の導入 0.49
So far in our experiments, we have used only the standard pre-loaded words embeddings and character-level embeddings in the WRE component. これまでの実験では、標準のプリロードされた単語埋め込みと文字レベルの埋め込みのみをwreコンポーネントに使用しました。 0.67
Here, we perform a further experiment that examines the effect of incorporating the ELMo contextualised word representations (Peters et al , 2018) in different tasks and training schemes (From-scratch, SFT and PretRand). ここでは, ELMOの文脈化された単語表現(Peters et al , 2018)を異なるタスクやトレーニングスキーム(From-scratch, SFT, PretRand)に組み込む効果について検討する。 0.71
Specifically, we carry out an ablation study of WRE’s representations, namely, the standard pre-loaded words embeddings (word), character-level embeddings (char) and ELMo contextualised embeddings (ELMo). 具体的には 我々は、wreの表現、すなわち、標準プリロードされた単語埋め込み(word)、文字レベル埋め込み(char)、およびelmo文脈埋め込み(elmo)のアブレーション研究を行う。 0.60
The ablation leads to 7 settings; in each, one or more representations are ablated. アブレーションは7つの設定につながり、それぞれ1つ以上の表現が廃止される。 0.69
Results are provided in Table 6, “ ” means that the corresponding representation is used and “ ” means that it is ablated. 結果が表6に示され、” ” は対応する表現が使われ、” ” はアブレーションされることを意味する。 0.78
For instance, in setting A only character-level representation is used. 例えば、文字レベルの表現だけを設定する場合である。 0.71
Three important observations can be highlighted. 3つの重要な観察点が強調できる。 0.66
First, in training from scratch scheme, as expected, contextualised ELMo embeddings have a considerable effect on all datasets and tasks. まず、スクラッチスキームからのトレーニングにおいて、予想通り、コンテキスト化されたELMo埋め込みはすべてのデータセットやタスクにかなりの影響を及ぼす。 0.52
For instance, setting D (using ELMo solely) outperforms setting C (standard concatenation between characterlevel and word-level embeddings), considerably on Chunking and NER and slightly on POS tagging (except ArK). 例えば、D設定(ELMoのみを使用)は、C設定(文字レベルと単語レベルの埋め込みの標準結合)よりも優れており、チャンキングやNERに大きく、POSタグ(ArKを除く)に若干依存している。 0.58
Furthermore, combining ELMo embeddings to the standard concatenation between character-level and word-level embeddings (setting G) gives the best results across all tasks and social さらに、ELMo埋め込みを文字レベルと単語レベルの埋め込み(設定G)の標準結合に組み合わせることで、すべてのタスクと社会的に最適な結果が得られる。
訳抜け防止モード: さらに、ELMo埋め込みと文字-レベルと単語-レベル埋め込みの標準結合を組み合わせる。 設定G ) あらゆるタスクと社会的に最高の結果を与える
0.77
英語(論文から抽出)日本語訳スコア
Char(cid:5)(cid:63) Word•(cid:63) Char(cid:5)(cid:63) Word•(cid:63) 0.74
ELMo•× Method From-scratch ELMo•× 方法 From-scratch 0.65
SFT PretRand SFT PretRand 0.85
# A B C D E F G A B C D E F G A B C D E F G # B C D E F G A B C D E F G A B C D E F G A B C D E F G 0.88
TPoS 82.16 85.21 86.82 88.35 89.01 89.31 90.01 86.87 87.61 89.57 88.02 90.18 88.87 90.27 88.01 88.56 91.27 88.15 91.12 89.54 91.45 TPoS 82.16 85.21 86.82 88.35 89.01 89.31 90.01 86.87 87.61 89.57 88.02 90.18 88.87 90.27 88.01 88.56 91.27 88.15 91.12 89.54 91.45 0.42
POS (acc.) POS (複数形 POSs) 0.80
ArK 87.66 88.34 91.10 90.62 91.48 91.57 92.09 88.30 89.63 92.09 90.32 91.81 91.83 92.73 90.11 90.56 93.81 90.26 92.94 93.16 94.18 ArK 87.66 88.34 91.10 90.62 91.48 91.57 92.09 88.30 89.63 92.09 90.32 91.81 91.83 92.73 90.11 90.56 93.81 90.26 92.94 93.16 94.18 0.42
TweeB 88.30 90.63 91.66 92.51 93.21 93.60 93.73 89.26 92.31 93.23 93.04 93.53 93.71 94.19 91.16 93.99 95.11 93.41 94.89 94.15 95.22 TweeB 88.30 90.63 91.66 92.51 93.21 93.60 93.73 89.26 92.31 93.23 93.04 93.53 93.71 94.19 91.16 93.99 95.11 93.41 94.89 94.15 95.22 0.42
CK (acc.) CK (複数形 CKs) 0.83
TChunk 84.56 84.17 85.96 89.61 88.48 89.39 88.99 87.28 87.19 88.86 89.69 90.55 88.82 90.75 88.49 88.55 89.95 89.84 91.36 89.37 91.49 TChunk 84.56 84.17 85.96 89.61 88.48 89.39 88.99 87.28 87.19 88.86 89.69 90.55 88.82 90.75 88.49 88.55 89.95 89.84 91.36 89.37 91.49 0.42
NER (F1.) MST (acc.) NER (F1)。 MST (複数形 MSTs) 0.89
WNUT 17.99 36.58 36.75 34.35 33.99 40.16 41.57 21.88 41.50 41.25 44.21 43.98 45.73 46.59 22.12 42.87 43.12 45.54 45.13 46.62 47.33 WNUT 17.99 36.58 36.75 34.35 33.99 40.16 41.57 21.88 41.50 41.25 44.21 43.98 45.73 46.59 22.12 42.87 43.12 45.54 45.13 46.62 47.33 0.42
Croatian 83.26 80.03 85.67 86.34 86.94 85.97 86.79 86.19 83.07 88.79 88.25 88.76 89.28 89.00 87.63 93.67 90.23 88.94 89.93 90.16 90.33 Croatian 83.26 80.03 85.67 86.34 86.94 85.97 86.79 86.19 83.07 88.79 88.25 88.76 89.28 89.00 87.63 93.67 90.23 88.94 89.93 90.16 90.33 0.42
Table 6: Diagnosis analysis of the impact of ELMo contextual representations.. From-scratch, SFT and PretRand results, on social media test-sets, when ablating one or more type of representations. From-scratch, SFT, PretRand, results on social media test-sets, when ablating one or more type of representations。
訳抜け防止モード: 表6:elmo文脈表現の影響の診断分析 from - scratch, sft and pretrand results on social media test - set, 1つ以上の表現をブレイトするとき。
0.71
(cid:5): from scratch, •: pre-loaded, (cid:63): trained, ×: frozen. (cid:5):スクラッチから•:プレロード、(cid:63):トレーニング、×:凍結。 0.78
media datasets. メディアデータセット。 0.73
Second, when applying our transfer learning approaches, whether SFT or PretRand, the gain brought by ELMo embeddings (setting G) compared to standard concatenation between character-level and word-level embeddings (setting C) is slight on POS tagging (in average, SFT: +0.76% , PretRand: +0.22%) and Croatian MS tagging (SFT: +0.21% , PretRand: +0.10%), whilst is considerable on CK (SFT: +1.89% , PretRand: +1.54%) and major on NER (SFT: +5.3% , PretRand: +4.2%). 第2に、SFT または PretRand のいずれにせよ、文字レベルと単語レベルの埋め込み(セットC)の標準結合と比較して、ELMo の埋め込み(セットG)がもたらす利益は、POSタグ付け(平均: SFT: +0.76% , PretRand: +0.22%)とクロアチアMSタグ付け(SFT: +0.21% , PretRand: +0.10%)ではわずかであるが、CK(SFT: +1.89% , PretRand: +1.54%)とNER(SFT: +5.3% , PretRand: +42%)では大きい。 0.75
Finally, it should be pointed out that using ELMo slows down the training and inferences processes; it becomes 10 times slower. 最後に、ELMoを使用することでトレーニングと推論プロセスが遅くなり、10倍遅くなります。
訳抜け防止モード: 最後に、注意すべき点である。 ELMoの使用はトレーニングと推論プロセスを遅くする 10倍遅くなる。
0.69
7.2.4 Comparison to state-of-the-art We compare our results to the following state-ofthe-art methods: 7.2.4 State-of-the-artと比較する。 0.66
• CRF (Ritter et al , 2011) is a Conditional Random Fields (CRF) (Lafferty et al , 2001) based model with Brown clusters. • CRF (Ritter et al , 2011) は、ブラウンクラスタを用いた条件付きランダム場 (CRF) (Lafferty et al , 2001) ベースのモデルである。 0.90
It was jointly trained on a mixture of hand-annotated socialmedia texts and labelled data from the news domain, in addition to annotated IRC chat data (Forsythand and Martell, 2007). アノテーション付きircチャットデータ(forsythand and martell, 2007)に加えて、ハンドアノテートされたソーシャルメディアテキストとニュースドメインからのラベル付きデータを組み合わせて、共同でトレーニングされた。 0.76
• GATE (Derczynski et al , 2013) is a model based on Hidden Markov Models with a set of normalisation rules, external dictionaries, lexical features and out-of-domain annotated data. • GATE (Derczynski et al , 2013) は、正規化規則、外部辞書、語彙的特徴、ドメイン外の注釈付きデータからなる隠れマルコフモデルに基づくモデルである。 0.77
The authors experimented it on TPoS, with WSJ and 32K tokens from the NPS IRC corpus. 著者らは、WSJと32KトークンをNPS IRCコーパスからTPoSで実験した。 0.65
They also proposed a second variety (GATE-bootstrap) using 1.5M additional また、1.5Mの追加で第2品種(GATE-bootstrap)も提案した。 0.55
training tokens annotated by vote-constrained bootstrapping. 投票制限付きブートストラッピングによって注釈付けされたトレーニングトークン。 0.38
• ARK tagger (Owoputi et al , 2013) is a model based on first-order Maximum Entropy Markov Model with greedy decoding. • ARKタグ (Owoputi et al , 2013) は、グレディ復号を伴う一階最大エントロピーマルコフモデルに基づくモデルである。 0.78
Brown Clusters, regular expressions and careful handengineered lexical features were also used. ブラウンクラスタ、正規表現、注意深い手書きの語彙特徴も使用された。 0.63
• TPANN (Gui et al , 2017) is a biLSTMCRF model that uses adversarial pre-training (Ganin et al , 2016) to leverage huge amounts of unlabelled social media texts, in addition to labelled datasets from the news domain. tpann (gui et al , 2017) はビルストmcrfモデルであり、敵の事前学習(ganin et al , 2016)を使用して、ニュースドメインからのラベル付きデータセットに加えて、膨大な量の未ラベルのソーシャルメディアテキストを活用する。
訳抜け防止モード: • TPANN (Gui et al, 2017) は、対人前訓練(Ganin et al, 2016)を用いたバイLSTMCRFモデルである。 膨大な量のソーシャルメディアテキストと、ニュースドメインのラベル付きデータセットを活用すること。
0.80
Next, the pretrained model is further finetuned on social media annotated examples. 次に、事前訓練されたモデルは、注釈付きの例でさらに微調整される。 0.51
Also, regular expressions were used to tag Twitter-specific classes (hashtags, usernames, urls and @-mentions). また、正規表現はtwitter固有のクラス(hashtags、usernames、url、@-mentions)をタグ付けするために使われた。 0.67
• Flairs (Akbik et al , 2019) is a biLSTM-CRF sequence labelling architecture fed with the Pooled Contextual Embeddings (Akbik et al , 2018) (pre-trained on character-level language models). • Flairs (Akbik et al , 2019) は、Pooled Contextual Embeddings (Akbik et al , 2018) (キャラクタレベルの言語モデルで事前トレーニング済み) を組み込んだビLSTM-CRFシーケンスラベリングアーキテクチャである。 0.80
• UH&CU (Silfverberg and Drobac, 2018) is a biLSTM-based sequence labelling model for MST, jointly trained on formal and informal texts. • UH&CU (Silfverberg and Drobac, 2018) は、バイLSTMをベースとしたMSTのシーケンスラベリングモデルである。 0.59
It is similar to our base model, but used 2-stacked biLSTM layers. ベースモデルに似ていますが、2スタックのbiLSTMレイヤを使用しました。 0.54
In addition, the particularity of UH&CU is that the final predictions are generated as character sequences using an LSTM decoder, i.e. さらに、UH&CUの特異性は、最終予測がLSTMデコーダを用いて文字シーケンスとして生成されることである。 0.74
a character for character (複数形 characters) 0.46
英語(論文から抽出)日本語訳スコア
Method CRF (Ritter et al , 2011)(cid:63) GATE (Derczynski et al , 2013)(cid:63) GATE-bootstrap(cid:6 3) ARK tagger (Owoputi et al , 2013)(cid:63) TPANN (Gui et al , 2017)(cid:63) × Flairs (Akbik et al , 2019)(cid:5) MDMT (Mishra, 2019)(cid:5) × DA-LSTM (Gu and Yu, 2020)× DA-BERT (Gu and Yu, 2020)• × BertTweet (Nguyen et al , 2020)• (cid:63) UH&UC PretRand (our best)(cid:5) 方法 CRF (Ritter et al , 2011)(cid:63) GATE (Derczynski et al , 2013)(cid:63) GATE-bootstrap (cid:63) ARK tagger (Owoputi et al , 2013)(cid:63) TPANN (Gui et al , 2017)(cid:63) × Flairs (Akbik et al , 2019)(cid:5) MDMT (Mishra, 2019)(cid:5) × DA-LSTM (Gu and 2020)× DA-BERT (Gu and 2020)• × BertTweet (Nguyen et al , 2020)• ~ × BertTweet (Nguyen et al , 2020)• (cid:5) UH&UC(Rand 5) 0.85
TPoS 88.3 88.69 90.54 90.40 90.92 n/a 91.70 89.16 91.55 90.1 n/a 91.45 TPoS 88.3 88.69 90.54 90.40 90.92 n/a 91.70 89.16 91.55 90.1 n/a 91.45 0.43
TweeBank POS (acc.) TweeBank POS (複数形 POSs) 0.83
ArK n/a n/a n/a 93.2 92.8 n/a 91.61 n/a n/a 94.1 n/a 94.18 ArK n/a n/a 93.2 92.8 n/a 91.61 n/a n/a 94.1 n/a 94.18 0.47
n/a n/a n/a 94.6 n/a n/a 92.44 n/a n/a 95.2 n/a 95.22 n/a n/a n/a 94.6 n/a n/a 92.44 n/a n/a 95.2 n/a 95.22 0.41
CK (acc.) CK (複数形 CKs) 0.83
NER (F1.) TChunk NER (F1)。 TChunk 0.89
WNUT 87.5 n/a n/a n/a n/a n/a n/a n/a n/a n/a n/a 91.49 WNUT 87.5 n/a n/a n/a n/a n/a n/a n/a n/a n/a n/a 91.49 0.63
n/a n/a n/a n/a n/a 49.59 49.86 n/a n/a 54.1 n/a 47.33 n/a n/a n/a n/a 49.59 49.86 n/a n/a 54.1 n/a 47.33 0.45
Sr n/a n/a n/a n/a n/a n/a n/a n/a n/a n/a 90.00 88.21 Sr n/a n/a n/a n/a n/a n/a n/a n/a n/a n/a 90.00 88.21 0.43
MST (acc.) MST (複数形 MSTs) 0.86
Sl n/a n/a n/a n/a n/a n/a n/a n/a n/a n/a 88.4 90.01 Sl n/a n/a n/a n/a n/a n/a n/a n/a n/a n/a 88.4 90.01 0.43
Hr n/a n/a n/a n/a n/a n/a n/a n/a n/a n/a 88.7 90.33 Hr n/a n/a n/a n/a n/a n/a n/a n/a n/a n/a 88.7 90.33 0.43
Table 7: Comparison of PretRand to the best published state-of-the-art methods in terms of token-level accuracy for POS, CK and MST and F1 for NER (in %) on social media datasets. 表7: PretRand の POS,CK,MST のトークンレベル精度とソーシャルメディアデータセットの NER (%) の F1 における最も優れた最先端の手法との比較。 0.74
(cid:5): use of contextualised representations. (cid:5):文脈表現の使用。 0.77
•: use of BERT pretrained model. •: bertプリトレーニングモデルの使用。 0.66
(cid:63): use of normalisation dictionaries, regular expressions or external knowledge. (cid:63):正規化辞書、正規表現または外部知識の使用。 0.77
×: use of a CRF classifier on top of the neural model. ×: 神経モデル上にcrf分類器を使用する。 0.61
each morpho-syntactic feature instead of an atomic label. 原子ラベルの代わりに、それぞれのモルフォシンタクティック特徴。 0.68
• Multi-dataset-multi- task •マルチデータセット・マルチタスク 0.44
(MDMT) (Mishra, 2019) consists in a multi-task training of 4 NLP tasks: POS, CK, super sense tagging and NER, on 20 Tweets datasets 7 POS, 10 NER, 1 CK, and 2 super sense–tagged datasets. (MDMT) (Mishra, 2019)は、POS, CK, Super sense tagging and NERという4つのNLPタスクのマルチタスクトレーニングで構成され、20のつぶやきデータセット7 POS, 10 NER, 1 CK, 2つの超感覚タグ付きデータセットである。 0.79
The model is based on a biLSTM-CRF architecture and words representations are based on the pre-trained ELMo embeddings. このモデルはbiLSTM-CRFアーキテクチャに基づいており、単語表現は事前訓練されたELMo埋め込みに基づいている。 0.64
• Data Annealing (DA) (Gu and Yu, 2020) is a fine-tuning approach similar to our SFT baseline, but the passage from pretraining to finetuning is performed gradually, i.e. • Data Annealing (DA) (Gu and Yu, 2020)は, SFTベースラインと類似した微調整アプローチであるが, 事前訓練から微調整までの経過は徐々に進行している。 0.84
the training starts with only formal text data (news) at first; then, the proportion of the informal text data (social media) is gradually increased during the training process. トレーニングは、最初は正式なテキストデータ(ニュース)のみから始まり、その後、トレーニングプロセス中に非公式なテキストデータ(ソーシャルメディア)の割合が徐々に増加する。 0.79
They experiment with two architectural varieties, a biLSTM-based architecture (DA-LSTM) and a Transformerbased architecture (DA-BERT). 彼らは2つのアーキテクチャ多様体、biLSTMベースのアーキテクチャ(DA-LSTM)とTransformerベースのアーキテクチャ(DA-BERT)を実験した。 0.57
In the last variety, the model is initialised with BERTbase pretrained model (110 million parameters). 最後の種類では、モデルはBERTbase事前訓練モデル(1億1000万のパラメータ)で初期化されます。 0.62
A CRF classifier is used as a classifier on the top of both varieties, biLSTM and BERT. CRF分類器は、両方の品種、biLSTMとBERTの上部の分類器として使用される。 0.72
• BertTweet (Nguyen et al , 2020) is a largescale model pretrained on an 80GB corpus of 850M English Tweets. • BertTweet (Nguyen et al , 2020)は、8億5000万の英語ツイートの80GBコーパスで事前訓練された大規模モデルである。 0.68
The model is trained using BERTbase (Devlin et al , 2019) architecture and following the pretraining procedure of RoBERTa (Liu et al , 2019b). このモデルはBERTbase(Devlin et al , 2019)アーキテクチャを使用してトレーニングされ、RoBERTa(Liu et al , 2019b)の事前トレーニング手順に従っている。 0.75
In order to perform POS tagging and NER, a ran- POSタグとNERを実行するには、run- 0.66
domly initialised linear prediction layer is appended on top of the last Transformer layer of BERTweet, and then the model is fine-tuned on target tasks examples. Domly initialized linear prediction layer は BERTweet の最後の Transformer レイヤの上に付加され、そのモデルがターゲットタスクの例に基づいて微調整される。 0.84
In addition, lexical dictionaries were used to normalise social media texts. また、辞書はソーシャルメディアのテキストの正規化に用いられた。 0.71
From Table 7, we observe that PretRand outperforms best state-of-the-art results on POS tagging datasets (except TPoS), Chunking (+4%), Slovene (+1.5%) and Croatian (1.6%) MS tagging. 表7からは、PretRandがPOSタグ付けデータセット(TPoSを除く)、チャンキング(+4%)、スロベニア(+1.5%)、クロアチア(1.6%)のMSタグ付けにおいて、最先端の結果を上回っているのが分かります。
訳抜け防止モード: 表7から、PretRandはPOSタグデータセット(TPoSを除く)において、-----アート結果の最高の状態よりも優れています。 チャンキング(+4%)、スロベニア(+1.5%) クロアチア (1.6 % ) MS タグ付け。
0.52
However, it performs worse than UH&UC for Serbian MS tagging. しかし、セルビアのMSタグ付けではUH&UCよりもパフォーマンスが悪い。 0.57
This could be explained by the fact that the Serbian source dataset (news) is small compared to Slovene and Croatian, reducing the gain brought by pretraining and thus that brought by PretRand. これは、セルビアのソースデータセット(news)がスロベニア語やクロアチア語に比べて小さいため、プリトレーニングによる利得が減少し、プレトランジットによってもたらされるという事実によって説明できる。 0.59
Likewise, Akbik et al (2019) outperforms our approach on NER task, in addition to using a CRF on top of the biLSTM layer, they used Contextual string embeddings that have been shown to perform better on NER than ELMo (Akbik et al , 2019). 同様に、akbik et al (2019)は、bilstmレイヤ上でcrfを使用するのに加えて、nerでelmo(akbik et al , 2019)よりも優れたパフォーマンスを示すコンテキスト文字列埋め込みを使用しています。
訳抜け防止モード: 同様に、Akbik et al (2019 ) も NER タスクに対するアプローチよりも優れています。 biLSTMレイヤ上にCRFを使用することに加えて、 彼らはコンテキスト文字列の埋め込みを使い NERはELMo(Akbik et al, 2019)よりも優れていることが示されている。
0.71
Also, MDMT outperforms PretRand slightly on TPoS dataset. また、MDMTはTPoSデータセットでPretRandをわずかに上回っている。 0.53
We can observe that BERT-based approaches (DA-BERT and BertTweet) achieve strong results, especially on NER, where BertTweet begets the best state-of-the-art score. BERTベースのアプローチ(DA-BERTとBertTweet)が、特にNERでは、BertTweetが最先端のスコアを達成している。
訳抜け防止モード: BERTベースのアプローチ(DA - BERT と BertTweet )が強い結果をもたらすのを観察できる。 特に NER では BertTweetは最高の状態、つまりアートスコアを望んでいます。
0.58
Finally, we believe that adding a CRF classification layer on top of our models will boost our results (like TPANN, MDMT, DA-LSTM and DABERT), as it is able to model strong dependencies between adjacent words. 最後に、我々のモデルの上にCRF分類層を追加することで、隣接する単語間の強い依存関係をモデル化できるため、結果(TPANN、MDMT、DA-LSTM、DABERTなど)が向上すると考えています。 0.71
7.2.5 When and where PretRand is most 7.2.5 PretRandが最も多い時期と場所 0.64
Beneficial? Here, we attempt to examine in which scenarios PretRand is most beneficial. 有益? ここでは、PretRandがどのシナリオが最も有用かを検討する。 0.64
We firstly explore in まず私たちは 0.60
英語(論文から抽出)日本語訳スコア
Figure 11: Positive and negative transfers brought by SFT (left) and PretRand (Right) compared to the standard supervised training scheme (From-scratch). 図11: SFT (left) と PretRand (Right) による正および負の転送を、標準的な教師付きトレーニングスキーム (From-scratch) と比較する。 0.77
Figure 12: Sorted class-accuracy improvement (%) on TweeBank of PretRand compared to fine-tuning. 図12: PretRandのTweeBankのクラス精度改善(%)を微調整と比較します。 0.83
Figure 13: Performances (on dev-set of TweeBank) according different training-set sizes for the targetdataset. 図13: ターゲットデータセットの異なるトレーニングセットのサイズに応じたパフォーマンス(TweeBankのデベロップセット)。 0.74
Transparent green highlights the difference between our PretRand and standard fine-tuning. 透明グリーンは、PretRandと標準の微調整の違いを強調します。 0.62
Figure 12, which class from TweeBank dataset benefits more from PretRand compared to SFT. 図12:TweeBankのデータセットのどのクラスがPretRandの恩恵を受けています。 0.52
After that, we evaluate in Figure 13 the gain on accuracy brought by PretRand compared to SFT, according to different target-datasets’ sizes. その後、第13図において、異なるターゲットデータセットのサイズに応じて、PretRandがSFTと比較した精度の向上を評価した。 0.69
We observe that PretRand has desirably a bigger gain with bigger target-task datasets, which clearly means that the more target training-data, the more interesting our method will be. 私たちは、pretrandがターゲットタスクデータセットを大きくすることで、さらに大きな利益を望んでいることを観察しています。
訳抜け防止モード: pretrandはもっと大きなターゲット – タスクデータセット – で大きな利益を期待できると思います。 対象とするトレーニングが多ければ多いほど、この方法がより興味深いものになることは明らかです。
0.56
This observation may be because the random branch needs sufficient amounts of target training samples to become more competitive with the pretrained one. この観察は、ランダムブランチが事前訓練されたものと競争するために十分な量の目標トレーニングサンプルを必要とするためかもしれない。
訳抜け防止モード: この観察は ランダムブランチには 十分な量の 目標トレーニングサンプルが必要です 事前訓練されたサンプルと 競争するためには
0.73
7.2.6 Negative Transfer: PretRand vs SFT Here, we resume the negative transfer experiment performed in section 7.1.1 . 7.2.6 負転移: PretRand vs SFT ここでは、セクション7.1.1で行った負転移実験を再開する。 0.64
Precisely, we compare the results of PretRand to those of SFT. 正確には、PretRandの結果とSFTの結果を比較する。 0.81
We show in Figure 11 the results on English social media datasets, first tagged with the classic training scheme (From-scratch200) and then using SFT in the left plot (or using PretRand in the right plot). 図11では、まず古典的なトレーニングスキーム(scratch200から)にタグを付け、次に左プロットでsft(または右プロットでpretrandを使用する)を使用して、イギリスのソーシャルメディアデータセットで結果を示します。
訳抜け防止モード: 図11では、英語のソーシャルメディアデータセットの結果を示します。 古典的なトレーニングスキームで最初にタグ付けされた ( From - scratch200 ) そして、左プロットでSFTを使用する(または右プロットでPretRandを使用する)。
0.68
Blue bars show the percentage of positive transfer, i.e. 青い棒は正転移率、すなわち正転移率を示す。 0.61
predictions that were wrong, but the SFT (or PretRand) changed to the correct ones, and red bars give the percentage of negative transfer, i.e. 予測は間違っていたが、SFT(またはPretRand)は正しい予測に変更され、赤いバーは負の転送率、すなわち負の転送率を与える。 0.70
predictions that were tagged correctly by Fromscratch200, but using SFT (or PretRand) gives the wrong predictions. Fromscratch200によって正しくタグ付けされた予測だが、SFT(またはPretRand)を使用すると間違った予測が得られる。
訳抜け防止モード: Fromscratch200によって正しくタグ付けされた予測だが SFT ( or PretRand ) 間違った予測をします
0.74
We observe the high impact of PretRand on diminishing negative transfer vis-avis to SFT. 我々は、PretRandのSFTへの負の移動ビザビザの減少に対する高い影響を観察する。 0.60
Precisely, PretRand increases positive transfer by ∼0.45% and decreases the negative transfer by ∼0.94% on average. 正確には、PretRandは正転移を0.45%増加させ、負転移を平均で0.94%減少させる。 0.59
8 Conclusion and Perspectives We have started by analysing the results of the standard fine-tuning adaptation scheme of transfer learning. 8 結論と展望 まず, 転写学習の標準微調整適応方式の結果を分析した。
訳抜け防止モード: 8 結論と展望 私たちが始めたこと 転写学習の調整適応スキームの標準ファインの結果を分析する。
0.79
First, we were interested in the hidden negative transfer that arises when transferring from まず、我々は、転送時に生じる隠れた負の移動に興味を持っていた。 0.64
英語(論文から抽出)日本語訳スコア
the news domain to the social media domain. ソーシャル・メディア・ドメインのニュース・ドメインです 0.65
Indeed, negative transfer has only seldom been tackled in sequential transfer learning works in NLP. 実際、負の転送はnlpでの逐次転送学習にはほとんど取り組まれていない。 0.70
In addition, earlier research papers evoke negative transfer only when the source domain has a negative impact on the target model. さらに、以前の研究論文は、ソースドメインがターゲットモデルに負の影響を与える場合にのみ負の転送を引き起こす。 0.82
We found that despite the positive gain brought by transfer learning from the high-resource news domain to the low-resource social media domain, the hidden negative transfer mitigates the final gain brought by transfer learning. 高リソースのニュースドメインから低リソースのソーシャルメディアドメインへの転送学習によるプラスの上昇にもかかわらず、隠れた負の転送は、転送学習によってもたらされる最終的な利益を軽減していることがわかった。
訳抜け防止モード: 高いリソースニュースドメインから低いリソースソーシャルメディアドメインへの移行学習によってもたらされた肯定的な利益にもかかわらず、我々は見出した。 隠された負の転送は 転送学習による 最終利得を緩和する。
0.68
Second, we carried out an interpretive analysis of the evolution, during fine-tuning, of pretrained representations. 第2に,事前学習した表現の微調整中の進化の解釈分析を行った。 0.71
We found that while fine-tuning necessarily makes some changes during fine-tuning on social media datasets, pretrained neurons still biased by what they have learnt in the source domain. 微調整は、ソーシャルメディアのデータセットを微調整するときに必ず何らかの変化を起こすが、訓練済みのニューロンは、ソースドメインで学んだことにまだ偏っている。 0.50
In simple words, pretrained neurons tend to conserve much information from the source domain. 簡単に言うと、事前学習されたニューロンはソースドメインから多くの情報を保存する傾向がある。 0.53
Some of this information is undoubtedly beneficial for the social media domain (positive transfer), but some of it is indeed harmful (negative transfer). これらの情報の一部は、間違いなくソーシャルメディアのドメイン(ポジティブな転送)にとって有益であるが、一部は確かに有害(ネガティブな転送)である。 0.65
We hypothesise that this phenomenon of biased neurons restrains the pretrained model from learning some new features specific to the target domain (social media). 我々は、このバイアスニューロンの現象が、対象領域(社会媒体)に特有のいくつかの特徴を学習することを妨げると仮定する。
訳抜け防止モード: この偏ったニューロンの現象が 事前訓練されたモデルから ターゲットドメイン(ソーシャルメディア)に特有のいくつかの新機能を学ぶ。
0.74
Stemming from our analysis, we have introduced a novel approach,PretRand, to overcome this problem using three main ideas: adding random units and jointly learn them with pre-trained ones; normalising the activations of both to balance their different behaviours; applying learnable weights on both predictors to let the network learn which of random or pre-trained one is better for every class. 分析から、ランダムなユニットを追加し、事前訓練されたユニットと共同で学習すること、両方のアクティベーションを正規化してそれぞれの振る舞いのバランスをとること、ランダムまたは事前学習されたユニットのどちらがどのクラスに良いかをネットワークに学習させること、という3つの主要なアイデアを用いて、この問題を解決するための新しいアプローチであるPretRandを導入しました。
訳抜け防止モード: 私たちの分析から学ぶ。 ランダムユニットの追加という,この問題を解決するための新しいアプローチであるPretRandを導入しました。 訓練済みの者と共同で学習し、両方の活性化を正常化します 異なる行動のバランスをとるために 学習可能な重みを両方の予測者に当てはめ ランダムまたは事前トレーニングのどちらがどのクラスでよいかをネットワークに学ばせるようにする。
0.67
The underlying idea is to take advantage of both, target-specific features from the former and general knowledge from the latter. 基本的な考え方は、前者からのターゲット固有の特徴と後者からの一般的な知識の両方を活用することです。 0.65
We carried out experiments on domain adaptation for 4 tasks: part-of-speech tagging, morpho-syntactic tagging, chunking and named entity recognition. 我々は4つのタスクに対してドメイン適応実験を行った:part-of-speech tagging, morpho-syntactic tagging, chunking, named entity recognition。 0.69
Our approach exhibits performances significantly above standard fine-tuning scheme and is highly competitive when compared to the state-of-the-art. 本手法は,標準的な微調整方式を大幅に上回る性能を示し,最新技術と比較して高い競争力を有する。 0.56
Perspectives We believe that many prosperous directions should be addressed in future research. 展望 我々は、今後の研究で多くの繁栄する方向に取り組むべきだと信じている。 0.58
More extensive experiments would be interesting to better understand the phenomenon of the hidden negative transfer and to confirm our observations. より広範な実験は、隠れた負の移動現象をよりよく理解し、我々の観測を確認するために興味深い。 0.72
First, one can investigate the impact of the model’s hyperparameters (size, activation functions, learning rate, まず、モデルのハイパーパラメータ(サイズ、アクティベーション機能、学習率)の影響を調べることができる。 0.64
etc.) as well as regulation methods (dropout, batch normalisation, weights decay, etc.). など) また、調整方法(ドロップアウト、バッチ正規化、重みの減衰など)もある。 0.57
Second, we suppose that the hidden negative transfer would be more prominent when the target dataset is too small since the pre-learned source knowledge will be more preserved. 第二に、ターゲットデータセットが小さすぎると、事前学習されたソース知識がより保存されるため、隠れた負の転送がより顕著になると仮定する。 0.73
Hence, it would be interesting to assess the impact of target-training size. したがって、ターゲットトレーニングサイズの影響を評価するのが興味深いだろう。 0.74
Third, a promising experiment would be to study the impact of the similarity between the source and the target distributions. 第三に、有望な実験は、ソースとターゲットの分布の類似性の影響を研究することである。 0.82
Fourth, a fruitful direction would be to explain this hidden negative transfer using explainability methods. 第4に、この隠蔽負転移を説明可能性法を用いて説明することが実りある方向である。 0.63
Notably, one can use influence functions (Han et al , 2020) to identify source training examples that are responsible for the negative transfer. 特に、影響関数(han et al , 2020)を使用して、負の転送に責任を持つソーストレーニング例を特定することができる。 0.73
Further, to identify text pieces of the evaluated sentence that justify a prediction with a negative transfer, one can use for instance gradients based methods (Shrikumar et al , 2017). さらに、予測を負の転送で正当化する評価文のテキスト片を識別するために、例グラデーションに基づく手法を用いることができる(Shrikumar et al , 2017)。 0.75
Concerning the quantification of the change of pretrained individual neurons, it would also be interesting to perform a representation-level similarity analysis to gain more insights, as it has been shown by Wu et al (2020) that representation-level similarity measures the distributional similarity while individual-level measures local similarity. 事前訓練された個々のニューロンの変化の定量化に関して、Wu et al (2020) が示しているように、表現レベルの類似性は分布の類似性を測定し、個々のレベルは局所的な類似性を測定する。 0.66
PretRand’s good results on sequence labelling tasks suggest to consider other kinds of NLP tasks, e g sequence-to-sequence and text classification tasks. PretRand氏のシーケンスラベリングタスクに関するよい結果は、他の種類のNLPタスク、例えば、シーケンス対シーケンス、テキスト分類タスクを検討することを推奨している。
訳抜け防止モード: PretRandのシーケンスラベリングタスクに関する良い結果が示唆される 他の種類のNLPタスク、例えば、シーケンス - to - およびテキスト分類タスクを考える。
0.73
Further, as negative transfer, and thus bias, is highly arising when transferring between lessrelated source-target domains (Wang et al , 2019), PretRand’s impact would be more interesting for cross-lingual transfer. さらに、負の転送、すなわちバイアスは、あまり関係の低いソースターゲットドメイン間の転送(Wang et al , 2019)で発生するため、PretRandの影響は、言語間の転送にとってより興味深いものになるだろう。 0.69
Also, in this work, we experimented PretRand adaptation scheme on models pretrained in a supervised manner, an important step forward is to examine its scalability with other pretraining methods, e g adversarial or unsupervised pretraining. また,本研究では,事前学習されたモデルに対する事前学習適応方式を実験し,その実現に向けて重要なステップとして,他の事前学習手法,例えば逆処理や教師なし事前学習について検討する。 0.60
In addition, the increasing omnipresence of Transformers architectures in a wide range of NLP tasks, due to their improved performances, motivates us to experiment with Transformer-based architecture instead of LSTM-based one. さらに,多種多様なNLPタスクにおけるトランスフォーマーアーキテクチャの完全解釈が増加し,その性能が向上し,LSTMベースのアーキテクチャではなくトランスフォーマーベースのアーキテクチャを実験する動機となった。 0.72
Last, a propitious continuity of our work to tackle the bias problem, would be to identify automatically biased neurons in the pre-trained model and proceed to a pruning of the most biased ones before fine-tuning. 最後に、バイアス問題に取り組むための我々の研究の確率的な連続性は、事前訓練されたモデルで自動的にバイアスされたニューロンを特定し、微調整する前に最もバイアスのかかったニューロンを刈り取ることである。 0.54
英語(論文から抽出)日本語訳スコア
References Yossi Adi, Einat Kermany, Yonatan Belinkov, Ofer Lavi, and Yoav Goldberg. 参照: Yossi Adi, Einat Kermany, Yonatan Belinkov, Ofer Lavi, Yoav Goldberg。 0.74
2016. Fine-grained analysis of sentence embeddings using auxiliary prediction tasks. 2016. 補助的予測タスクを用いた文埋め込みのきめ細かい解析 0.80
Proceedings of ICLR Conference Track. ICLR Conference Trackの成果 0.62
Alan Akbik, Tanja Bergmann, and Roland Vollgraf. Alan Akbik、Tanja Bergmann、Roland Vollgraf。 0.63
2019. Pooled contextualized embeddings for named entity recognition. 2019. 名前付きエンティティ認識のためのコンテキスト型埋め込み 0.78
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 724–728. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 724–728。 0.77
Alan Akbik, Duncan Blythe, and Roland Vollgraf. Alan Akbik、Duncan Blythe、Roland Vollgraf。 0.61
2018. Contextual string embeddings for sequence In Proceedings of the 27th International labeling. 2018. 第27回国際ラベリング手続におけるシーケンスのための文脈文字列埋め込み 0.77
Conference on Computational Linguistics, pages 1638–1649. 計算言語学会議 1638-1649頁。 0.63
Anthony Bau, Yonatan Belinkov, Hassan Sajjad, Nadir Durrani, Fahim Dalvi, and James Glass. Anthony Bau, Yonatan Belinkov, Hassan Sajjad, Nadir Durrani, Fahim Dalvi, James Glass 0.70
2019. Identifying and controlling important neurons in neural machine translation. 2019. 神経機械翻訳における重要なニューロンの同定と制御 0.78
ICLR. Peter Baumann and Janet B Pierrehumbert. ICLR Peter BaumannとJanet B Pierrehumbert。 0.65
2014. Using resource-rich languages to improve morphological analysis of under-resourced languages. 2014. リソース豊富な言語を使用して、アンダーリソース言語の形態解析を改善する。 0.70
In LREC, pages 3355–3359. LREC』3355-3359頁。 0.60
Yonatan Belinkov and James Glass. ヨナタン・ベリンコフと ジェームズ・グラス 0.59
2019. Analysis methods in neural language processing: A survey. 2019. ニューラルネットワーク処理における分析手法:調査 0.72
Transactions of the Association for Computational Linguistics, 7:49–72. 計算言語学会』7:49-72頁。 0.55
Yoshua Bengio, R´ejean Ducharme, Pascal Vincent, and Christian Jauvin. ヨシュア・ベンジオ、R ́ejean Ducharme、Pascal Vincent、Christian Jauvin。 0.77
2003. A neural probabilistic language model. 2003. ニューラル確率言語モデル。 0.71
Journal of machine learning research, 3(Feb):1137–1155. Journal of Machine Learning Research, 3 (Feb):1137–1155 0.90
Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Piotr Bojanowski、Edouard Grave、Armand Joulin、Tomas Mikolov。 0.65
2017. Enriching word vectors with subword information. 2017. 単語ベクトルをサブワード情報で強化する。 0.75
Transactions of the Association for Computational Linguistics, 5:135–146. 計算言語学会(Association for Computational Linguistics) 5:135–146。 0.64
Zhangjie Cao, Mingsheng Long, Jianmin Wang, and Michael I Jordan. Zhangjie Cao、Mingsheng Long、Jianmin Wang、Michael I Jordan。 0.70
2018. Partial transfer learning with selective adversarial networks. 2018. 選択的逆ネットワークを用いた部分伝達学習 0.81
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 2724–2732. IEEE Conference on Computer Vision and Pattern Recognition』の2724-2732頁。 0.67
Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, et al 2018. Daniel Cer, Yinfei Yang, Sheng-yi Kong, Nan Hua, Nicole Limtiaco, Rhomni St John, Noah Constant, Mario Guajardo-Cespedes, Steve Yuan, Chris Tar, et al 2018 0.90
Universal sentence encoder for english. 英語のUniversal sentence encoder。 0.79
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 169–174. 2018年、In Proceedings of the Conference on Empirical Methods in Natural Language Processing: System Demonstrations, page 169–174。 0.92
Wanxiang Che, Yijia Liu, Yuxuan Wang, Bo Zheng, and Ting Liu. Wanxiang Che、Yijia Liu、Yuxuan Wang、Bo Zheng、Ting Liu。 0.65
2018. Towards better ud parsing: Deep contextualized word embeddings, ensemble, and treebank concatenation. 2018. より優れたud解析: 深く文脈化された単語埋め込み、アンサンブル、ツリーバンク結合。 0.73
In Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, pages 55– 64. The Proceedings of the CoNLL 2018 Shared Task: Multilingual Parsing from Raw Text to Universal Dependencies, page 55–64。 0.83
Xilun Chen, Yu Sun, Ben Athiwaratkun, Claire Cardie, and Kilian Weinberger. Xilun Chen, Yu Sun, Ben Athiharatkun, Claire Cardie, Kilian Weinberger 0.66
2018. Adversarial deep averaging networks for cross-lingual sentiment classification. 2018. 言語間感情分類のためのadversarial deep averaging network 0.83
Transactions of the Association for Computational Linguistics, 6:557–570. 計算言語学協会 (association for computational linguistics) 6:557-570。 0.52
Xinyang Chen, Sinan Wang, Bo Fu, Mingsheng Long, and Jianmin Wang. 新陽チェン、シナ・ワン、ボフ、ミンシェン・ロング、ジャンミン・ワン。 0.54
2019. Catastrophic forgetting meets negative transfer: Batch spectral shrinkage for safe transfer learning. 2019. 破壊的忘れは負の伝達に合致する:安全な伝達学習のためのバッチスペクトル収縮。 0.68
In Advances in Neural Information Processing Systems, pages 1908–1918. ニューラル・インフォメーション・プロセッシング・システム (neural information processing system) 1908-1918頁。 0.70
Kevin Clark, Urvashi Khandelwal, Omer Levy, and Christopher D Manning. Kevin Clark、Urvashi Khandelwal、Omer Levy、Christopher D Manning。 0.73
2019. What does bert look at? 2019. バートは何を見てる? 0.77
an analysis of bert’s attention. bert氏の注意力の分析。 0.58
arXiv preprint arXiv:1906.04341. arXiv preprint arXiv:1906.04341 0.71
Adam Coates and Andrew Y Ng. アダム・コーツとアンドリュー・y・ng 0.55
2011. Selecting reIn Advances in ceptive fields in deep networks. 2011. 深層ネットワークにおける知覚野におけるreinの進歩の選択 0.70
neural information processing systems, pages 2528– 2536. 神経情報処理システム 2528–2536ページ。 0.72
Alexis Conneau, Douwe Kiela, Holger Schwenk, Lo¨ıc Barrault, and Antoine Bordes. Alexis Conneau, Douwe Kiela, Holger Schwenk, Lo sıc Barrault, Antoine Bordes 0.72
2017. Supervised learning of universal sentence representations from natural language inference data. 2017. 自然言語推論データを用いた普遍文表現の教師付き学習 0.79
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 670–680. 2017年、In Proceedings of the Conference on Empirical Methods in Natural Language Processing, pages 670-680。 0.88
Alexis Conneau, Germ´an Kruszewski, Guillaume Lample, Lo¨ıc Barrault, and Marco Baroni. Alexis Conneau、Germ ́an Kruszewski、Guillaume Lample、Losec Barrault、Marco Baroni。 0.68
2018. What you can cram into a single $ &!#* vector: Probing sentence embeddings for linguistic properties. 2018. ひとつの$ &!#*ベクタに詰め込むことができるもの: 言語特性のための文埋め込みのプロービング。 0.70
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 2126–2136. 第56回計算言語学会年次大会(第1部:長編)において、2126-2136頁。 0.53
Leon Derczynski, Eric Nichols, Marieke van Erp, and Nut Limsopatham. Leon Derczynski、Eric Nichols、Marieke van Erp、Nut Limsopatham。 0.70
2017. Results of the wnut2017 shared task on novel and emerging entity recognition. 2017. wnut2017の結果は、新規および新興のエンティティ認識に関するタスクを共有した。 0.74
In Proceedings of the 3rd Workshop on Noisy User-generated Text, pages 140–147. 第3回騒がしいユーザ生成テキストワークショップの議事録140-147頁。 0.70
Leon Derczynski, Alan Ritter, Sam Clark, and Kalina Bontcheva. Leon Derczynski、Alan Ritter、Sam Clark、Kalina Bontcheva。 0.69
2013. Twitter part-of-speech tagging for all: Overcoming sparse and noisy data. 2013. Twitterのタグ付けのパート・オブ・スペル: スパースでノイズの多いデータを克服する。 0.64
In Proceedings of the International Conference Recent Advances in Natural Language Processing RANLP 2013, pages 198–206. In Proceedings of the International Conference recent Advances in Natural Language Processing RANLP 2013, page 198–206。 0.89
Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.76
2019. Bert: Pre-training of deep bidirectional transformers for language understanding. 2019. Bert: 言語理解のための双方向トランスフォーマーの事前トレーニング。 0.82
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4171–4186. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 4171–4186。 0.78
Bhuwan Dhingra, Hanxiao Liu, Ruslan Salakhutdinov, and William W Cohen. Bhuwan Dhingra、Hanxiao Liu、Ruslan Salakhutdinov、William W Cohen。 0.71
2017. A comparative study of word embeddings for reading comprehension. 2017. 読み理解のための単語埋め込みの比較研究 0.77
arXiv preprint arXiv:1703.00993. arXiv preprint arXiv:1703.00993 0.71
Thomas G Dietterich. トーマス・g・ディートリッヒ 0.61
2000. Ensemble methods in machine learning. 2000. 機械学習におけるアンサンブル手法 0.78
In International workshop on multiple classifier systems, pages 1–15. マルチクラス化システムに関する国際ワークショップでは、1-15ページ。 0.66
Springer. Springer 0.53
英語(論文から抽出)日本語訳スコア
Long Duong. 2017. ロング・デュオン 2017. 0.73
Natural language processing for resource-poor languages. 資源汚染言語のための自然言語処理 0.77
Ph.D. thesis, University of Melbourne. メルボルン大学博士論文。 0.47
Jacob Eisenstein. ジェイコブ・アイゼンシュタイン 0.41
2019. Measuring and modeling language change. 2019. 言語変化の測定とモデリング。 0.84
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials, pages 9–14. In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Tutorials, page 9–14。 0.88
Pascal Fecht, Sebastian Blank, and Hans-Peter Zorn. Pascal Fecht、Sebastian Blank、Hans-Peter Zorn。 0.80
2019. Sequential transfer learning in nlp for german text summarization. 2019. ドイツ語テキスト要約のためのnlpにおける逐次転送学習 0.78
Eric N Forsythand and Craig H Martell. Eric N ForsythandとCraig H Martell。 0.81
2007. Lexical and discourse analysis of online chat dialog. 2007. オンラインチャット対話の語彙分析と談話分析 0.82
In Semantic Computing, 2007. 2007年、セマンティック・コンピューティング。 0.69
ICSC 2007. International Conference on, pages 19–26. icsc 2007, international conference on, 19-26頁。 0.66
IEEE. Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, Franc¸ois Laviolette, Mario Marchand, and Victor Lempitsky. IEEE。 Yaroslav Ganin, Evgeniya Ustinova, Hana Ajakan, Pascal Germain, Hugo Larochelle, Franc sois Laviolette, Mario Marchand, Victor Lempitsky。 0.82
2016. Domain-adversarial training of neural networks. 2016. ニューラルネットワークのドメイン・adversarial training。 0.79
The Journal of Machine Learning Research, 17(1):2096–2030. The Journal of Machine Learning Research, 17(1):2096–2030 0.89
Liang Ge, Jing Gao, Hung Ngo, Kang Li, and Aidong Zhang. Liang Ge氏、Jing Gao氏、Hung Ngo氏、Kang Li氏、Aidong Zhang氏。 0.70
2014. On handling negative transfer and imbalanced distributions in multiple source transfer learning. 2014. 複数ソース転送学習における負の伝達と不均衡分布の扱いについて 0.78
Statistical Analysis and Data Mining: The ASA Data Science Journal, 7(4):254–271. 統計分析とデータマイニング : The ASA Data Science Journal, 7(4):254–271 0.86
John M Giorgi and Gary D Bader. ジョン・m・ジョルジと ゲイリー・d・バーダー 0.49
2018. Transfer learning for biomedical named entity recognition with neural networks. 2018. ニューラルネットワークを用いた生物医学的実体認識のための伝達学習 0.79
Bioinformatics, 34(23):4087– 4094. バイオインフォマティクス34(23):4087–4094。 0.67
Ross Girshick, Jeff Donahue, Trevor Darrell, and Jitendra Malik. Ross Girshick, Jeff Donahue, Trevor Darrell, Jitendra Malik 0.67
2014. Rich feature hierarchies for accurate object detection and semantic segmentation. 2014. オブジェクト検出とセマンティックセグメンテーションのためのリッチな特徴階層。 0.80
In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 580–587. Proceedings of the IEEE conference on computer vision and pattern recognition, page 580–587。 0.83
Alex Graves, Navdeep Jaitly, and Abdel-rahman Mohamed. Alex Graves、Navdeep Jaitly、Abdel-rahman Mohamed。 0.81
2013. Hybrid speech recognition with deep bidirectional lstm. 2013. 深い双方向lstmを用いたハイブリッド音声認識 0.78
In 2013 IEEE workshop on automatic speech recognition and understanding, pages 273–278. 2013年、ieee workshop on automatic speech recognition and understanding, pages 273-278。 0.79
IEEE. Jing Gu and Zhou Yu. IEEE。 Jing GuとZhou Yu。 0.75
2020. Data annealing for informal language understanding tasks. 2020. 非公式言語理解タスクのためのデータアニーリング。 0.79
EMNLP2020 Findings. EMNLP2020参照。 0.70
Lin Gui, Ruifeng Xu, Qin Lu, Jiachen Du, and Yu Zhou. Lin Gui, Ruifeng Xu, Qin Lu, Jiachen Du, Yu Zhou 0.67
2018. Negative transfer detection in transductive transfer learning. 2018. トランスダクティブ転送学習における負の伝達検出 0.83
International Journal of Machine Learning and Cybernetics, 9(2):185–197. International Journal of Machine Learning and Cybernetics, 9(2):185–197 0.91
Xiaochuang Han, Byron C Wallace, Xiaochuang Han, Byron C Wallace 0.72
and Yulia Tsvetkov. そしてユリア・ツヴェトコフ。 0.50
2020. Explaining black box predictions and unveiling data artifacts through influence functions. 2020. ブラックボックス予測の説明と影響関数によるデータアーティファクトの公開。 0.78
arXiv preprint arXiv:2005.06676. arXiv preprint arXiv:2005.06676。 0.63
Tobias Horsmann. Tobias Horsmann 0.57
2018. Robust part-of-speech tag- 2018. ロバスト部分音声タグ 0.73
ging of social media text. ソーシャルメディアのテキストのジング。 0.74
Ph.D. thesis. Harold Hotelling. 博士論文。 ハロルド・ホテル。 0.55
1992. Relations between two sets of variates. 1992. 2組の変数の間の関係。 0.76
In Breakthroughs in statistics, pages 162– 190. 統計学では162-190頁。 0.67
Springer. Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin De Laroussilhe, Andrea Gesmundo, Mona Attariyan, and Sylvain Gelly. Springer Neil Houlsby, Andrei Giurgiu, Stanislaw Jastrzebski, Bruna Morrone, Quentin de Laroussilhe, Andrea Gesmundo, Mona Attariyan, Sylvain Gelly 0.63
2019. Parameter-efficient transfer learning for nlp. 2019. nlpのパラメータ効率変換学習 0.77
In International Conference on Machine Learning, pages 2790–2799. 機械学習に関する国際会議』2790-2799頁。 0.80
David H Hubel and Torsten N Wiesel. David H HubelとTorsten N Wiesel。 0.77
1965. Receptive fields and functional architecture in two nonstriate visual areas (18 and 19) of the cat. 1965. ネコの2つの非striate visual area (18, 19)における受容野と機能的構造 0.82
Journal of neurophysiology, 28(2):229–289. journal of neurophysiology、28(2):229-289。 0.84
Akos K´ad´ar, Grzegorz Chrupała, and Afra Alishahi. Akos K ́ad ́ar, Grzegorz Chrupała, Afra Alishahi 0.84
2017. Representation of linguistic form and function in recurrent neural networks. 2017. リカレントニューラルネットワークにおける言語形態と関数の表現 0.82
Computational Linguistics, 43(4):761–780. 計算言語学、43(4):761–780。 0.70
Andrej Karpathy, Justin Johnson, and Li Fei-Fei. Andrej Karpathy、Justin Johnson、Li Fei-Fei。 0.82
2016. Visualizing and understanding recurrent networks. 2016. リカレントネットワークの可視化と理解。 0.79
Proceedings of ICLR Conference Track. ICLR Conference Trackの成果 0.62
Tom Kocmi. 2020. トム・コクミ。 2020. 0.75
Exploring Benefits of Transfer Learning in Neural Machine Translation. ニューラルネットワーク翻訳における伝達学習のメリットを探る 0.70
Ph.D. thesis, Univerzita Karlova, Matematicko-fyzik´aln´ı fakulta. 博士論文『Univerzita Karlova, Matematicko-fyzik ́aln ́ı fakulta』。 0.55
John D Lafferty, Andrew McCallum, and Fernando CN Pereira. John D Lafferty、Andrew McCallum、Fernando CN Pereira。 0.68
2001. Conditional random fields: Probabilistic models for segmenting and labeling seIn Proceedings of the Eighteenth Inquence data. 2001. 条件付きランダムフィールド:第18インクエンスデータのセグメンテーションとラベル付けのための確率モデル。 0.78
ternational Conference on Machine Learning, pages 282–289. ternational Conference on Machine Learning, page 282–289。 0.93
Yair Lakretz, Germ´an Kruszewski, Th´eo Desbordes, Dieuwke Hupkes, Stanislas Dehaene, and Marco Baroni. Yair Lakretz, Germ ́an Kruszewski, Th ́eo Desbordes, Dieuwke Hupkes, Stanislas Dehaene, Marco Baroni 0.81
2019. The emergence of number and syntax units in lstm language models. 2019. lstm言語モデルにおける数値と構文単位の出現。 0.81
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 11–20. 北米計算言語学会の2019年大会(英語: 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 11–20。 0.88
Guillaume Lample, Alexis Conneau, Marc’Aurelio Ranzato, Ludovic Denoyer, and Herv´e J´egou. Guillaume Lample, Alexis Conneau, Marc’Aurelio Ranzato, Ludovic Denoyer, Herv ́e J ́egou。 0.91
2018. Word translation without parallel data. 2018. 並列データのない単語翻訳。 0.84
ICLR2018. Tao Gui, Qi Zhang, Haoran Huang, Minlong Peng, and Xuan-Jing Huang. 2018年。 Tao Gui, Qi Zhang, Haoran Huang, Minlong Peng, Xuan-Jing Huang 0.54
2017. Part-of-speech tagging for twitter with adversarial neural networks. 2017. 対向ニューラルネットワークを用いたTwitterの音声タグ付け 0.74
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 2411–2420. 2017年のProceedings of the Conference on Empirical Methods in Natural Language Processing, page 2411–2420。 0.85
Yixuan Li, Jason Yosinski, Jeff Clune, Hod Lipson, and John Hopcroft. Yixuan Li、Jason Yosinski、Jeff Clune、Hod Lipson、John Hopcroft。 0.73
2015. Convergent learning: Do different neural networks learn the same representaIn Feature Extraction: Modern Questions tions? 2015. 収束学習: 異なるニューラルネットワークは、特徴抽出における同じ表現を学習するだろうか? 0.82
and Challenges, pages 196–212. 挑戦』196-212頁。 0.65
英語(論文から抽出)日本語訳スコア
Bill Yuchen Lin and Wei Lu. Bill Yuchen LinとWei Lu。 0.77
2018. Neural adaptation layers for cross-domain named entity recognition. 2018. クロスドメイン名前付きエンティティ認識のためのニューラルネットワーク適応層 0.73
In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2012–2022. 2018年、In Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing, pages 2012–2022。 0.78
Nelson F Liu, Matt Gardner, Yonatan Belinkov, Matthew E Peters, and Noah A Smith. Nelson F Liu, Matt Gardner, Yonatan Belinkov, Matthew E Peters, Noah A Smith 0.74
2019a. Linguistic knowledge and transferability of contextual representations. 2019年。 文脈表現の言語知識と伝達可能性 0.72
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 1073–1094. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 1073–1094 0.75
Wei Liu, Andrew Rabinovich, and Alexander C Berg. Wei Liu、Andrew Rabinovich、Alexander C Berg。 0.66
2015. Parsenet: Looking wider to see better. 2015. Parsenet: より広く、より良く見えます。 0.84
arXiv preprint arXiv:1506.04579. arXiv preprint arXiv:1506.04579 0.71
Yijia Liu, Yi Zhu, Wanxiang Che, Bing Qin, Nathan Schneider, and Noah A Smith. Yijia Liu、Yi Zhu、Wanxiang Che、Bing Qin、Nathan Schneider、Noah A Smith。 0.68
2018. Parsing tweets into universal dependencies. 2018. ツイートをユニバーサルな依存関係にパースする。 0.66
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 965–975. the association for computational linguistics: human language technologies, volume 1 (long papers, pages 965–975) 2018年北アメリカ支部の議事録。 0.69
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019b. Roberta: A robustly optimized bert pretraining approach. 2019年。 roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.63
arXiv preprint arXiv:1907.11692. arXiv preprint arXiv:1907.11692 0.72
Xuezhe Ma and Eduard Hovy. Xuezhe MaとEduard Hovy。 0.65
2016. End-to-end sequence labeling via bi-directional lstm-cnns-crf. 2016. 双方向lstm-cnns-crfによるエンドツーエンドシーケンスラベリング 0.60
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1064–1074. 第54回計算言語学会年次総会(第1巻:長い論文)において、1064-1074頁。 0.54
Mitchell Marcus, Beatrice Santorini, and Mary Ann Marcinkiewicz. Mitchell Marcus、Beatrice Santorini、Mary Ann Marcinkiewicz。 0.69
1993. Building a large annotated corpus of english: The penn treebank. 1993. 英語の大きな注釈付きコーパスを作る: ペン・ツリーバンク。 0.78
Technical report, University of Pennsylvania Department of Computer and Information Science. ペンシルバニア大学コンピュータ情報科学科(University of Computer and Information Science)の略。 0.66
Luisa M¨arz, Dietrich Trautmann, and Benjamin Roth. ルイス・m・シャルツ、ディートリヒ・トラウトマン、ベンジャミン・ロス。 0.36
2019. Domain adaptation for part-of-speech tagging of noisy user-generated text. 2019. 雑音のあるユーザ生成テキストの音声部分タグ付けのためのドメイン適応 0.72
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 3415–3420. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 3415–3420。 0.77
Bryan McCann, James Bradbury, Caiming Xiong, and Richard Socher. ブライアン・マッカン、ジェームズ・ブラッドベリー、ケイミング・シオング、リチャード・ソーチャー。 0.60
2017. Learned in translation: Contextualized word vectors. 2017. 文脈化単語ベクトル(contextized word vectors)。 0.75
In Advances in Neural Information Processing Systems, pages 6294–6305. 神経情報処理システムにおける進歩は6294-6305ページである。 0.63
Sara Meftah, Nasredine Semmar, and Fatiha Sadat. Sara Meftah、Nasredine Semmar、Fatiha Sadat。 0.61
2018a. A neural network model for part-of-speech tagging of social media texts. 2018年。 ソーシャルメディアテキストのパート・オブ・スパイチタグ付けのためのニューラルネットワークモデル 0.61
In Proceedings of the Eleventh International Conference on Language Resources and Evaluation (LREC 2018). 第11回言語資源・評価国際会議(LREC 2018)に参加して 0.62
Sara Meftah, Nasredine Semmar, Fatiha Sadat, and Stephan Raaijmakers. Sara Meftah、Nasredine Semmar、Fatiha Sadat、Stephan Raaijmakers。 0.60
2018b. Using neural transfer learning for morpho-syntactic tagging of southslavic languages tweets. 2018年。 ニューラルトランスファー学習を用いた南スラヴ語ツイートのモルフォ・シンタクティックタグ付け 0.54
In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018), pages 235–243. The Proceedings of the Fifth Workshop on NLP for similar Languages, Varieties and Dialects (VarDial 2018), page 235–243。 0.85
Sara Meftah, Nasredine Semmar, Mohamed-Ayoub Tahiri, Youssef Tamaazousti, Hassane Essafi, and Fatiha Sadat. Sara Meftah, Nasredine Semmar, Mohamed-Ayob Tahiri, Youssef Tamaazousti, Hassane Essafi, Fatiha Sadat。 0.83
2020. Multi-task supervised pretraining for neural domain adaptation. 2020. マルチタスクによる神経領域適応のための事前訓練 0.74
In Proceedings of the Eighth International Workshop on Natural Language Processing for Social Media, pages 61–71. In Proceedings of the Eighth International Workshop on Natural Language Processing for Social Media, page 61-71。 0.87
Sara Meftah, Nasredine Semmar, Othmane Zennaki, and Fatiha Sadat. Sara Meftah、Nasredine Semmar、Othmane Zennaki、Fatiha Sadat。 0.63
2017. Supervised transfer learning for sequence tagging of user-generated-conte nt in social media. 2017. ソーシャルメディアにおけるユーザ生成コンテンツのシーケンスタグ付けのための教師付き転送学習 0.71
In Language and Technology Conference, pages 43–57. Springer. 43-57頁。 Springer 0.36
Sara Meftah, Youssef Tamaazousti, Nasredine Semmar, Hassane Essafi, and Fatiha Sadat. Sara Meftah, Youssef Tamaazousti, Nasredine Semmar, Hassane Essafi, Fatiha Sadat。 0.73
2019. Joint learning of pre-trained and random units for domain In Proceedadaptation in part-of-speech tagging. 2019. 音声タギングにおける領域内適応のための事前学習単位とランダム単位の連成学習 0.76
ings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 4107–4112. ings of the 2019 conference of the north american chapter of the association for computational linguistics: human language technologies, volume 1 (long and short papers), pages 4107–4112 (英語) 0.85
Amil Merchant, Elahe Rahimtoroghi, Ellie Pavlick, and Ian Tenney. Amil Merchant、Elahe Rahimtoroghi、Ellie Pavlick、Ian Tenney。 0.65
2020. What happens to bert arXiv preprint embeddings during fine-tuning? 2020. 微細調整中のbert arXivプリプリントの埋め込みはどうなるのか? 0.70
arXiv:2004.14448. arxiv: 2004.14448。 0.29
Tomas Mikolov, Kai Chen, Greg Corrado, and Jeffrey Dean. Tomas Mikolov、Kai Chen、Greg Corrado、Jeffrey Dean。 0.69
2013. Efficient estimation of word representations in vector space. 2013. ベクトル空間における単語表現の効率的推定 0.84
Proceedings of the International Conference on Learning Representations (ICLR 2013). international conference on learning representations (iclr 2013) 参加報告 0.61
Shubhanshu Mishra. シュバンシュ・ミシュラ(Shubhanshu Mishra)。 0.48
2019. Multi-dataset-multi- task neural sequence tagging for information extraction from tweets. 2019. ツイートからの情報抽出のためのマルチデータセットマルチタスクニューラルネットワークタギング 0.78
In Proceedings of the 30th ACM Conference on Hypertext and Social Media, pages 283– 284. 第30回 ACM Conference on Hypertext and Social Media において、283–284頁。 0.80
ACM. Ari Morcos, Maithra Raghu, and Samy Bengio. ACM。 Ari Morcos, Maithra Raghu, Samy Bengio 0.70
2018. Insights on representational similarity in neural netIn Advances works with canonical correlation. 2018. ニューラルネットにおける表現的類似性に関する洞察 前進は正準相関で動作する。 0.71
in Neural Information Processing Systems, pages 5727–5736. 神経情報処理システムでは、5727-5736ページ。 0.70
Lili Mou, Zhao Meng, Rui Yan, Ge Li, Yan Xu, Lu Zhang, and Zhi Jin. Lili Mou, Zhao Meng, Rui Yan, Ge Li, Yan Xu, Lu Zhang, Zhi Jin 0.70
2016. How transferable are In Proceedneural networks in nlp applications? 2016. nlpアプリケーションにおけるIn Proceedneural Networkの転送性 0.73
ings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 479–489. ings of the 2016 conference on empirical methods in natural language processing, pages 479-489 (英語) 0.83
Dat Quoc Nguyen, Thanh Vu, and Anh Tuan Nguyen. Dat Quoc Nguyen、Tanh Vu、Anh Tuan Nguyen。 0.68
2020. Bertweet: A pre-trained language model for english tweets. 2020. Bertweet: 英語ツイートのための事前訓練された言語モデル。 0.79
arXiv preprint arXiv:2005.10200. arXiv preprint arXiv:2005.10200 0.72
Allen Nie, Erin D Bennett, and Noah D Goodman. アレン・ニー、エリン・D・ベネット、ノア・D・グッドマン。 0.38
2017. Dissent: Sentence representation learning arXiv preprint from explicit discourse relations. 2017. Dissent: 文表現学習 arXiv を明示的な言論関係からプレプリントする。 0.80
arXiv:1710.04334. arXiv:1710.04334。 0.48
英語(論文から抽出)日本語訳スコア
James O’Neill. ジェームズ・オニール。 0.54
2019. Learning to avoid negative trans- 2019. ネガティブトランスを避けるための学習 0.77
fer in few shot transfer learning. ほとんどショット転送学習をしません 0.52
openreview.net. openreview.net 0.81
Olutobi Owoputi, Brendan O’Connor, Chris Dyer, Kevin Gimpel, Nathan Schneider, and Noah A Smith. Olutobi Owoputi, Brendan O’Connor, Chris Dyer, Kevin Gimpel, Nathan Schneider, Noah A Smith 0.75
2013. Improved part-of-speech tagging for online conversational text with word clusters. 2013. 単語クラスタによるオンライン会話テキストの音声タグの改善 0.78
In Proceedings of the 2013 conference of the North American chapter of the association for computational linguistics: human language technologies, pages 380–390. 2013年のProceedings of the 2013 Conference of the North American Chapter of the Association for Computer Languages: Human Language Technology, pages 380–390。 0.82
Sinno Jialin Pan, Qiang Yang, et al 2010. Sinno Jialin Pan, Qiang Yang, et al 2010 0.72
A survey on transfer learning. 転校学習に関する調査。 0.67
IEEE Transactions on knowledge and data engineering, 22(10):1345–1359. IEEE Transactions on knowledge and data engineering, 22(10):1345–1359。 0.93
Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, and Adam Lerer. Adam Paszke, Sam Gross, Soumith Chintala, Gregory Chanan, Edward Yang, Zachary DeVito, Zeming Lin, Alban Desmaison, Luca Antiga, Adam Lerer 0.75
2017. Automatic differentiation in pytorch. 2017. pytorch (複数形 pytorchs) 0.72
Jeffrey Pennington, Richard Socher, and Christopher Manning. ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・マニング。 0.62
2014. Glove: Global vectors for word representation. 2014. glove: 単語表現のためのグローバルベクトル。 0.84
In Proceedings of the 2014 conference on empirical methods in natural language processing (EMNLP), pages 1532–1543. 2014年のProceedings of the 2014 Conference on empirical methods in natural language processing (EMNLP)において、1532–1543頁。
訳抜け防止モード: 自然言語処理における経験的手法に関する2014年会議(EMNLP)のまとめ 1532-1543頁。
0.83
Matthew Peters, Waleed Ammar, Chandra Bhagavatula, and Russell Power. マシュー・ピーターズ、Waleed Ammar、Chandra Bhagavatula、Russell Power。 0.67
2017. Semi-supervised sequence tagging with bidirectional language models. 2017. 双方向言語モデルを用いた半教師付きシーケンスタギング 0.74
In Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 1756–1765. 第55回計算言語学会年次総会(第1巻:長い論文)において、1756-1765頁。 0.55
Matthew Peters, Sebastian Ruder, and Noah A Smith. マシュー・ピーターズ、セバスチャン・ラダー、ノア・ア・スミス。 0.51
2019. To tune or not to tune? 2019. チューニングするか、チューニングしないか? 0.71
adapting pretrained arXiv preprint representations to diverse tasks. 事前訓練されたarXivプレプリント表現を多様なタスクに適用する。 0.42
arXiv:1903.05987. arXiv:1903.05987。 0.49
Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. マシュー・E・ピーターズ、マーク・ノイマン、モヒット・アイイヤー、マット・ガードナー、クリストファー・クラーク、ケントン・リー、ルーク・ツェルモイヤー。
訳抜け防止モード: Matthew E Peters, Mark Neumann, Mohit Iyyer, Matt Gardner クリストファー・クラーク(Christopher Clark)、ケントン・リー(Kenton Lee)、ルーク・ツェルモイヤー(Luke Zettlemoyer)。
0.70
2018. Deep contextualized word representations. 2018. 文脈化された単語表現。 0.69
In Proceedings of NAACL-HLT, pages 2227–2237. In Proceedings of NAACL-HLT, page 2227–2237. 0.80
Jonas Pfeiffer, Aishwarya Kamath, Andreas R¨uckl´e, and Iryna Gurevych. ジョナス・ファイファー、アイシュワーヤ・カマス、アンドレアス・R・ダックル、イリナ・グレヴィチ。 0.52
2020a. Non-destructive task composiarXiv preprint 2020a 非破壊タスクcomposiarxivプレプリント 0.72
Kyunghyun Cho, Adapterfusion: tion for transfer arXiv:2005.00247. Yunghyun Cho, Adapterfusion:tion for transfer arXiv:2005.00247 0.87
learning. Jonas Pfeiffer, Andreas R¨uckl´e, Clifton Poth, AishIvan Vuli´c, Sebastian Ruder, warya Kamath, Kyunghyun Cho, and Iryna Gurevych. 学ぶこと。 ジョナス・ファイファー、アンドレアス・R・ダックル、クリフトン・ポス、アイシュアイヴァン・ヴリ、セバスティアン・ルーダー、ワリア・カマス、ユングヒョン・チョ、イリナ・グレヴィチ。
訳抜け防止モード: 学ぶこと。 ジョナス・プファイファー、アンドレアス・r・シャクル(andreas)、クリフトン・ポス、アイシヴァン・ヴリ(aishivan vuli)。 sebastian ruder, warya kamath, kyunghyun cho, iryna gurevychなど。
0.58
2020b. Adapterhub: A framework for adapting transformers. 2020年。 Adapterhub: トランスフォーマーを適応するためのフレームワーク。 0.78
arXiv preprint arXiv:2007.07779. arXiv preprint arXiv:2007.07779。 0.63
Jonas Pfeiffer, Ivan Vuli´c, Iryna Gurevych, and Sebastian Ruder. Jonas Pfeiffer, Ivan Vuli ́c, Iryna Gurevych, Sebastian Ruder 0.75
2020c. Mad-x: An adapter-based framearXiv work for multi-task cross-lingual transfer. 2020年。 Mad-x: マルチタスクの言語間転送のためのアダプタベースの framearXiv 。 0.70
preprint arXiv:2005.00052. arXiv: 2005.00052 0.65
Barbara Plank, Anders Søgaard, and Yoav Goldberg. Barbara Plank、Anders Søgaard、Yoav Goldberg。 0.71
2016. Multilingual part-of-speech tagging with bidirectional long short-term memory models and auxiliary loss. 2016. 双方向長短期記憶モデルによる音声の多言語タグ付けと補助的損失 0.79
In Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics 第54回計算言語学会大会報告 0.37
(Volume 2: Short Papers), pages 412–418, Berlin, Germany. (Volume 2: Short Papers), page 412–418, Berlin, Germany. 0.90
Association for Computational Linguistics. Alec Radford, Rafal Jozefowicz, and Ilya Sutskever. 計算言語学会会員。 Alec Radford, Rafal Jozefowicz, Ilya Sutskever 0.57
2017. Learning to generate reviews and discovering sentiment. 2017. レビューを生成し、感情を発見することを学ぶ。 0.71
arXiv preprint arXiv:1704.01444. arXiv preprint arXiv:1704.01444 0.72
Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, and Peter J. Liu. Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu
訳抜け防止モード: Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li ピーター・J・リュー(Peter J. Liu)。
0.92
2019. Exploring the limits of transfer learning with a unified text-to-text transformer. 2019. 統一テキスト-テキストトランスフォーマによるトランスファー学習の限界の検討 0.83
arXiv e-prints. arXiv e-prints 0.85
Maithra Raghu, Justin Gilmer, Jason Yosinski, and Jascha Sohl-Dickstein. Maithra Raghu、Justin Gilmer、Jason Yosinski、Jascha Sohl-Dickstein。 0.82
2017. Svcca: Singular vector canonical correlation analysis for deep learning dynamics and interpretability. 2017. Svcca: 深層学習力学と解釈可能性のための特異ベクトル標準相関解析 0.84
In Advances in Neural Information Processing Systems, pages 6076– 6085. ニューラル・インフォメーション・プロセッシング・システム (neural information processing system) において、6076-6085頁。 0.49
Maithra Raghu, Chiyuan Zhang, Jon Kleinberg, and Samy Bengio. Maithra Raghu, Chiyuan Zhang, Jon Kleinberg, Samy Bengio 0.65
2019. Transfusion: Understanding transfer learning with applications to medical imaging. 2019. transfusion: トランスフュージョン学習の理解と医用画像への応用 0.84
NeurIPS. Prajit Ramachandran, Peter J Liu, and Quoc Le. NeurIPS Prajit Ramachandran、Peter J Liu、Quoc Le。 0.56
2017. Unsupervised pretraining for sequence to sequence learning. 2017. シーケンス学習のための教師なし事前学習 0.71
In Proceedings of the 2017 Conference on Empirical Methods in Natural Language Processing, pages 383–391. 2017年のProceedings of the Conference on Empirical Methods in Natural Language Processing, page 383–391。 0.87
Sylvestre-Alvise Rebuffi, Hakan Bilen, and Andrea Vedaldi. Sylvestre-Alvise Rebuffi、Hakan Bilen、Andrea Vedaldi。 0.81
2017. Learning multiple visual domains In Advances in Neural Inwith residual adapters. 2017. 複数の視覚領域を学習する 残差アダプターを用いたニューラルインプリンティングの進歩 0.78
formation Processing Systems, pages 506–516. 形成処理システム、506-516頁。 0.80
Alan Ritter, Sam Clark, Oren Etzioni, et al 2011. Alan Ritter, Sam Clark, Oren Etzioni, et al 2011 0.70
Named entity recognition in tweets: an experimental study. ツイート中の名前付きエンティティ認識:実験的研究。 0.84
In Proceedings of the conference on empirical methods in natural language processing, pages 1524–1534. Proceedings of the conference on empirical methods in natural language processing, page 1524–1534。 0.84
Association for Computational Linguistics. Michael T Rosenstein, Zvika Marx, Leslie Pack Kaelbling, and Thomas G Dietterich. 計算言語学会会員。 Michael T Rosenstein, Zvika Marx, Leslie Pack Kaelbling, Thomas G Dietterich 0.60
2005. To transfer or not to transfer. 2005. 転送するか、転送しないか。 0.77
In In NIPS’05 Workshop, Inductive Transfer: 10 Years Later. nips’05のワークショップで、inductive transfer: 10年後である。 0.68
Citeseer. Sebastian Ruder. シーザー。 セバスチャン・ラダー。 0.45
2019. Neural Transfer Learning for Natural Language Processing. 2019. 自然言語処理のためのニューラルトランスファー学習 0.82
Ph.D. thesis, NATIONAL UNIVERSITY OF IRELAND, GALWAY. P.D. thesis, NATIONAL UNIVERSITY of IRELAND, GALWAY 0.91
Naomi Saphra and Adam Lopez. ナオミ・サフラとアダム・ロペス 0.48
2019. Understanding learning dynamics of language models with svcca. 2019. svccaを用いた言語モデルの学習ダイナミクスの理解 0.86
In Proceedings of the 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), pages 3257– 3267. The 2019 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long and Short Papers), page 3257–3267。 0.75
Elliot Schumacher and Mark Dredze. Elliot SchumacherとMark Dredze。 0.80
2019. Learning unsupervised contextual representations for medical synonym discovery. 2019. 医学的同義語発見のための教師なし文脈表現の学習 0.68
JAMIA Open. JAMIAオープン。 0.78
英語(論文から抽出)日本語訳スコア
Chun-Wei Seah, Yew-Soon Ong, and Ivor W Tsang. Chun-Wei Seah、Yew-Soon Ong、Ivor W Tsang。 0.78
2012. Combating negative transfer from predictive IEEE transactions on cydistribution differences. 2012. サイディストリビューション差に対する予測的IEEEトランザクションからの負の転送の圧縮 0.74
bernetics, 43(4):1153–1165. ベルネティクス、43(4):1153–1165。 0.65
Xing Shi, Inkit Padhi, and Kevin Knight. Xing Shi、Inkit Padhi、Kevin Knight。 0.69
2016. Does string-based neural mt learn source syntax? 2016. 文字列ベースのneural mtはソース構文を学ぶか? 0.72
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 1526– 1534. 自然言語処理における経験的手法に関する2016年の会議では、ページ1526–1534が紹介されている。
訳抜け防止モード: 自然言語処理における経験的手法に関する2016年会議のまとめ 1526年 - 1534年。
0.77
Avanti Shrikumar, Peyton Greenside, and Anshul Kundaje. Avanti Shrikumar、Peyton Greenside、Anshul Kundaje。 0.59
2017. Learning important features through propagating activation differences. 2017. 活性化の違いを伝達することで重要な特徴を学ぶ。 0.69
In International Conference on Machine Learning, pages 3145– 3153. 国際機械学習会議において、3145-3153頁。 0.80
Miikka Silfverberg and Senka Drobac. Miikka SilfverbergとSenka Drobac。 0.77
2018. Sub-label dependencies for neural morphological tagging–the joint submission of university of colorado and university of helsinki for vardial 2018. 2018. 神経形態的タグ付けのサブラベル依存性 -コロラド大学とヘルシンキ大学が2018年に共同提案。 0.70
In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018), pages 37–45. The Proceedings of the Fifth Workshop on NLP for similar Languages, Varieties and Dialects (VarDial 2018), page 37–45。 0.84
Sandeep Subramanian, Adam Trischler, Yoshua Bengio, and Christopher J Pal. Sandeep Subramanian、Adam Trischler、Yoshua Bengio、Christopher J Pal。 0.69
2018. Learning general purpose distributed sentence representations via arXiv preprint large scale multi-task learning. 2018. arXivを用いた大規模マルチタスク学習による汎用分散文表現の学習 0.80
arXiv:1804.00079. arXiv:1804.00079。 0.49
Youssef Tamaazousti. Youssef Tamaazousti 0.55
2018. On the universality of vi- 2018. viの普遍性について 0.75
sual and multimodal representations. sual と multimodal の表現。 0.82
PhD thesis. Youssef Tamaazousti, Herv´e Le Borgne, and C´eline Hudelot. 博士論文。 Youssef Tamaazousti, Herv ́e Le Borgne, C ́eline Hudelot 0.75
2017. Mucale-net: Multi categorical-level networks to generate more discriminating features. 2017. Mucale-net: より差別的な特徴を生成するために、複数のカテゴリレベルのネットワーク。 0.67
In IEEE Computer Vision and Pattern Recognition. IEEEのコンピュータビジョンとパターン認識。 0.73
Youssef Tamaazousti, Herv´e Le Borgne, C´eline Hudelot, Mohamed El Amine Seddik, and Mohamed Tamaazousti. Youssef Tamaazousti, Herv ́e Le Borgne, C ́eline Hudelot, Mohamed El Amine Seddik, Mohamed Tamaazousti 0.83
2019. Learning more universal representations for transfer-learning. 2019. 伝達学習のためのより普遍的な表現を学ぶ。 0.68
IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE Transactions on Pattern Analysis and Machine Intelligence 0.73
Erik F Tjong Kim Sang and Sabine Buchholz. Erik F Tjong Kim Sang と Sabine Buchholz。 0.82
2000. Introduction to the conll-2000 shared task: chunking. 2000. conll-2000共有タスクの紹介:チャンキング。 0.77
In Proceedings of the 2nd workshop on Learning language in logic and the 4th conference on Computational natural language learning-Volume 7, pages 127–132. Proceedings of the 2nd Workshop on Learning Language in logic and the 4th conference on Computational natural language learning-Volume 7, page 127–132。 0.92
Erik F Tjong Kim Sang and Fien De Meulder. Erik F Tjong Kim SangとFien De Meulder。 0.80
2003. Introduction to the conll-2003 shared task: languageindependent named entity recognition. 2003. conll-2003 共有タスク:言語に依存しない名前付きエンティティ認識。 0.73
In Proceedings of the seventh conference on Natural language learning at HLT-NAACL 2003-Volume 4, pages 142– 147. The Proceedings of the Seven Conference on Natural Language Learning at HLT-NAACL 2003-Volume 4, page 142–147。 0.86
Lisa Torrey and Jude Shavlik. Lisa TorreyとJude Shavlik。 0.76
2010. Transfer learning. 2010. 転校学習。 0.75
In Handbook of research on machine learning applications and trends: algorithms, methods, and techniques, pages 242–264. handbook of research on machine learning applications and trends: algorithms, methods, and techniques』242-264頁。 0.84
IGI global. Viivi Uurtio, Jo˜ao M Monteiro, Jaz Kandola, John Shawe-Taylor, Delmiro Fernandez-Reyes, and Juho IGIグローバル。 viivi uurtio, jo sao m monteiro, jaz kandola, john shawe-taylor, delmiro fernandez-reyes, juho 0.74
Rousu. 2018. Rousu 2018. 0.68
A tutorial on canonical correlation methods. 正準相関法に関するチュートリアル。 0.62
ACM Computing Surveys (CSUR), 50(6):95. ACM Computing Surveys (CSUR), 50(6):95。 0.76
Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Łukasz Kaiser, and Illia Polosukhin. Ashish Vaswani、Noam Shazeer、Niki Parmar、Jakob Uszkoreit、Llion Jones、Aidan N Gomez、Sukasz Kaiser、Illia Polosukhin。 0.63
2017. Attention is all In Advances in neural information proyou need. 2017. 注意はすべて、必要なニューラルネットワークの進歩にある。 0.74
cessing systems, pages 5998–6008. システム停止、5998-6008頁。 0.48
Yu-Xiong Wang, Deva Ramanan, and Martial Hebert. Yu-Xiong Wang, Deva Ramanan, Martial Hebert 0.74
2017. Growing a brain: Fine-tuning by increasing model capacity. 2017. 脳の成長: モデル容量の増加による微調整。 0.82
In CVPR, pages 2471–2480. CVPR』2471-2480頁。 0.74
Zirui Wang, Zihang Dai, Barnab´as P´oczos, and Jaime Carbonell. Zirui Wang, Zihang Dai, Barnab ́as P ́oczos, Jaime Carbonell 0.86
2019. Characterizing and avoiding negative transfer. 2019. ネガティブトランスファーの特性と回避。 0.77
In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pages 11293–11302. The Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, page 11293–11302。 0.88
Georg Wiese, Dirk Weissenborn, and Mariana Neves. Georg Wiese、Dirk Weissenborn、Mariana Neves。 0.63
2017. Neural domain adaptation for biomedical question answering. 2017. バイオメディカル質問応答のための神経領域適応 0.80
In Proceedings of the 21st Conference on Computational Natural Language Learning (CoNLL 2017), pages 281–289. 21st Conference on Computational Natural Language Learning (CoNLL 2017)において、281-289頁。 0.87
John M Wu, Yonatan Belinkov, Hassan Sajjad, Nadir Durrani, Fahim Dalvi, and James Glass. John M Wu, Yonatan Belinkov, Hassan Sajjad, Nadir Durrani, Fahim Dalvi, James Glass 0.70
2020. Similarity analysis of contextual word representation models. 2020. 文脈表現モデルの類似性解析 0.73
arXiv preprint arXiv:2005.01172. arXiv preprint arXiv:2005.01172 0.72
Jie Yang, Shuailong Liang, and Yue Zhang. Jie Yang, Shuailong Liang, Yue Zhang 0.57
2018. Design challenges and misconceptions in neural seIn Proceedings of the 27th Interquence labeling. 2018. 第27回インタークエンスラベリングにおけるニューラルシンプロシージャの設計課題と誤解 0.71
national Conference on Computational Linguistics (COLING). national conference on computational linguistics (coling) の略。 0.77
Jie Yang, Yue Zhang, and Fei Dong. Jie Yang, Yue Zhang, Fei Dong 0.59
2017. Neural In Proword segmentation with rich pretraining. 2017. 豊富な事前学習を伴うニューラルインワードセグメンテーション 0.73
ceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers), pages 839–849. 第55回計算言語学会年次総会(第1巻:長い論文)第839-849頁。 0.54
Zhilin Yang, Zihang Dai, Yiming Yang, Jaime Carbonell, Ruslan Salakhutdinov, and Quoc V Le. Zhilin Yang、Zihang Dai、Yiming Yang、Jaime Carbonell、Ruslan Salakhutdinov、Quoc V Le。 0.65
2019. Xlnet: Generalized autoregressive pretrainarXiv preprint ing for language understanding. 2019. xlnet: 言語理解のための一般化された自己回帰プレトレーナーxivプレプリントing。 0.67
arXiv:1906.08237. arXiv:1906.08237。 0.48
Marcos Zampieri, Shervin Malmasi, Preslav Nakov, Ahmed Ali, Suwon Shon, James Glass, Yves Scherrer, Tanja Samardˇzi´c, Nikola Ljubeˇsi´c, J¨org Tiedemann, et al 2018. Marcos Zampieri氏、Shervin Malmasi氏、Preslav Nakov氏、Ahmed Ali氏、Suwon Shon氏、James Glass氏、Yves Scherrer氏、Tanja Samard'zi ́c氏、Nikola Ljube'si ́c氏、J sorg Tiedemann氏など。
訳抜け防止モード: Marcos Zampieri, Shervin Malmasi, Preslav Nakov, Ahmed Ali Suwon Shon, James Glass, Yves Scherrer, Tanja Samard'zi ́c ニコラ・リュベシ (Nikola Ljube'si ́c , J sorg Tiedemann , et al 2018)。
0.85
Language identification and morphosyntactic tagging: The second vardial evaluation campaign. 言語識別とmorphosyntactic tagging: the second vardial evaluation campaign。 0.77
In Proceedings of the Fifth Workshop on NLP for Similar Languages, Varieties and Dialects (VarDial 2018), pages 1–17. The Proceedings of the Fifth Workshop on NLP for similar Languages, Varieties and Dialects (VarDial 2018), page 1–17。 0.84
Chuanjun Zhao, Suge Wang, and Deyu Li. 張忠安純、王宗華、李出雄。 0.49
2017. Deep transfer learning for social media cross-domain senIn Chinese National Confertiment classification. 2017. ソーシャル・メディア・クロスドメイン・センチュンにおける深層移動学習 0.58
ence on Social Media Processing, pages 232–243. 出典: Social Media Processing、232–243頁。 0.74
Springer. Springer 0.53
英語(論文から抽出)日本語訳スコア
Bolei Zhou, David Bau, Aude Oliva, and Antonio Torralba. Bolei Zhou、David Bau、Aude Oliva、Antonio Torralba。 0.69
2018a. Interpreting deep visual representations via network dissection. 2018年。 ネットワーク分割による深い視覚表現の解釈 0.68
IEEE Transactions on Pattern Analysis and Machine Intelligence. IEEE Transactions on Pattern Analysis and Machine Intelligence 0.73
Bolei Zhou, Aditya Khosla, Agata Lapedriza, Aude Oliva, and Antonio Torralba. Bolei Zhou、Aditya Khosla、Agata Lapedriza、Aude Oliva、Antonio Torralba。 0.67
2015. Object detectors emerge in deep scene cnns. 2015. 物体検出器は深いシーンcnnに現れる。 0.78
ICLR2015. Bolei Zhou, Yiyou Sun, David Bau, and Antonio Torralba. 2015年。 Bolei Zhou、Yiyo Sun、David Bau、Antonio Torralba。 0.57
2018b. Revisiting the importance of individual units in cnns via ablation. 2018年。 cnnにおける個々のユニットの重要性を再考する。 0.59
arXiv preprint arXiv:1806.02891. arXiv preprint arXiv:1806.02891 0.73
Xunjie Zhu, Tingfeng Li, and Gerard De Melo. Xunjie Zhu、Tingfeng Li、Gerard De Melo。 0.64
2018. Exploring semantic properties of sentence embeddings. 2018. 文埋め込みの意味的特性の探索 0.72
In Proceedings of the 56th Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers), pages 632–637. 第56回計算言語学会年次総会(第2巻:短い論文)において、632-637頁。 0.59
Barret Zoph and Kevin Knight. バレット・ゾフとケビン・ナイト 0.60
2016. Multi-source neural translation. 2016. マルチソースニューラルトランスレーション。 0.74
In Proceedings of NAACL-HLT, pages 30–34. NAACL-HLT Proceedings of NAACL-HLT, page 30–34。 0.58
                                                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。