論文の概要、ライセンス

# (参考訳) 文脈埋め込みモデルを用いた静的な単語埋め込みの改善 [全文訳有]

Obtaining Better Static Word Embeddings Using Contextual Embedding Models ( http://arxiv.org/abs/2106.04302v1 )

ライセンス: CC BY 4.0
Prakhar Gupta and Martin Jaggi(参考訳) 文脈的単語埋め込みの出現 -- 文脈からの意味的情報と構文的情報を含む単語の表現 -- は、幅広いNLPタスクに多大な改善をもたらした。 しかし、最近の文脈モデルは多くのユースケースにおいて計算コストが著しく高く、しばしば解釈が難しい。 本研究では, CBOW をベースとした簡易な蒸留法により, NLP アプリケーションの計算効率を大幅に向上させることができるとともに, スクラッチからトレーニングした既存の静的埋め込みの品質や, 従来提案した蒸留方法よりも優れていることを示す。 副次的な効果として,標準的な語彙評価タスクによる文脈的および静的な埋め込みを公平に比較できる。

The advent of contextual word embeddings -- representations of words which incorporate semantic and syntactic information from their context -- has led to tremendous improvements on a wide variety of NLP tasks. However, recent contextual models have prohibitively high computational cost in many use-cases and are often hard to interpret. In this work, we demonstrate that our proposed distillation method, which is a simple extension of CBOW-based training, allows to significantly improve computational efficiency of NLP applications, while outperforming the quality of existing static embeddings trained from scratch as well as those distilled from previously proposed methods. As a side-effect, our approach also allows a fair comparison of both contextual and static embeddings via standard lexical evaluation tasks.
公開日: Tue, 8 Jun 2021 12:59:32 GMT

※ 翻訳結果を表に示しています。PDFがオリジナルの論文です。翻訳結果のライセンスはCC BY-SA 4.0です。詳細はトップページをご参照ください。

翻訳結果

    Page: /      
英語(論文から抽出)日本語訳スコア
Obtaining Better Static Word Embeddings 静的な単語の埋め込みを改善する 0.56
Using Contextual Embedding Models コンテキスト埋め込みモデルの利用 0.84
Prakhar Gupta EPFL, Switzerland Prakhar Gupta EPFL (スイス) 0.89
Martin Jaggi Martin Jaggi 0.85
EPFL, Switzerland prakhar.gupta@epfl.c h スイス・EPFL prakhar.gupta@epfl.c h 0.65
martin.jaggi@epfl.ch martin.jaggi@epfl.ch 0.59
1 2 0 2 n u J 1 2 0 2 n u J 0.85
8 ] L C . s c [ 8 ]LC。 sc [ 0.60
1 v 2 0 3 4 0 1 v 2 0 3 4 0 0.85
. 6 0 1 2 : v i X r a . 6 0 1 2 : v i X r a 0.85
Abstract The advent of contextual word embeddings— representations of words which incorporate semantic and syntactic information from their context—has led to tremendous improvements on a wide variety of NLP tasks. 概要 文脈的単語埋め込み(文脈からの意味的情報と構文的情報を含む単語の表現)の出現は、幅広いNLPタスクに多大な改善をもたらした。 0.60
However, recent contextual models have prohibitively high computational cost in many use-cases and are often hard to interpret. しかし、最近の文脈モデルは多くのユースケースにおいて計算コストが著しく高く、しばしば解釈が難しい。 0.70
In this work, we demonstrate that our proposed distillation method, which is a simple extension of CBOW-based training, allows to significantly improve computational efficiency of NLP applications, while outperforming the quality of existing static embeddings trained from scratch as well as those distilled from previously proposed methods. 本研究では, CBOW をベースとした簡易な蒸留法により, NLP アプリケーションの計算効率を大幅に向上させることができるとともに, スクラッチからトレーニングした既存の静的埋め込みの品質や, 従来提案した蒸留方法よりも優れていることを示す。 0.79
As a side-effect, our approach also allows a fair comparison of both contextual and static embeddings via standard lexical evaluation tasks. 副次的な効果として,標準的な語彙評価タスクによる文脈的および静的な埋め込みを公平に比較できる。 0.64
1 Introduction Word embeddings—representations of words which reflect semantic and syntactic information carried by them are ubiquitous in Natural Language Processing. 1 はじめに 単語埋め込み - 意味と構文情報を反映した単語の表現は自然言語処理においてユビキタスである。 0.70
Static word representation models such as GLOVE (Pennington et al , 2014), CBOW, SKIPGRAM (Mikolov et al , 2013) and SENT2VEC (Pagliardini et al , 2018) obtain stand-alone representations which do not depend on their surrounding words or sentences (context). GLOVE (Pennington et al , 2014)、CBOW、SKIPGRAM (Mikolov et al , 2013)、SENT2VEC (Pagliardini et al , 2018)のような静的な単語表現モデルは、周囲の単語や文に依存しないスタンドアロン表現(context)を得る。 0.75
Contextual embedding models (Devlin et al , 2019; Peters et al , 2018; Liu et al , 2019; Radford et al , 2019; Schwenk and Douze, 2017) on the other hand, embed the contextual information as well into the word representations making them more expressive than static word representations in most use-cases. 一方、コンテキスト埋め込みモデル(Devlin et al , 2019; Peters et al , 2018; Liu et al , 2019; Radford et al , 2019; Schwenk and Douze, 2017)は、ほとんどのユースケースで静的な単語表現よりも表現力のある単語表現に、コンテキスト情報を埋め込む。 0.74
While recent progress on contextual embeddings has been tremendously impactful, static embeddings still remain fundamentally important in many scenarios as well: コンテキスト埋め込みに関する最近の進歩は、非常に大きな影響を与えていますが、静的組み込みは、多くのシナリオにおいて、いまだに基本的に重要です。 0.53
• Even when ignoring the training phase, the computational cost of using static word embeddings is typically tens of millions times lower than using standard contextual embedding models1, which is particularly important for latency-critical applications and on lowresource devices, and in view of environmental costs of NLP models (Strubell et al , 2019). • トレーニングフェーズを無視した場合でも,静的単語埋め込みの計算コストは標準的な文脈埋め込みモデルよりも数千万倍低くなり,特に遅延クリティカルなアプリケーションや低リソースデバイス,NLPモデルの環境コストの観点からも重要である(Strubell et al , 2019)。 0.79
• Many NLP tasks inherently rely on static word embeddings (Shoemark et al , 2019), for example for interpretability, or e g in research in bias detection and removal (Kaneko and Bollegala, 2019; Gonen and Goldberg, 2019; Manzini et al , 2019) and analyzing word vector spaces (Vulic et al , 2020) or other metrics which are non-contextual by choice. • 多くのNLPタスクは本質的に静的な単語埋め込み(Shoemark et al , 2019)に依存しており、例えば、例えば、バイアス検出と除去の研究(Kaneko and Bollegala, 2019; Goen and Goldberg, 2019; Manzini et al , 2019)や、単語ベクトル空間の分析(Vulic et al , 2020)や、選択によって非コンテキストなメトリクス(Vulic et al , 2020)などである。 0.82
• Static word embeddings can complement contextual word embeddings, for separating static from contextual semantics (Barsalou, 1982; Rubio-Fern´andez, 2008), or for improving joint embedding performance on downstream tasks (Alghanmi et al , 2020). 静的な単語埋め込みは、文脈意味論から静的な単語埋め込みを分離する(Barsalou, 1982; Rubio-Fern ́andez, 2008)か、下流タスクにおける共同埋め込み性能を改善する(Alghanmi et al , 2020)。 0.71
We also refer the reader to this article2 illustrating several down-sides of using BERT-like models over static embedding models for non-specialist users. また,本論文の読者は,非スペシャリストユーザに対する静的埋め込みモデルに対するBERTライクなモデルのいくつかの欠点を解説する。 0.60
Indeed, we can see continued prevalence of static word embeddings in industry and research areas including but not limited to medicine (Zhang et al , 2019; Karadeniz and ¨Ozg¨ur, 2019; Magna et al , 2020) and social sciences (Rheault and Cochrane, 2020; Gordon et al , 2020; Farrell et al , 2020; Lucy et al , 2020). 実際、業界や研究分野における静的な単語の埋め込みの頻度は、医学(Zhang et al , 2019; Karadeniz and シュオズール、2019; Magna et al , 2020; Rheault and Cochrane、2020; Gordon et al , 2020; Farrell et al , 2020; Lucy et al , 2020)や社会科学(Rheault and Cochrane、2020; Gordon et al , 2020; Farrell et al , 2020; Lucy et al , 2020)に限られている。 0.74
From a cognitive science point of view, Human language has been hypothesized to have both con1BERT base (Devlin et al , 2019) produces 768 dimensional word embeddings using 109M parameters, requiring 29B FLOPs per inference call (Clark et al , 2020). 認知科学の観点からは、人間言語はcon1BERTベース(Devlin et al , 2019)と仮定され、109Mパラメータを使って768次元の単語埋め込みを生成し、推論1回あたり29BのFLOPを必要とする(Clark et al , 2020)。 0.77
BERT? tedunderwood.com/201 9/07/15/) BERT? tedunderwood.com/201 9/07/15/) 0.57
humanists need 2Do 人文主義者 必要 2道 0.60
(https:// (https:// 0.98
英語(論文から抽出)日本語訳スコア
textual as well as context-independent properties (Barsalou, 1982; Rubio-Fern´andez, 2008) underlining the need for continued research in studying the expressiveness context-independent embeddings on the level of words. テキストと文脈に依存しない性質(Barsalou, 1982; Rubio-Fern ́andez, 2008)は、単語のレベルにおける表現性文脈に依存しない埋め込みの研究を継続する必要性を説明している。 0.65
Most existing word embedding models, whether static or contextual, follow Firth (1957)’s famous hypothesis - “You shall know a word by the company it keeps” , i.e., the meaning of a word arises from its context. 既存の単語埋め込みモデルの多くは、静的であれ文脈であれ、firth(1957年)の有名な仮説に従っている。
訳抜け防止モード: 静的であれ文脈であれ、既存の単語埋め込みモデルのほとんどは、firth(1957年)の有名な仮説に従っています。 会社によってその言葉を知っておくべきだ」。 単語の意味はその文脈から生じる。
0.72
During training existing static word embedding models, representations of contexts are generally approximated using averaging or sum of the constituent word embeddings, which disregards the relative word ordering as well as the interplay of information beyond simple pairs of words, thus losing most contextual information. 既存の静的な単語埋め込みモデルのトレーニングの間、コンテキストの表現は一般に構成語埋め込みの平均化や和を用いて近似される。
訳抜け防止モード: 既存の静的単語埋め込みモデルのトレーニング中、コンテキストの表現は一般に平均化や構成語埋め込みの和を用いて近似される。 相対的な単語の順序や、単純な単語のペアを超えた情報の相互作用を無視します。 したがって、ほとんどの文脈情報を失う。
0.66
Ad-hoc remedies attempt to capture longer contextual information per word using higher order n-grams like bigrams or trigrams, and have been shown to improve the performance of static word embedding models (Gupta et al , 2019; Zhao et al , 2017). アドホックな修正は、bigramやtrigramsのような高階のn-gramを使って単語毎の長い文脈情報をキャプチャし、静的な単語埋め込みモデルのパフォーマンスを改善することが示されている(gupta et al , 2019; zhao et al , 2017)。 0.73
However, these methods are not scalable to cover longer contexts. しかし、これらの手法は長いコンテキストをカバーするには拡張性がない。 0.43
In this work, we obtain improved static word embeddings by leveraging recent contextual embedding advances, namely by distilling existing contextual embeddings into static ones. 本研究では,最近の文脈埋め込みの進歩,すなわち既存の文脈埋め込みを静的に蒸留することにより,静的単語の埋め込みを改善する。 0.71
Our proposed distillation procedure is inspired by existing CBOW-based static word embedding algorithms, but during training plugs in any existing contextual representation to serve as the context element of each word. 提案手法は既存のCBOWベースの静的単語埋め込みアルゴリズムにインスパイアされているが,既存の文脈表現にプラグインを挿入して各単語の文脈要素として機能させる。 0.73
Our resulting embeddings outperform the current static embedding methods, as well as the current state-of-the-art static embedding distillation method on both unsupervised lexical similarity tasks as well as on downstream supervised tasks, by a significant margin. その結果得られた埋込量は,現在の静的埋込法や,非教師付き辞書類似性タスクと下流教師付きタスクの両方に対する現在の静的埋込蒸留法を大きく上回っている。 0.66
The resulting static embeddings remain compatible with the underlying contextual model used, and thus allow us to gauge the extent of lexical information carried by static vs contextual word embeddings. その結果得られる静的埋め込みは、使用されるコンテキストモデルと互換性があり、静的な単語埋め込みと文脈的な単語埋め込みによってもたらされる語彙情報の範囲を計測できる。 0.68
We release our code and trained embeddings publicly on GitHub3. コードを公開し、GitHub3に埋め込みをトレーニングしています。 0.55
2 Related Work formed by using these embeddings as rows and use it as a static embedding. 2 関連作業 これらの埋め込みを行として使用して形成し、静的埋め込みとして使用する。 0.69
However, this method is not scalable in terms of memory (the embedding matrix scaling with the number of contexts) and computational cost (PCA). しかし,この手法はメモリ(コンテキスト数による埋め込み行列スケーリング)や計算コスト(PCA)の観点からは拡張性がない。 0.73
Bommasani et al (2020) propose two different approaches to obtain static embeddings from contextual models. Bommasani et al (2020) は文脈モデルから静的埋め込みを得るための2つの異なるアプローチを提案する。 0.72
1. Decontextualized Static Embeddings - The word w alone without any context, after tokenization into constituents w1, . 1. Decontextualized Static Embeddings - w はコンテクストなしでコンポーネント w1, . にトークン化される。
訳抜け防止モード: 1. Decontextualized Static Embeddings - w という単語だけでコンテキストがない。 成分 w1 へのトークン化後
0.80
. . , wn is fed to the contextual embedding model denoted by M and the resulting static embedding is given by g(M (w1), . . . wn は M で表される文脈埋め込みモデルに供給され、結果として得られる静的埋め込みは g(M (w1) によって与えられる。 0.81
. . , M (wn)) where g is a pooling operation. . . , M (wn)) ここで g はプール演算である。 0.83
It is observed that these embeddings perform dismally on the standard static word embedding evaluation tasks. これらの組込みは標準の静的単語組込み評価タスクで不規則に実行されることが観察される。 0.63
2. Aggregated Static Embeddings - Since contextual embedding models are not trained on a single word (without any context) as input, an alternative approach is to obtain the contextual embedding of the word w in different contexts and then pool(max, min or average) the embeddings obtained from these different contexts. 2. Aggregated Static Embeddings - コンテキスト埋め込みモデルは、入力として(文脈なしで)単一の単語でトレーニングされないため、別のアプローチは、異なるコンテキストにおける単語wのコンテキスト埋め込みを取得し、これらの異なるコンテキストから得られる埋め込みをプール(max, min, average)する。 0.81
They observe that average pooling leads to the best performance. 彼らは平均的なプールが最高のパフォーマンスをもたらすことを観察する。 0.60
We refer to this method (with average pooling) as ASE throughout the rest of the paper. 本稿では,この手法(平均プール)を,紙の残りの部分でASEと呼ぶ。 0.78
As we see in our experiments, the performance of ASE embeddings saturates quickly with increasing size of the raw text corpus and is therefore not scalable. 我々の実験で見たように、ASE埋め込みの性能は生のテキストコーパスのサイズが大きくなるにつれて急速に飽和し、拡張性に欠ける。 0.59
Other related work includes distillation of contextual word embeddings to obtain sentence embeddings (Reimers and Gurevych, 2019). その他の関連する研究には、文の埋め込みを得るために文脈単語の埋め込みを蒸留することが含まれる(Reimers and Gurevych, 2019)。 0.50
We also refer the reader to Mickus et al (2020) for a discussion on the semantic properties of contextual models (primarily BERT) as well as Rogers et al (2020), a survey on different works exploring the inner workings of BERT including its semantic properties. 我々はまた、文脈モデル(主にBERT)のセマンティックな性質に関する議論において、Mickus et al (2020) と Rogers et al (2020) も参照する。
訳抜け防止モード: また、文脈モデル(主にBERT)のセマンティックな性質とRogers et al (2020 )の議論について、Mickus et al (2020 )を参照する。 BERTの内部動作を探索するさまざまな研究についての調査。
0.59
3 Proposed Method A few methods for distilling static embeddings have already been proposed. 3 提案方法 静的埋め込みを蒸留する方法がすでに提案されている。 0.74
Ethayarajh (2019) propose using contextual embeddings of the same word in a large number of different contexts. Ethayarajh (2019) では、同じ単語のコンテキスト埋め込みを多数の異なる文脈で使用することを提案した。 0.75
They take the first principal component of the matrix 彼らは行列の最初の主成分を取る 0.81
3https://github.com/ epfml/X2Static 3https://github.com/ epfml/X2Static 0.31
To distill existing contextual word representation models into static word embeddings, we augment a CBOW-inspired static word-embedding method as our anchor method to accommodate additional contextual information of the (contextual) teacher model. 既存の文脈表現モデルを静的な単語埋め込みに融合させるため,CBOWにインスパイアされた静的な単語埋め込み法をアンカー法として拡張し,(コンテキスト)教師モデルの文脈情報を付加する。 0.77
SENT2VEC (Pagliardini et al , 2018) is a sent2vec (pagliardini et al , 2018) は a である。 0.58
英語(論文から抽出)日本語訳スコア
modification of the CBOW static word-embedding method which instead of a fixed-size context window uses the entire sentence to predict the masked word. 固定サイズのコンテキストウィンドウではなく、文全体を使ってマスクされた単語を予測するcbow静的ワード埋め込み法の修正。 0.70
It also has the ability to learn n-gram representations along with unigram representations, allowing to better disentangle local contextual information from the static unigram embeddings. また、ユニグラム表現とともにn-gram表現を学習でき、静的ユニグラム埋め込みからローカルなコンテキスト情報をより分離することができる。 0.68
SENT2VEC, originally meant to obtain sentence embeddings and later repurposed to obtain word representations (Gupta et al , 2019) was shown to outperform competing methods including GLOVE (Pennington et al , 2014), CBOW, SKIPGRAM (Mikolov et al , 2013) and FASTTEXT (Bojanowski et al , 2016) on word similarity evaluations. SENT2VECは、もともと文の埋め込みを目的とし、後に単語表現を得るために再利用された(Gupta et al , 2019)。GLOVE (Pennington et al , 2014)、CBOW、SKIPGRAM (Mikolov et al , 2013)、FASTTEXT (Bojanowski et al , 2016)といった競合する手法よりも優れている。 0.75
For a raw text corpus C (collection of sentences), the training objective is given by 原文コーパスC(文の集合)については、トレーニング目的を付与する。 0.57
(1) f (uwt, Ectx(S, wt)) (1) f (uwt, Ectx(S, wt)) 0.85
min U ,V where f (u, v) := (cid:96)(u(cid:62)v) +(cid:80) min U, V ここで f (u, v) := (cid:96)(u(cid:62)v) +(cid:80) 0.84
wt∈S S∈C wtēS sftpc 0.34
w(cid:48)v). w(cid:48)v。 0.88
Here, wt is the masked target word, U and V are the target word embedding and the source n-gram matrices respectively, N is the set of negative target samples and, (cid:96) : x (cid:55)→ log (1 + e−x) is the logistic loss function. ここで、wt はマスキング対象語であり、u と v は対象語埋め込みであり、ソース n-gram 行列はそれぞれ負のターゲットサンプルの集合であり、 (cid:96) : x (cid:55)→ log (1 + e−x) はロジスティック損失関数である。 0.79
w(cid:48)∈N (cid:96)(−u(cid:62) w(cid:48)・N(cid:96)(−u(cid:62) 0.72
For SENT2VEC, the context encoder Ectx used in optimizing (1) is simply given by the (static, non-contextual) sum of all vectors in the sentence without the target word, SENT2VEC の場合、(1) の最適化に用いられるコンテキストエンコーダ Ectx は、目的語を含まない文中のすべてのベクトルの(静的で非テクスチュアルな)和によってのみ与えられる。 0.75
(cid:88) (cid:88) (cid:88) (cid:88) 0.78
(cid:88) Ectx(S, wt) := (cid:88) Ectx(S, wt) := 0.82
1 |R(S\{wt})| 1 |R(S\{wt})| 0.90
vw , (2) w∈R(S\{wt}) vw)。 (2) w・R(S\{wt}) 0.72
where R(S) denotes the optional expansion of the sentence S from words to short n-grams, i.e., the context sentence embedding is obtained by averaging the embeddings of word n-grams in the sentence S. r(s) は、単語 s から短い n-gram への任意の拡張を表す場合、すなわち、文 s への単語 n-gram の埋め込み平均化によって文脈文埋め込みが得られる。 0.74
We will now generalize the objective (1) by allowing the use of arbitrary modern contextual representations Ectx instead of the static context representation as in (2). 次に、(1)を一般化し、(2)のように静的なコンテキスト表現の代わりに任意のモダンなコンテキスト表現 ectx を利用可能にする。 0.71
This key element will allow us to translate quality gains from improved contextual representations also to better static word embedding in the resulting matrix U. このキー要素は、改善された文脈表現から品質向上を変換し、結果の行列Uに静的単語を埋め込むのに役立つ。 0.73
We propose two different approaches of doing so, which differ in the granularity of context used for obtaining the contextual embeddings. そこで本稿では,コンテキスト埋め込みに使用するコンテキストの粒度が異なる2つのアプローチを提案する。 0.69
3.1 Approach 1 - Sentences as context Using contextual representations of all words in the sentence S (or the sentence S \ {wt} without the 3.1 アプローチ1 - 文S(または文S \ {wt})内のすべての単語の文脈表現を用いた文脈としての文 0.78
target word) allows for a more refined representation of the context, and to take in account the word order as well as the interplay of information among the words of the context. 対象語)は文脈のより洗練された表現を可能にし、文脈の単語間の情報の相互作用だけでなく、単語の順序も考慮に入れることができる。 0.74
More formally, let M (S, w) denote the output of a contextual embedding-encoder, e g BERT, corresponding to the word w when a piece of text S containing w is fed to it as input. より正式には、M(S, w) は、w を含むテキスト S を入力として入力する際に、単語 w に対応する文脈埋め込みエンコーダ eg BERT の出力を表す。 0.73
We let Ectx(S, w) to be the average of all contextual embeddings of words w returned by the encoder, 我々は、Ectx(S, w) をエンコーダによって返される単語 w の文脈埋め込みの平均とする。 0.70
Ectx(S, wt) := 1|S| Ectx(S, wt) := 1|S| 0.90
M (S, w) (3) M (S, w) (3) 0.85
(cid:88) w∈S (cid:88) w・S 0.55
This allows for a more refined representation of the context as the previous representation did not take in account neither the word order nor the interplay of information among the words of the context. これにより、以前の表現が文脈の単語の順序や情報間の相互作用を考慮していないため、文脈のより洗練された表現が可能になる。 0.70
Certainly, using Smwt (S with wt masked) and w would make for an even better word-context pair but that would amount to one contextual embeddingencoder inference per word instead of one inference per sentence as is the case in (3) leading to a drastic drop in computational efficiency. 確かに、smwt (s with wt masked) と w を使用することで、さらに優れたワードコンテキストペアが得られるが、(3) の場合のように、文ごとに1つの推論ではなく、単語毎に1つのコンテキスト埋め込みエンコーダ推論に相当し、計算効率が大幅に低下する。 0.64
3.2 Approach 2 - Paragraphs as context Since contextual models are trained on large pieces of texts (generally ≥ 512 tokens), we instead use paragraphs instead of sentences to obtain the contextual representations. 3.2アプローチ 2-段落をコンテキストとして扱う コンテキストモデルは、大きなテキスト(一般的には512トークン)でトレーニングされるため、文脈表現を得るために文の代わりに段落を使う。 0.74
However, in order to predict target words, we use the contextual embeddings within the sentence only. しかし,目的語を予測するために,文内にのみコンテキスト埋め込みを用いる。 0.62
Consequently, for this approach, we have したがって、このアプローチには 0.52
Ectx(S, wt) := 1|S| Ectx(S, wt) := 1|S| 0.90
M (PS, w), (4) M (PS, w) (4) 0.78
(cid:88) w∈S (cid:88) w・S 0.55
where PS is the paragraph containing sentence S. In the transfer phase, this approach is more computationally efficient than the previous approach, as we have to invoke the contextual embedding model M only once for each paragraph as opposed to once for every constituent sentence. ps が s を含む段落である場合、このアプローチは、構成文ごとに 1 回ではなく、各段落ごとにコンテキスト埋め込みモデル m を1回だけ呼び出す必要があるため、転送フェーズにおいて、以前のアプローチよりも計算効率がよい。 0.68
Moreover, it encapsulates the related semantic information in paragraphs in the contextual word embeddings. さらに、文脈語埋め込みにおいて、段落内の関連する意味情報をカプセル化する。 0.64
We call our models X2STATICsent in the sentence case (3), and X2STATICpara in the paragraph case (4) respectively where X denotes the parent model. 文のケース (3) ではモデル x2staticsent、段落のケース (4) では x2staticpara と呼び、ここで x は親モデルを表す。 0.72
4 Experiments and Discussion 4.1 Corpus Preprocessing and Training We use the same English Wikipedia Dump as Pagliardini et al (2018); Gupta et al (2019) to 4 実験と議論 4.1 コーパス前処理とトレーニング 私たちはPagliardini et al (2018), Gupta et al (2019)と同じ英語のウィキペディアダンプを使用します。 0.81
英語(論文から抽出)日本語訳スコア
Epoch(s) trained Epoch (複数形 Epochs) 0.78
Max Vocab. Size Max Vocab サイズ 0.67
Number of Negatives Sampled 番号 ですから 負のサンプル 0.70
Target Word Subsampling hyperparameter ターゲット語サブサンプリングハイパーパラメータ 0.57
Minimum Word Count 1 750000 最小語数 1 750000 0.74
10 5e-6 10 10 5e-6 10 0.72
Initial Learning Rate 0.001 初期 学習 レート 0.001 0.69
Batch Size 128 バッチサイズ 128 0.78
Table 1: Training hyperparameters used for training X2STATIC models 表1:X2STATICモデルのトレーニングに用いるハイパーパラメータのトレーニング 0.74
Number of Max Vocab. 番号 ですから Max Vocab 0.62
Size Target Word Subsampling hyperparameter サイズ ターゲット語サブサンプリングハイパーパラメータ 0.67
Model Epoch(s) trained モデル Epoch (複数形 Epochs) 0.79
Negatives Sampled SENT2VEC {5,10,15} 750000 {5,8,10} {1e-4, 5e-6, 1e-5, 5e-6} SKIPGRAM {5,10,15} N.A. SENT2VEC {5,10,15} 750000 {5,8,10} {1e-4, 5e-6, 1e-5, 5e-6} SKIPGRAM {5,10,15} N.A。 0.55
{5,8,10} {1e-4, 5e-6, 1e-5, 5e-6} CBOW {5,10,15} N.A. {5,8,10} {1e-4, 5e-6, 1e-5, 5e-6} CBOW {5,10,15} N.A。 0.54
{5,8,10} {1e-4, 5e-6, 1e-5, 5e-6} {5,8,10} {1e-4, 5e-6, 1e-5, 5e-6} 0.53
Min. Word Count 10 10 10 Min 語数 10 10 10 0.60
Initial Learning Rate 0.2 0.05 0.05 初期 学習 レート 0.2 0.05 0.05 0.66
Word N-grams {1,2,3} N.A. 言葉 N-grams {1,2,3} N.A。 0.59
N.A. Character N-grams N.A. 文字N-gram 0.66
Window Size N.A. ウィンドウサイズ N.A. 0.76
N.A. {N.A.,3-6} {2,5,10} {N.A.,3-6} {2,5,10} N.A. {N.A.,3-6} {2,5,10} {N.A.,3-6} {2,5,10} 0.58
Table 2: Hyperparameter search space description for the training of SENT2VEC, SKIPGRAM and CBOW models: Best hyperparameters for the chosen model in our experiments are shown in bold. 表2: SENT2VEC, SKIPGRAM, CBOWモデルのトレーニングのためのハイパーパラメータ検索空間記述: 実験で選択したモデルに最適なハイパーパラメータを大胆に示す。 0.88
N.A. indicates not applicable. N.A. 適用されない。 0.67
generate distilled X2STATIC representations. 蒸留x2静的表現を生成する。 0.47
as our corpus for training static word embedding baselines as well as for distilling static word embeddings from pre-trained contextual embedding models. 静的単語埋め込みベースラインをトレーニングするコーパスとして,事前学習した文脈埋め込みモデルから静的単語埋め込みを蒸留する。 0.74
We remove all paragraphs with less than 3 sentences or 140 characters, lowercase the characters and tokenize the corpus using the Stanford NLP library (Manning et al , 2014) resulting in a corpus of approximately 54 Million sentences and 1.28 Billion words. 3文または140文字未満のすべての段落を削除し、文字を小さくし、Stanford NLPライブラリ(Manning et al , 2014)を使用してコーパスをトークン化する。
訳抜け防止モード: 全段落を3文か140文字未満で削除します。 文字を小文字にして、スタンフォードのnlpライブラリ(manning et al, 2014)を使ってコーパスをトークン化すると、およそ4500万の文と128億語がコーパスされる。
0.60
We then use the Transformers library4 (Wolf et al , 2020) to generate representations from existing transformer models. 次に、既存のトランスフォーマーモデルから表現を生成するためにtransformers library4(wolf et al , 2020)を使用します。 0.72
Our X2STATIC representations are distilled from the last representation layers of these models. 我々のX2STATIC表現は、これらのモデルの最後の表現層から蒸留される。 0.63
We use the same hyperparameter set for training all X2STATIC models, i.e., no hyperparameter tuning is done at all. 我々は、すべてのX2STATICモデルをトレーニングするために同じハイパーパラメータセットを使用する。 0.69
We use 12-layer as well as 24layer pre-trained models using BERT (Devlin et al , 2019), ROBERTA (Liu et al , 2019) and GPT2 (Radford et al , 2019) architectures as the teacher model to obtain X2STATIC word embeddings. 我々は、教師モデルとしてBERT(Devlin et al , 2019)、ROBERTA(Liu et al , 2019)、GPT2(Radford et al , 2019)を用いて、12層および24層事前学習モデルを使用し、X2STATIC単語埋め込みを得る。 0.76
All the X2STATIC models use the same set of training parameters except the parent model. すべてのX2STATICモデルは、親モデルを除いて同じトレーニングパラメータを使用する。 0.82
Training hyperparameters are provided in Table 1. トレーニングハイパーパラメータはテーブル1で提供される。 0.71
The distillation/trainin g process employs the lazy version of the Adam optimizer (Kingma and Ba, 2015a), suitable for sparse tensors. 蒸留・訓練プロセスでは、スパーステンソルに適したアダム・オプティマイザ(Kingma and Ba, 2015a)の遅延バージョンを採用している。 0.49
We use a subsampling parameter similar to FASTTEXT (Bojanowski et al , 2016) in order to subsample frequent target words during training. 本研究では,FASTTEXT(Bojanowski et al , 2016)と類似したサブサンプリングパラメータを用いて,トレーニング中に頻繁にターゲット単語をサブサンプリングする。 0.68
Each X2STATIC model was trained using a single V100 32 GB GPU. 各X2STATICモデルは、単一のV100 32GB GPUを使用してトレーニングされた。 0.60
Obtaining X2STATIC embeddings from 12-layer contextual embedding models took 15-18 hours while it took 12層埋め込みモデルからx2静的埋め込みを得るのに15~18時間かかった 0.63
4https://huggingface .co/transformers/ 4https://huggingface .co/transformers/ 0.39
35-38 hours to obtain them from their 24-layer counterparts. 35-38時間、24層からそれを得る。 0.71
To ensure a fair comparison, we also evaluate SENT2VEC, CBOW and SKIPGRAM models that were trained on the same corpus. また, 同一コーパス上で学習したSENT2VEC, CBOW, SKIPGRAMモデルについても検討した。 0.63
We do an extensive hyperparameter tuning for these models and choose the one which shows best average performance on the 5 word similarity datasets used in Subsection 4.2. これらのモデルの広範なハイパーパラメータチューニングを行い、第4.2節で使用される5ワードの類似性データセットで最高のパフォーマンスを示すものを選択します。 0.68
These hyperparameter sets can be accessed in Table 2 where the chosen hyperparameters are shown in bold. これらのハイパーパラメータセットはテーブル2でアクセスでき、選択されたハイパーパラメータが太字で示される。 0.67
We set the number of dimensions to be 768 to ensure parity between them and the X2STATIC models compared. 寸法の数を768とし,X2STATICモデルとの比較を行った。
訳抜け防止モード: 次元の数を 768 に設定し これらとx2静的モデルとの同一性を確保する。
0.69
We used the SENT2VEC library5 for training SENT2VEC and the FASTTEXT library6 for training CBOW and SKIPGRAM models. 我々はSENT2VECライブラリ5を用いてSENT2VECとFASTTEXTライブラリ6をCBOWおよびSKIPGRAMモデルのトレーニングに使用した。 0.69
We also evaluate some pre-trained 300 dimensional GLOVE (Pennington et al , 2014) and FASTTEXT (Bojanowski et al , 2016) models in Table 3. また, 事前学習した300次元GLOVE (Pennington et al , 2014) と FASTTEXT (Bojanowski et al , 2016) を表3で評価した。 0.84
The GLOVE model was trained on Common-Crawl corpus of 840 Billion tokens (approximately 650 times larger than our corpus) while the FASTTEXT vectors were trained on a corpus of 16 Billion tokens (approximately 12 times larger than our corpus)). GLOVEモデルは840億トークン(私たちのコーパスの約650倍)のCommon-Crawlコーパスでトレーニングされ、FASTTEXTベクターは16億トークン(私たちのコーパスの約12倍)のコーパスでトレーニングされた。 0.58
We also extract ASE embeddings from each layer using the same Wikipedia corpus. また,同じwikipediaコーパスを用いて,各層からase埋め込みを抽出する。 0.75
We perform two different sets of evaluations. 我々は2つの異なる評価を行う。 0.78
The first set corresponds to unsupervised word similarity evaluations to gauge the quality of the obtained word embeddings. 第1セットは、得られた単語埋め込みの品質を測定するために教師なしの単語類似度評価に対応する。
訳抜け防止モード: 最初の集合は教師なし語の類似性評価に対応する 得られた単語埋め込みの品質を測定する。
0.76
However, we recognize that there are concerns regarding word-similarity しかし,単語相似性には懸念があることが認識されている。 0.50
5https://github.com/ epfml/sent2vec 6https://github.com/ facebookresearch/ 5https://github.com/ epfml/sent2vec 6https://github.com/ facebookresearch/ 0.32
fastText/ fastText/ 0.78
英語(論文から抽出)日本語訳スコア
evaluation tasks (Faruqui et al , 2016) as they are shown to exhibit significant difference in performance when subjected to hyperparameter tuning (Levy et al , 2015). 評価タスク (Faruqui et al , 2016) は, ハイパーパラメータチューニング(Levy et al , 2015) において, 性能に有意な差があることが示されている。 0.82
To address these limitations in the evaluation, we also evaluate the X2STATIC embeddings on a standard set of downstream supervised evaluation tasks used in Pagliardini et al (2018). 評価におけるこれらの制限に対処するため,Pagliardini et al (2018) で使用される下流教師付き評価タスクの標準セットに,X2STATIC埋め込みを評価した。 0.72
4.2 Unsupervised word similarity evaluation To assess the quality of the lexical information contained in the obtained word representations, we use the 4 word-similarity datasets used by (Bommasani et al , 2020), namely WordSim353 (353 word-pairs) (Agirre et al , 2009) dataset; SimLex999 (999 word-pairs) (Hill et al , 2014) dataset; RG-65 (65 pairs) (Joubarne and Inkpen, 2011); and SimVerb-3500 (3500 pairs) (Gerz et al , 2016) dataset as well as the Rare Words RW-2034 (2034 pairs) (Luong et al , 2013) dataset. 4.2 Unsupervised word similarity evaluation To assess the quality of the lexical information contained in the obtained word representations, we use the 4 word-similarity datasets used by (Bommasani et al , 2020), namely WordSim353 (353 word-pairs) (Agirre et al , 2009) dataset; SimLex999 (999 word-pairs) (Hill et al , 2014) dataset; RG-65 (65 pairs) (Joubarne and Inkpen, 2011); and SimVerb-3500 (3500 pairs) (Gerz et al , 2016) dataset as well as the Rare Words RW-2034 (2034 pairs) (Luong et al , 2013) dataset. 0.96
To calculate the similarity between two words, we use the cosine similarity between their word embeddings. 2つの単語間の類似性を計算するために,単語埋め込み間のコサイン類似性を利用する。 0.65
These similarity scores are compared to the human ratings using Spearman’s ρ (Spearman, 1904) correlation scores. これらの類似度スコアは、スピアマンのρ(Spearman, 1904)相関スコアを用いて人間の評価と比較される。 0.75
We use the tool7 provided by Bommasani et al (2020) to report these results on ASE embeddings. bommasani et al (2020) が提供する tool7 を使って ase 埋め込みに関するこれらの結果を報告している。 0.65
It takes around 3 days to obtain ASE representations of the 2005 words in these word-similarity datasets for 12-layer models and around 5 days to obtain them for their 24-layer counterparts on the same machine used for learning X2STATIC representations. 2005年の単語のASE表現を12層モデルの単語類似性データセットで取得するには約3日かかり、X2STATIC表現の学習に使用される同じマシン上で24層モデルに対して約5日かかる。 0.74
All other embeddings are evaluated using the MUSE repository evaluation tool8 (Lample et al , 2018). 他の埋め込みはすべて、MUSEリポジトリ評価ツール8(Lample et al , 2018)を使って評価される。 0.69
We perform two sets of experiments concerning the unsupervised evaluation tasks. 我々は,教師なし評価タスクに関する実験を2セット実施する。 0.66
The first set is the comparison of our X2STATIC models with competing models. 最初のセットは、X2STATICモデルと競合するモデルの比較です。 0.80
For ASE, we report two sets of results, one which per task reports the best result amongst all the layers and other, which reports the results obtained on the best performing layer on average. ASEでは,各タスクごとに各レイヤで最高の結果が報告され,各レイヤで平均して最高の結果が得られたことを報告します。 0.61
We report our observations in Table 3. 表3の観察結果について報告する。 0.63
We provide additional results for larger models in Appendix B. Appendix Bのより大きなモデルに対する追加結果を提供する。 0.82
We observe that X2STATIC embeddings outperform competing models on most of the tasks. x2staticは、ほとんどのタスクで競合するモデルよりも優れています。 0.50
Moreover, the extent of improvement on SimLex999 and SimVerb-3500 tasks compared to the pre- さらに、SimLex999およびSimVerb-3500タスクの改善の程度は、プレ-に比べて大きい。 0.64
7https://github.com/ rishibommasani/ 7https://github.com/ rishibommasani/ 0.39
Contextual2Static 8https://github.com/ facebookresearch/ 文脈2統計 8https://github.com/ facebookresearch/ 0.40
MUSE vious models strongly highlights the advantage of using improved context representations for training static word representations. MUSE viousモデルは、静的な単語表現をトレーニングするために改善されたコンテキスト表現を使用することの利点を強く強調する。 0.69
Second, we study the performance of the best ASE embedding layer with respect to the size of corpus used. 次に,最適なASE埋め込み層の性能について,使用するコーパスのサイズについて検討した。 0.60
Bommasani et al (2020) report their results on a corpus size of only up to N = 100, 000 sentences. Bommasani et al (2020) は、N = 100,000文までのコーパスサイズで結果を報告している。 0.71
In order to measure the full potential of the ASE method, we obtain different sets of ASE embeddings as well as X2STATICpara embeddings from small chunks of the corpus to the full wikipedia corpus itself and compare their performance on SimLex-999 and RW-2034 datasets. ASE法の全可能性を測定するため,ASE法とX2STATICparaの埋め込みを小片のコーパスからwikipediaコーパス自体に分割し,SimLex-999データセットとRW-2034データセットのパフォーマンスを比較した。
訳抜け防止モード: ASE メソッドの完全なポテンシャルを測定するために。 ASE 埋め込みの異なるセットと X2STATICpara 埋め込みを corpus の小さなチャンクから wikipedia corpus 自体に取得します そして、SimLex-999とRW-2034データセットのパフォーマンスを比較します。
0.82
We choose SimLex-999 as it captures true similarity instead of relatedness or association (Hill et al , 2014) and RW-2034 to gauge the robustness of the embedding model on rare words. 類似性(hill et al, 2014)やrw-2034ではなく、真の類似性を捉えたsimlex-999を選択し、希少な単語への埋め込みモデルのロバスト性を評価する。 0.67
We report our observations in Figure 1. 図1の観察結果について報告する。 0.59
We observe that the performance of the ASE embeddings tends to saturate with the increase in the corpus size while X2STATICpara embeddings are either significantly outperforming the ASE embeddings or still show a significantly greater positive growth rate in performance w.r.t. ASE埋め込みの性能はコーパスサイズの増加とともに飽和する傾向にあるが、X2STATICpara埋め込みはASE埋め込みを著しく上回っているか、あるいは性能w.r.tにおいて著しく高い正の伸び率を示している。 0.63
the corpus size. Thus, the experimental evidence suggests that on larger texts, X2STATIC embeddings will have an even better performance and hence, X2STATIC is a better alternative than ASE embeddings from any of the layers of the contextual embedding model, and obtains improved static word embeddings from contextual embedding models. コーパスサイズ。 したがって、実験的な証拠は、より大きなテキストでは、x2staticの埋め込みの方がさらに優れたパフォーマンスを持つことを示唆しているので、x2staticは、文脈埋め込みモデルのいずれの層からも、asの埋め込みよりも優れた選択肢であり、文脈埋め込みモデルから、静的な単語の埋め込みを改善した。 0.46
4.3 Downstream supervised evaluation 4.3 下流監視評価 0.72
We evaluate the obtained word embeddings on various sentence-level supervised classification tasks. 文レベルの教師あり分類タスクにおける単語埋め込みの評価を行った。 0.57
Six different downstream supervised evaluation tasks namely classification of movie review sentiment(MR) (Pang and Lee, 2005), product reviews(CR) (Hu and Liu, 2004), subjectivity classification(SUBJ) (Pang and Lee, 2004), opinion polarity (MPQA) (Wiebe et al , 2005), question type classification (TREC) (Voorhees, 2002) and finegrained sentiment analysis (SST-5) (Socher et al , 2013) are employed to gauge the performance of the obtained word embeddings. 映画レビュー感情分類(mr) (pang and lee, 2005)、製品レビュー(cr) (hu and liu, 2004)、主観性分類(subj) (pang and lee, 2004)、世論極性(mpqa) (wiebe et al , 2005)、質問型分類(trec) (voorhees, 2002)、細粒度感情分析(sst-5) (socher et al , 2013)の6つの異なる評価課題を用いて、単語埋め込みの性能を評価する。 0.67
We use a standard CNN based architecture on the top of our embeddings to train our classifier. 埋め込みの上部に標準のCNNベースのアーキテクチャを使って分類器を訓練しています。 0.67
We use 100 convolutional filters with a kernel size of 3 followed by a ReLU activation function. 我々は,カーネルサイズ3の畳み込みフィルタ100とreluアクティベーション関数を併用した。 0.65
A global max-pooling layer follows the convolution layer. グローバルマックスプール層は畳み込み層に従う。 0.68
Before feeding the max-pooled output to a max-pooled 出力を a に送る前 0.79
英語(論文から抽出)日本語訳スコア
Model \ Distilled Model Model \ 蒸留モデル 0.78
Existing pre-trained models 既存の事前訓練モデル 0.65
FASTTEXT GLOVE Models trained by us SKIPGRAM CBOW SENT2VEC Models distilled by us SKIPGRAM CBOW SENT2VECモデルによるFASTTEXT GLOVEモデルの訓練 0.72
ASE - best layer per task ASE - best overall layer BERT2STATICsent BERT2STATICpara ASE - タスク毎の最高のレイヤASE - 全体層 BERT2StaTICpara 0.83
ASE - best layer per task ASE - best overall layer ROBERTA2STATICsent ROBERTA2STATICpara ASE - タスク毎の最高のレイヤ ASE - 全体層 ROBERTA2 スタティックパラ ROBERTA2 スタティック 0.67
Parent Model \ Other details 親モデル その他の詳細 0.86
Size of the training corpus relative to ours 12x 650x 大きさ ours 12x 650xに対するトレーニングコーパス 0.64
N.A. N.A. N.A. N.A. N.A. N.A. 0.71
Parent Model BERT-12 BERT-12 BERT-12 BERT-12 親モデル BERT-12 BERT-12 BERT-12 BERT-12 0.59
ROBERTA-12 ROBERTA-12 ROBERTA-12 ROBERTA-12 ロベルタ-12 ロベルタ-12 ロベルタ12 0.41
ASE - best layer per task GPT2-12 ASE - best overall layer GPT2-12 GPT2-12 GPT22STATICsent GPT22STATICpara GPT2-12 ASE - タスク毎の最良層 GPT2-12 ASE - 全体層 GPT2-12 GPT22StaTICsent GPT22StaTICpara GPT2-12 0.67
Dim. RG-65 WS-353 うーん。 RG-65 WS-353 0.44
SL-999 SV-3500 RW-2034 Average SL-999 SV-3500 RW-2034 平均値 0.54
300 300 768 768 768 300 300 768 768 768 0.85
768 768 768 768 768 768 768 768 0.85
768 768 768 768 768 768 768 768 0.85
768 768 768 768 768 768 768 768 0.85
0.7669 0.6442 0.7669 0.6442 0.50
0.596 0.5791 0.596 0.5791 0.50
0.416 0.3764 0.416 0.3764 0.50
0.3274 0.2625 0.3274 0.2625 0.50
0.5226 0.4607 0.5226 0.4607 0.50
0.5276 0.4646 0.5276 0.4646 0.50
0.8259 0.8348 0.7811 0.8259 0.8348 0.7811 0.47
0.7141 0.4999 0.7407 0.7141 0.4999 0.7407 0.47
0.4064 0.4097 0.5034 0.4064 0.4097 0.5034 0.47
0.2722 0.2626 0.3297 0.2722 0.2626 0.3297 0.47
0.4849 0.4043 0.4248 0.4849 0.4043 0.4248 0.47
0.5407 0.4823 0.55594 0.5407 0.4823 0.55594 0.47
0.7449(1) 0.7012(1) 0.5216(4) 0.4151(5) 0.4577(5) 0.5429(3) 0.6948(3) 0.6768(3) 0.5195(3) 0.3889(3) 0.4343(3) 0.5429(3) 0.6017 0.7421 0.6031 0.7555 0.7449(1) 0.7012(1) 0.5216(4) 0.4151(5) 0.4577(5) 0.5429(3) 0.6948(3) 0.6768(3) 0.5195(3) 0.3889(3) 0.4343(3) 0.5429(3) 0.6017 0.7421 0.6031 0.7555 0.73
0.5461 0.5384 0.5461 0.5384 0.50
0.4437 0.4317 0.4437 0.4317 0.50
0.5469 0.5299 0.5469 0.5299 0.50
0.7297 0.7598 0.7297 0.7598 0.50
0.673(0) 0.7023(0) 0.554(5) 0.4602(4) 0.5075(3) 0.5600(0) 0.673(0) 0.7023(0) 0.5167(0) 0.4424(0) 0.4657(0) 0.5600(0) 0.6222 0.7999 0.6291 0.8057 0.673(0) 0.7023(0) 0.554(5) 0.4602(4) 0.5075(3) 0.5600(0) 0.673(0) 0.7023(0) 0.5167(0) 0.4424(0) 0.4657(0) 0.5600(0) 0.6222 0.7999 0.6291 0.8057 0.73
0.7452 0.7638 0.7452 0.7638 0.50
0.4658 0.4717 0.4658 0.4717 0.50
0.5496 0.5501 0.5496 0.5501 0.50
0.5507 0.5544 0.5507 0.5544 0.50
0.7013(1) 0.6879(0) 0.4972(2) 0.3905(2) 0.4556(2) 0.5365(2) 0.6833(2) 0.6560(2) 0.4972(2) 0.3905(2) 0.4556(2) 0.5365(2) 0.6094 0.7484 0.6193 0.7881 0.7013(1) 0.6879(0) 0.4972(2) 0.3905(2) 0.4556(2) 0.5365(2) 0.6833(2) 0.6560(2) 0.4972(2) 0.3905(2) 0.4556(2) 0.5365(2) 0.6094 0.7484 0.6193 0.7881 0.73
0.5397 0.5417 0.5397 0.5417 0.50
0.7151 0.7267 0.7151 0.7267 0.50
0.4676 0.4733 0.4676 0.4733 0.50
0.5760 0.5668 0.5760 0.5668 0.50
Table 3: Comparison of the performance of different embedding methods on word similarity tasks. 表3: 単語類似性タスクにおける異なる埋め込みメソッドのパフォーマンスの比較。 0.83
Models are compared using Spearman correlation for word similarity tasks. 単語類似性タスクのスピアマン相関を用いてモデルを比較する。 0.66
All X2STATIC method performances which improve over all ASE methods on their parent model as well as all static models are shown in bold. すべてのX2STATICメソッドのパフォーマンスは、親モデル上のすべてのASEメソッドと、すべての静的モデルを大胆に示す。 0.77
Best performance in each task is underlined. 各タスクにおける最高のパフォーマンスは下線で表現される。 0.53
For all ASE methods, the number in parentheses for each dataset indicates which layer was used for obtaining the static embeddings. すべてのASEメソッドに対して、各データセットの括弧の数は、静的な埋め込みを得るためにどの層が使われたかを示す。 0.65
classifier, it is passed through a dropout layer with dropout probability of 0.5 to prevent overfitting. 分類器は、オーバーフィッティングを防ぐために0.5のドロップアウト確率でドロップアウト層を通過する。 0.66
We use Adam (Kingma and Ba, 2015b) to train our classifier. 私たちはAdam (Kingma と Ba, 2015b) を使って分類器を訓練しています。 0.63
To put the performance of these static models into a broader perspective, we also fine-tune linear classifiers on the top of their parent models as well as sentence-transformer s (Reimers and Gurevych, 2019) obtained from ROBERTA-12 and BERT-12. これらの静的モデルの性能をより広い視点に示すため、ROBERTA-12とBERT-12から得られた文変換器(Reimers and Gurevych, 2019)と同様に、親モデルのトップの細いチューン線形分類器についても検討した。 0.72
For the sentence-transformer models, we use the sentence-transformer models obtained by fine-tuning their parent models on the Natural Language Inference(NLI) task using the combination of Stanford NLI (Bowman et al , 2015) and the Multi-Genre NLI (Williams et al , 2018) datasets. 文変換モデルでは,Stanford NLI (Bowman et al , 2015) とMulti-Genre NLI (Williams et al , 2018) のデータセットを組み合わせて,親モデルの自然言語推論(NLI)タスクを微調整した文変換モデルを用いる。 0.79
The models are refered to as SBERT-BASE-NLI and SROBERTA-BASE-NLI in the rest of the paper. このモデルは残りの論文ではSBERT-BASE-NLI、SROBERTA-BASE-NLIと呼ばれている。 0.61
The hyperparameter search space for the finetuning process involves the number of epochs (8- 微調整過程のハイパーパラメータ探索空間は、エポック数 (8-) を含む。 0.71
16) and the learning rates[1e-4,3e-4,1e-3]. 16)および学習率[1e-4,3e-4,1e-3]。 0.52
Wherever train, validation, and test split is not given, we use 60% of the data as the training data, 20% of the data as validation data and the rest as the test data. トレーニング、検証、テストの分割が与えられていない場合は、トレーニングデータとしてデータの60%、検証データとしてデータの20%、テストデータとして残りを使用します。 0.77
After obtaining the best hyperparameters, we train on the train and validation data together with these hyperparameters and predict the results on the test set. 最高のハイパーパラメータを得た後、列車と検証データをこれらのハイパーパラメータと共にトレーニングし、テストセットの結果を予測します。 0.71
For the linear classifiers on the top of parent models, we set the number of epochs and learning rate search space for parent model + linear classifier combination to be [3,4,5,6] and [2e-5,5e-5] respectively. 親モデル上の線形分類器について,親モデルと線形分類器の組み合わせのエポック数と学習率探索空間をそれぞれ [3,4,5,6] と [2e-5,5e-5] に設定する。 0.77
The learning rates in the learning rate search space are lower than those for static embeddings as the contextual embeddings are also fine-tuned and follow the recommendation of Devlin et al (2019). 学習率探索空間の学習率は、文脈埋め込みも微調整され、devlin et al (2019) の推奨に従うため、静的埋め込みの学習率よりも低い。 0.67
For the sentence-transformer models, we only train the linear classifier and set the number of epochs and learning rate search space to be [3,4,5,6] and [1e-4,3e-4,1e-3] respectively. 文変換モデルでは,線形分類器を訓練し,学習率探索空間を [3,4,5,6] と [1e-4,3e-4,1e-3] に設定する。 0.68
We use cross-entropy クロスエントロピーを使う 0.61
英語(論文から抽出)日本語訳スコア
Figure 1: Effect of corpus size on the word-embedding quality for ASE best task independent layer and X2STATICpara : In the legend, parent model is indicated in subscript. 図1:ASEベストタスク独立層とX2STATICparaの単語埋め込み品質に及ぼすコーパスサイズの影響 : 伝説では親モデルがサブスクリプトで示される。 0.78
loss for training all the models. 全てのモデルの訓練の損失です 0.79
We use Macro-F1 score and Accuracy to gauge the quality of our predictions. マクロF1スコアと精度を使って予測の質を測定します。 0.74
We compare X2STATIC models with all other static models trained from scratch on the same corpus as well as the GLOVE and FASTTEXT models used in the previous section. 我々は、X2STATICモデルと、同じコーパス上でスクラッチから訓練した他の静的モデルと、前節で使用したGLOVEおよびFASTTEXTモデルを比較した。 0.72
We also use existing GLOVE embeddings trained on tweets(27 billion tokens - 20 times larger than our corpus) (Pennington et al , 2014) to make the comparison even more extensive. また、既存のグローブ埋め込みをツイート(27億トークン - コーパスの20倍)でトレーニングし、比較をさらに広範囲にするために使用しています(pennington et al , 2014)。 0.67
We report our observations in Table 4. 第4表の観察結果を報告する。 0.68
For ASE embeddings, we take the layer with best average macro-F1 performance. ASE埋め込みでは、最も平均的なマクロF1性能を持つ層を取ります。 0.65
We observe the overall performance, with the exception of ROBERTA2STATICsent which has similar av- 私たち 観察 同様のavを持つroberta2staticsentを除いて、全体的なパフォーマンス 0.65
that when measuring erage F-1 score to ASE owing to its dismal performance on the CR task, all X2STATIC embeddings outperform their competitors by a significant margin. 測定すると erage f-1のスコアは、crタスクの異常なパフォーマンスのため、すべてのx2static組み込みが競合相手をかなり上回っている。 0.62
Even though the GLOVE and FASTTEXT embeddings were trained on corpora of one to two magnitudes larger and have a larger vocabulary, their performance lags behind that of the X2STATIC embeddings. GLOVEとFASTTEXTの埋め込みは1から2等級のコーパスで訓練され、語彙は大きいが、その性能はX2STATICの埋め込みよりも遅れていた。 0.65
To ensure statistical soundness, we measure mean and standard deviation of the performance on 6 runs of X2STATICpara model training followed by downstream evaluation along with 6 runs of ASE embedding downstream evaluation with different random seeds in Table 5 in the Appendix. 統計的健全性を確保するため,X2STATICparaモデルトレーニングを6回実施した上で,平均値と標準値の偏差を測定し,さらに6回のASE埋め込みによる下流評価をAppendixのテーブル5で実施した。 0.85
We see that X2STATICpara embeddings outperform ASE X2StaTICpara の埋め込みは ASE よりも優れています 0.44
102101100Fraction of the full wikipedia dataset used0.350.400.450.50 0.55Spearman0s Performance of the models on SIMLEX-999ASEBERT12A SERoBERTa12ASEGPT212 BERT2STATICparaRoBER Ta2STATICparaGPT22ST ATICpara101100Fracti on of the full wikipedia dataset used0.250.300.350.40 0.450.500.55Spearman 0s Performance of the models on RW-2034ASEBERT12ASER oBERTa12ASEGPT212Ber t2StaticparaRoberta2 StaticparaGPT22Stati cpara 102101100 Fraction of the full wikipedia dataset used0.350.400.450.50 0.55Spearman0s Performance of the model of the model on SIMLEX-999ASEBERT12A SERoBERTa12ASEGPT212 BERT2STATICparaRoBER Ta2STATICparaGPT22ST ATICpara101100Fracti on of the full wikipedia dataset used0.250.300.350.50 0.500.55Spearman0s Performance of the model of the model on RW-2034ASEBERT12ASER oBERTa12ASEGPT2Bert2 StaticparaRoberta2St aticparaGPT22Staticp arapara 0.31
英語(論文から抽出)日本語訳スコア
Embeddings \Task 埋め込み \Task 0.71
Dim CR MR F1 / Acc. ディム CR MR f1/acc。 0.73
F1 / Acc. MPQA F1 / Acc. f1/acc。 MPQA F1 / Acc 0.74
SUBJ F1 / Acc. SUBJ f1/acc。 0.77
TREC F1 / Acc. TREC F1/Acc。 0.77
SST-5 F1 / Acc. SST-5 f1/acc。 0.64
Average F1 / Acc. Existing pre-trained models 平均F1/Acc。 既存の事前訓練モデル 0.69
GLOVE GLOVE (Twitter) FASTTEXT Models trained by us SKIPGRAM CBOW SENT2VEC Models distilled by us GLOVE GLOVE (Twitter) FASTTEXT Models training by us SKIPGRAM CBOW SENT2VEC Models obtained by us 0.91
ASE - BERT-12 (5) BERT2STATICsent BERT2STATICpara ASE - BERT-12 (5) BERT2 スタティックパラ 0.65
300 81.6/83.2 78.2/78.2 85.1/87.6 90.9/90.9 45.4/86.2 15.5/43.2 66.1/78.1 200 79.0/80.9 74.1/74.2 82.1/85.0 89.6/89.7 49.1/87.8 13.1/37.5 64.5/75.9 300 80.3/81.9 78.3/78.4 86.5/88.1 90.9/90.9 45.3/85.9 13.9/43.9 66.2/78.2 300 81.6/83.2 78.2/78.2 85.1/87.6 90.9/90.9 45.4/86.2 15.5/43.2 66.1/78.1 200 79.0/80.9 74.1/74.2 82.1/85.0 89.6/89.7 49.1/87.8 13.1/37.5 64.5/75.9 300 80.3/81.9 78.3/78.4 86.5/88.1 90.9/90.9 45.3/85.9 13.9/43.9 66.2/78.2 0.19
768 78.4/80.9 75.2/75.2 83.1/85.8 91.5/91.5 50.2/88.6 13.9/39.0 65.4/76.8 768 75.9/78.5 72.6/72.7 83.3/86.0 85.5/85.5 43.2/85.7 13.4/38.9 62.0/74.6 768 79.8/81.2 74.1/74.1 81.0/84.5 89.4/89.4 42.9/84.1 13.2/38.6 63.4/75.3 768 78.4/80.9 75.2/75.2 83.1/85.8 91.5/91.5 50.2/88.6 13.9/39.0 65.4/76.8 768 75.9/78.5 72.6/72.7 83.3/86.0 85.5/85.5 43.2/85.7 13.4/38.9 62.0/74.6 768 79.8/81.2 74.1/74.1 81.0/84.5 89.4/89.4 42.9/84.1 13.2/38.6 63.4/75.3 0.19
768 81.5/83.0 78.5/78.5 86.0/86.0 91.0/91.0 48.3/87.6 15.0/42.1 66.7/78.0 768 80.1/82.0 78.9/78.9 87.4/89.1 91.8/91.8 50.6/88.7 16.1/43.7 67.5/79.0 768 81.1/83.6 80.8/80.8 87.3/89.3 91.6/91.6 51.8/89.2 16.1/44.9 68.1/79.9 768 81.5/83.0 78.5/78.5 86.0/86.0 91.0/91.0 48.3/87.6 15.0/42.1 66.7/78.0 768 80.1/82.0 78.9/78.9 87.4/89.1 91.8/91.8 50.6/88.7 16.1/43.7 67.5/79.0 768 81.1/83.6 80.8/80.8 87.3/89.3 91.6/91.6 51.8/89.2 16.1/44.9 68.1/79.9 0.19
ASE - ROBERTA-12 (2) ROBERTA2STATICsent ROBERTA2STATICpara ASE - ROBERTA-12(2) ROBERTA2 STATICpara 0.82
768 78.4/81.2 78.3/78.3 86.4/88.5 89.5/89.5 52.0/89.1 15.2/43.0 66.6/78.3 768 76.5/79.6 80.2/80.2 85.6/88.0 92.2/92.2 49.7/89.1 15.7/43.8 66.7/78.8 768 80.9/82.3 80.0/80.1 87.3/89.4 92.4/92.4 49.3/88.8 16.3/43.4 67.7/79.4 768 78.4/81.2 78.3/78.3 86.4/88.5 89.5/89.5 52.0/89.1 15.2/43.0 66.6/78.3 768 76.5/79.6 80.2/80.2 85.6/88.0 92.2/92.2 49.7/89.1 15.7/43.8 66.7/78.8 768 80.9/82.3 80.0/80.1 87.3/89.4 92.4/92.4 49.3/88.8 16.3/43.4 67.7/79.4 0.19
ASE - GPT2-12 (4) GPT22STATICsent GPT22STATICpara ASE - GPT2-12 (4) GPT22Staticsent GPT22StaTICpara 0.64
Parent contextual models and derivatives 親の文脈 モデルと誘導体 0.73
768 81.0/82.1 80.1/80.1 84.8/86.2 91.2/91.2 51.0/88.8 15.5/42.0 67.3/78.4 768 81.5/83.5 79.5/79.5 86.5/88.5 91.8/91.8 51.8/89.2 16.2/43.8 67.9/79.4 768 81.0/82.6 79.7/79.7 86.9/88.8 92.1/92.1 53.0/89.1 16.2/44.1 68.1/79.4 768 81.0/82.1 80.1/80.1 84.8/86.2 91.2/91.2 51.0/88.8 15.5/42.0 67.3/78.4 768 81.5/83.5 79.5/79.5 86.5/88.5 91.8/91.8 51.8/89.2 16.2/43.8 67.9/79.4 768 81.0/82.6 79.7/79.7 86.9/88.8 92.1/92.1 53.0/89.1 16.2/44.1 68.1/79.4 0.19
BERT-12 SBERT-BASE-NLI BERT-12 SBERT-BASE-NLI 0.39
768 89.6/90.6 87.4/87.4 89.4/90.8 96.7/96.7 77.6/94.7 30.7/54.0 78.6/85.7 768 87.4/88.7 83.3/83.3 86.8/88.2 93.6/93.6 41.6/72.2 25.3/48.2 69.7/79.1 768 89.6/90.6 87.4/87.4 89.4/90.8 96.7/96.7 77.6/94.7 30.7/54.0 78.6/85.7 768 87.4/88.7 83.3/83.3 86.8/88.2 93.6/93.6 41.6/72.2 25.3/48.2 69.7/79.1 0.20
ROBERTA-12 SROBERTA-BASE-NLI ROBERTA-12 SROBERTA-BASE-NLI 0.39
768 90.0/90.8 90.1/90.1 89.1/90.6 96.3/96.3 95.1/99.2 34.0/57.6 82.4/87.4 768 87.6/88.6 86.3/86.3 86.8/88.8 94.6/94.6 52.4/80.6 23.7/53.5 72.7/82.1 768 90.0/90.8 90.1/90.1 89.1/90.6 96.3/96.3 95.1/99.2 34.0/57.6 82.4/87.4 768 87.6/88.6 86.3/86.3 86.8/88.8 94.6/94.6 52.4/80.6 23.7/53.5 72.7/82.1 0.20
GPT2-12 768 88.5/89.5 87.1/87.1 87.3/89.1 96.1/96.1 76.8/94.3 30.8/54.5 77.8/85.1 GPT2-12 768 88.5/89.5 87.1/87.1 87.3/89.1 96.1/96.1 76.8/94.3 30.8/54.5 77.8/85.1 0.34
Table 4: Comparison of the performance of different static embeddings on downstream tasks. 表4: 下流タスクにおける異なる静的埋め込みのパフォーマンスの比較。 0.77
All X2STATIC method performances which improve or are at par over all other static embedding methods and the best ASE layer on their parent model are shown in bold. すべてのx2staticメソッドのパフォーマンスは、他のすべての静的埋め込みメソッドと同等か同等か、親モデルにおける最高のase層を大胆に示します。 0.67
Best static embedding performance for each task is underlined. 各タスクの最高の静的埋め込み性能は下線である。 0.71
For each ASE method, the number in brackets indicates the layer with best average performance. 各ASEメソッドでは、ブラケット内の番号は、最も平均的なパフォーマンスを示す。 0.69
We use macro-F1 scores and accuracy as the metrics to gauge the performance of models on these downstream tasks. 我々は、これらの下流タスクにおけるモデルの性能を評価する指標としてマクロF1スコアと精度を用いる。 0.68
Note: Contextual embeddings for BERT-12, ROBERTA-12 and GPT2-12 in the SOTA section are also fine-tuned while SBERTBASE-NLI and SROBERTA-BASE-NLI are not. 注:SBERTBASE-NLIとSROBERTA-BASE-NLIがそうでない間、SOTA区間のBERT-12、ROBERTA-12、GPT2-12のコンテキスト埋め込みも微調整されている。 0.55
by a significant margin. For both word similarity evaluations and downstream supervised tasks, we observe that X2STATICpara embeddings perform slightly better than X2STATICsent embeddings. かなりの差で 単語類似度評価と下流教師付きタスクの両方において,X2STATICparaの埋め込みはX2STATICsentの埋め込みよりも若干優れていた。 0.42
However, since no hyperparameter tuning was performed on the distillation of X2STATIC embeddings, it is hard to discern which X2STATIC variant shows better performance. しかし,X2STATICの蒸留におけるハイパーパラメータチューニングは行わなかったため,X2STATICの変種が優れた性能を示すかどうかを判断することは困難である。 0.64
Moreover, owing to the same fact concerning hyperparameter tuning, we expect to さらに、ハイパーパラメータチューニングに関する同じ事実のため、我々は期待する。 0.66
see even larger improvements with proper hyperparameter tuning as well as training on larger data. 適切なハイパーパラメータチューニングと、より大きなデータでのトレーニングにより、さらに大きな改善が見られる。 0.64
5 Conclusion and Future Work 5 結論と今後の課題 0.79
to augment proposes へ augment 提案 0.71
earlier This work WORD2VEC-based methods leveraging recent more expressive deep contextual embedding models to extract static word embeddings. 先程、このWORD2VECベースの手法は、より表現力のあるより深い文脈埋め込みモデルを利用して静的な単語埋め込みを抽出する。
訳抜け防止モード: 先述のこの作業 WORD2VEC - 最近の表現力のある深層文脈埋め込みモデルを活用した手法 静的な単語の埋め込みを抽出します
0.55
The resulting distilled static embeddings, on an average, outperform their competitors on both unsupervised その結果、蒸留した静的埋め込みは、平均して、教師なしの両方の競合を上回っています。 0.34
by ところで 0.55
英語(論文から抽出)日本語訳スコア
as well downstream supervised evaluations and thus can be used to replace compute-heavy contextual embedding models (or existing static embedding models) at inference time in many compute-resource-lim ited applications. したがって、多くの計算リソース制限されたアプリケーションにおいて、推論時に計算量の多いコンテキスト埋め込みモデル(または既存の静的埋め込みモデル)を置き換えるために使用することができる。 0.63
The resulting embeddings can also be used as a task-agnostic tool to measure the lexical information conveyed by contextual embedding models and allow a fair comparison with their static analogues. 結果として得られる埋め込みは、文脈埋め込みモデルによって伝達される語彙情報を計測し、静的なアナログと公正に比較するためのタスク非依存のツールとしても使用できる。 0.61
Further work can explore extending this distillation framework into cross-lingual domains (Schwenk and Douze, 2017; Lample and Conneau, 2019) as well as using better pooling methods instead of simple averaging for obtaining the context representation, or joint fine-tuning to obtain even stronger static word embeddings. さらに、この蒸留フレームワークを言語間ドメイン(Schwenk and Douze, 2017; Lample and Conneau, 2019)に拡張することや、コンテキスト表現を得るための単純な平均化や、より強力な静的な単語埋め込みを得るための共同微調整ではなく、より良いプーリング手法を使用することも検討できる。 0.61
Another promising avenue is the use of a similar approach to learn sense embeddings from contextual embedding models. もう1つの有望な道は、コンテキスト埋め込みモデルから感覚埋め込みを学ぶために同様のアプローチを使うことである。 0.59
We would also like to investigate the performance of these embeddings when distilled on a larger corpus along with more extensive hyperparameter tuning. さらに、より広範なハイパーパラメータチューニングとともに、より大きなコーパスに蒸留した場合の埋め込みのパフォーマンスについても調査したいと思います。
訳抜け防止モード: 私たちも より広範なハイパーパラメータチューニングと共に、より大きなコーパスに蒸留した場合にこれらの埋め込みの性能を調べる。
0.66
Last but not the least, we would like to release X2STATIC models for different languages for further public use. 最後に、さらに広く利用するために、さまざまな言語用のx2staticモデルをリリースしたいと思います。 0.65
References Eneko Agirre, Enrique Alfonseca, Keith B. Eneko Agirre, Enrique Alfonseca, Keith Bを参照。 0.85
Hall, Jana Kravalova, Marius Pasca, and Aitor Soroa. Hall、Jana Kravalova、Marius Pasca、Aitor Soroa。 0.64
2009. A study on similarity and relatedness using distriIn HLTbutional and wordnet-based approaches. 2009. distriin hltbutional と wordnet によるアプローチによる類似性と関連性の検討 0.80
NAACL. Israa Alghanmi, Luis Espinosa Anke, and Steven Schockaert. naacl。 Israa Alghanmi、Luis Espinosa Anke、Steven Schockaert。 0.59
2020. Combining BERT with Static Word Embeddings for Categorizing Social Media. 2020. ソーシャルメディア分類のためのBERTと静的単語埋め込みの組み合わせ 0.75
In Proceedings of the Sixth Workshop on Noisy Usergenerated Text (W-NUT 2020), pages 28–33. The Sixth Workshop on Noisy User generated Text (W-NUT 2020)において、28-33頁。 0.77
L. Barsalou. L. Barsalou 0.76
1982. Context-independent and contextdependent information in concepts. 1982. 概念における文脈非依存および文脈依存情報。 0.69
Memory & Cognition, 10:82–93. メモリ&コグニション 10:82-93。 0.55
Piotr Bojanowski, Edouard Grave, Armand Joulin, and Tomas Mikolov. Piotr Bojanowski、Edouard Grave、Armand Joulin、Tomas Mikolov。 0.65
2016. Enriching word vectors with subword information. 2016. 単語ベクトルをサブワード情報で強化する。 0.75
Transactions of the Association for Computational Linguistics, 5:135–146. 計算言語学会(Association for Computational Linguistics) 5:135–146。 0.64
Rishi Bommasani, Kelly Davis, and Claire Cardie. リシ・ボンマシーニ、ケリー・デイビス、クレア・カーディー。 0.48
Interpreting pretrained contextualized repreIn 事前訓練されたコンテクスト化レプリリンの解釈 0.39
2020. sentations via reductions to static embeddings. 2020年 静的埋め込みへの 送信を減らします 0.71
ACL. Samuel R Bowman, Gabor Angeli, Christopher Potts, and Christopher D Manning. ACL。 サミュエル・R・ボウマン、ガボル・アンジェリ、クリストファー・ポッツ、クリストファー・D・マニング。 0.59
2015. A large annotated corpus for learning natural language inference. 2015. 自然言語推論を学ぶための大きな注釈付きコーパス。 0.79
In EMNLP. Kevin Clark, Minh-Thang Luong, Quoc V. Le, and Christopher D. Manning. EMNLP。 Kevin Clark、Minh-Thang Luong、Quoc V. Le、Christopher D. Manning。 0.69
2020. ELECTRA: pretraining text encoders as discriminators rather than generators. 2020. ELECTRA: テキストエンコーダをジェネレータではなく識別器としてトレーニングする。 0.70
In ICLR. Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. ICLR。 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova 0.64
2019. BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. 2019. BERT: 言語理解のための双方向変換器の事前学習。 0.76
In NAACL-HLT. NAACL-HLT所属。 0.58
Kawin Ethayarajh. Kawin Ethayarajh 0.55
2019. How contextual are contextualized word representations? 2019. 文脈化された単語表現はどの程度文脈的か? 0.65
comparing the geometry of BERT, ELMo, and GPT-2 embeddings. BERT、ELMo、GPT-2の埋め込みの幾何学の比較。 0.65
In EMNLP-IJCNLP - Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pages 55–65. In EMNLP-IJCNLP - Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, page 55–65。 0.95
ACL. T. Farrell, ACL。 T. Farrell 0.80
´Oscar Araque, Miriam Fern´andez, and H. Alani. Oscar Araque, Miriam Fern ́andez, H. Alani 0.78
2020. On the use of jargon and word embeddings to explore subculture within the reddit’s manosphere. 2020. redditのマノスフィア内でサブカルチャーを探求するために、jargonとword embeddedsの使用について。 0.69
12th ACM Conference on Web Science. 第12回 acm conference on web science 参加報告 0.68
Manaal Faruqui, Yulia Tsvetkov, Pushpendre Rastogi, and Chris Dyer. Manaal Faruqui、Yulia Tsvetkov、Pushpendre Rastogi、Chris Dyer。 0.67
2016. Problems with evaluation of word embeddings using word similarity tasks. 2016. 単語類似度課題を用いた単語埋め込み評価の問題点 0.77
In RepEval@ACL. RepEval@ACL。 0.64
J. R. Firth. 1957. J・R・ファース。 1957. 0.68
A synopsis of linguistic theory, 1930- 言語理論の総合論 : 1930年 0.78
1955. Daniela Gerz, Ivan Vuli´c, Felix Hill, Roi Reichart, and Anna Korhonen. 1955. Daniela Gerz、Ivan Vuli ́c、Felix Hill、Roi Reichart、Anna Korhonen。 0.81
2016. Simverb-3500: A largescale evaluation set of verb similarity. 2016. Simverb-3500: 動詞類似性の大規模な評価セット。 0.82
In Proceedings of the 2016 Conference on Empirical Methods in Natural Language Processing, pages 2173–2182. 自然言語処理における経験的手法に関する2016年会議の議題2173-2182頁。 0.74
Hila Gonen and Yoav Goldberg. Hila GonenとYoav Goldberg。 0.81
2019. Lipstick on a pig: Debiasing methods cover up systematic gender biases in word embeddings but do not remove them. 2019. lipstick on a pig: debiasing methodsは、単語埋め込みにおける体系的な性別バイアスをカバーしているが、それらを取り除くことはない。 0.73
In NAACL-HLT. NAACL-HLT所属。 0.58
Joshua Gordon, Marzieh Babaeianjelodar, and Jeanna Matthews. Joshua Gordon、Marzieh Babaeianjelodar、Jeanna Matthews。 0.67
2020. Studying political bias via word In WWW ’20 - Companion Proceedembeddings. 2020. In WWW'20 - Companion Proceedembeddings。 0.57
ings of the Web Conference 2020, page 760–764. Web Conference 2020, page 760–764. 0.75
Prakhar Gupta, Matteo Pagliardini, and Martin Jaggi. prakhar gupta氏、matteo pagliardini氏、martin jaggi氏。 0.69
2019. Better word embeddings by disentangling contextual n-gram information. 2019. 文脈n-gram情報を分離することで単語の埋め込みを改善する。 0.67
In NAACL-HLT. NAACL-HLT所属。 0.58
Felix Hill, Roi Reichart, and Anna Korhonen. Felix Hill、Roi Reichart、Anna Korhonen。 0.65
2014. Simlex-999: Evaluating semantic models with (genuine) similarity estimation. 2014. Simlex-999: (genuine) 類似度推定による意味モデルの評価。 0.81
Computational Linguistics, 41:665–695. 計算言語学、41:665-695。 0.50
Minqing Hu and Bing Liu. Minqing HuとBing Liu。 0.74
2004. Mining and summarizing customer reviews. 2004. 顧客レビューのマイニングと要約。 0.77
In Proceedings of the tenth ACM SIGKDD international conference on Knowledge discovery and data mining, pages 168–177. 第10回知識発見とデータマイニングに関するACM SIGKDD国際会議Proceedings of the 10th ACM SIGKDD, page 168–177。
訳抜け防止モード: 第10回ACM SIGKDD国際会議「知識発見とデータマイニング」の開催報告 168-177頁。
0.77
ACM. ACM。 0.80
英語(論文から抽出)日本語訳スコア
Colette Joubarne and Diana Inkpen. Colette JoubarneとDiana Inkpen。 0.70
2011. Comparison of semantic similarity for different languages using the google n-gram corpus and second-order coIn Canadian Conference on occurrence measures. 2011. google n-gramコーパスと2次coin canadian conference on occurrence measuresを用いた異なる言語における意味的類似性の比較 0.80
AI. Thomas Manzini, Lim Yao Chong, Alan W. Black, and Yulia Tsvetkov. AI。 Thomas Manzini, Lim Yao Chong, Alan W. Black, Yulia Tsvetkov 0.75
2019. Black is to criminal as caucasian is to police: Towards detecting, evaluating and removing multiclass bias in word embeddings. 2019. ブラックは犯罪であり、コーカシアンは警察である: 単語埋め込みにおける多クラスバイアスの検出、評価、除去である。 0.77
In NAACL 2019. NAACL 2019に参加。 0.85
Masahiro Kaneko and Danushka Bollegala. カネコ正弘とダヌシュカ・ボレガラ。 0.36
2019. Gender-preserving debiasing for pre-trained word In Proceedings of the 57th Annual embeddings. 2019. 第57回年次埋込み手続における前訓練単語のジェンダー保存デバイアス 0.77
Meeting of the Association for Computational Linguistics, pages 1641–1650, Florence, Italy. The Association for Computational Linguistics, page 1641–1650, イタリア・フィレンツェ。 0.73
ACL. Timothee Mickus, Denis Paperno, Mathieu Constant, and Kees van Deemter. ACL。 Timothee Mickus、Denis Paperno、Mathieu Constant、Kees van Deemter。 0.75
2020. What do you mean, BERT? 2020. BERTってどういうこと? 0.73
Assessing BERT as a Distributional Semantics Model. 分布意味論モデルとしてのBERTの評価 0.56
Proceedings of the Society for Computation in Linguistics, 3(1):350–361. The Society for Computation in Linguistics, 3(1):350–361 0.78
Ilknur Karadeniz and Arzucan ¨Ozg¨ur. Ilknur Karadeniz(英語版)とArzucan(英語版)。 0.41
2019. Linking entities through an ontology using word embeddings and syntactic re-ranking. 2019. 単語埋め込みと構文再構成を用いたオントロジーによるエンティティのリンク。 0.77
BMC Bioinformatics, 20. BMCバイオインフォマティクス、20。 0.74
Diederik P Kingma and Jimmy Ba. dieerik p kingmaとjimmy ba。 0.65
2015a. Adam: A 2015年。 Adam: A 0.80
method for stochastic optimization. 確率最適化の方法です 0.71
In ICLR. Diederik P. Kingma and Jimmy Ba. ICLR。 dieerik p. kingmaとjimmy ba。 0.63
2015b. Adam: A method for stochastic optimization. 2015年。 Adam: 確率最適化の方法です。 0.65
In ICLR - International Conference on Learning Representations. iclr - international conference on learning representations(英語) 0.70
Guillaume Lample and Alexis Conneau. Guillaume LampleとAlexis Conneau。 0.78
2019. CrossIn NeurIPS lingual language model pretraining. 2019. CrossIn NeurIPS言語モデルの事前トレーニング。 0.83
2019 - Advances in Neural Information Processing Systems. 2019年 - 神経情報処理システムの進歩。 0.77
Guillaume Lample, Alexis Conneau, Marc’Aurelio Ranzato, Ludovic Denoyer, and Herv´e J´egou. Guillaume Lample, Alexis Conneau, Marc’Aurelio Ranzato, Ludovic Denoyer, Herv ́e J ́egou。 0.91
2018. In InternaWord translation without parallel data. 2018. 並列データなしの語間翻訳です 0.80
tional Conference on Learning Representations. 対訳 表現の学習に関する会議。 0.67
Omer Levy, Y. Goldberg, and I. Dagan. Omer Levy、Y. Goldberg、I. Dagan。 0.86
2015. Improving distributional similarity with lessons learned from word embeddings. 2015. 単語埋め込みから学んだ教訓による分布類似性の改善 0.80
Transactions of the Association for Computational Linguistics, 3:211–225. Association for Computational Linguistics, 3:211–225。 0.78
Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, and Veselin Stoyanov. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov。 0.80
2019. Roberta: A robustly optimized bert pretraining approach. 2019. roberta: 堅牢に最適化されたbertプリトレーニングアプローチ。 0.73
ArXiv, abs/1907.11692. ArXiv, abs/1907.11692。 0.61
Li Lucy, Dorottya Demszky, Patricia Bromley, and Dan Jurafsky. Li Lucy、Dorottya Demszky、Patricia Bromley、Dan Jurafsky。 0.72
2020. Content analysis of textbooks via natural language processing: Findings on gender, race, and ethnicity in texas u.s. history textbooks. 2020. 自然言語処理による教科書の内容分析:テキサスの歴史教科書におけるジェンダー、人種、民族に関する知見 0.80
AERA Open, 6. AERA Open, 6thシングル。 0.69
Thang Luong, Richard Socher, and Christopher D. Manning. Thang Luong、Richard Socher、Christopher D. Manning。 0.77
2013. Better word representations with recursive neural networks for morphology. 2013. 形態学のための再帰的ニューラルネットワークによるより良い単語表現。 0.71
In CoNLL. Andr´es Alejandro Ramos Magna, H´ector Allende-Cid, Carla Taramasco, C. Becerra, and R. Figueroa. CoNLL。 Andr ́es Alejandro Ramos Magna, H ́ector Allende-Cid, Carla Taramasco, C. Becerra, R. Figueroa 0.69
2020. Application of machine learning and word embeddings in the classification of cancer diagnosis using patient anamnesis. 2020. 患者アナムネシスを用いたがん診断分類における機械学習と単語埋め込みの応用 0.78
IEEE Access, 8:106198–106213. IEEE Access, 8:106198–106213。 0.67
Christopher D. Manning, Mihai Surdeanu, John Bauer, Jenny Rose Finkel, Steven Bethard, and David McClosky. Christopher D. Manning、Mihai Surdeanu、John Bauer、Jenny Rose Finkel、Steven Bethard、David McClosky。 0.79
2014. The Stanford CoreNLP Natural Language Processing Toolkit. 2014. Stanford CoreNLP Natural Language Processing Toolkit の略。 0.86
In ACL. Tomas Mikolov, Kai Chen, Gregory S. Corrado, and Jeffrey Dean. ACL。 Tomas Mikolov、Kai Chen、Gregory S. Corrado、Jeffrey Dean。 0.64
2013. Efficient estimation of word representations in vector space. 2013. ベクトル空間における単語表現の効率的推定 0.84
In ICLR - International Conference on Learning Representations. iclr - international conference on learning representations(英語) 0.70
Matteo Pagliardini, Prakhar Gupta, and Martin Jaggi. matteo pagliardini氏、prakhar gupta氏、martin jaggi氏。 0.73
2018. Unsupervised learning of sentence embeddings using compositional n-gram features. 2018. 合成n-gram特徴を用いた文埋め込みの教師なし学習 0.72
In NAACL-HLT. NAACL-HLT所属。 0.58
Bo Pang and Lillian Lee. ボ・パンとリリアン・リー。 0.46
2004. A sentimental education: Sentiment analysis using subjectivity summarization based on minimum cuts. 2004. 感情教育:最小カットに基づく主観的要約を用いた感性分析 0.79
In Proceedings of the 42nd annual meeting on Association for Computational Linguistics, page 271. 第42回計算言語学会年次大会、271頁。 0.43
Association for Computational Linguistics. Bo Pang and Lillian Lee. 計算言語学会会員。 ボ・パンとリリアン・リー。 0.49
2005. Seeing stars: Exploiting class relationships for sentiment categorization with respect to rating scales. 2005. 星を見る: 評価尺度に対する感情分類のためのクラス関係の爆発。 0.82
In Proceedings of the 43rd annual meeting on association for computational linguistics, pages 115–124. 第43回計算言語学協会年次大会の論文115-124頁。 0.59
Association for Computational Linguistics. Jeffrey Pennington, Richard Socher, and Christopher D. Manning. 計算言語学会会員。 ジェフリー・ペニントン、リチャード・ソッチャー、クリストファー・d・マニング。 0.54
2014. Glove: Global vectors for word representation. 2014. glove: 単語表現のためのグローバルベクトル。 0.84
In EMNLP. Matthew Peters, Mark Neumann, Mohit Iyyer, Matt Gardner, Christopher Clark, Kenton Lee, and Luke Zettlemoyer. EMNLP。 マシュー・ピーターズ、マーク・ノイマン、モヒト・アイイヤー、マット・ガードナー、クリストファー・クラーク、ケントン・リー、ルーク・ゼトルモイヤー。 0.56
2018. Deep contextualized word representations. 2018. 文脈化された単語表現。 0.69
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 2227– 2237, New Orleans, Louisiana. The 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), page 2227–2237, New Orleans, Louisiana 0.74
ACL. Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, and Ilya Sutskever. ACL。 Alec Radford, Jeffrey Wu, Rewon Child, David Luan, Dario Amodei, Ilya Sutskever 0.78
2019. Language models are unsupervised multitask learners. 2019. 言語モデルは教師なしマルチタスク学習者である。 0.72
Nils Reimers and Iryna Gurevych. Nils ReimersとIryna Gurevych。 0.81
2019. SentenceBERT: Sentence embeddings using Siamese BERTnetworks. 2019. SentenceBERT: Siamese BERTnetworksを使用した文の埋め込み。 0.78
In EMNLP-IJCNLP - Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pages 3982–3992, Hong Kong, China. In EMNLP-IJCNLP - Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, page 3982–3992, Hong Kong, China。 0.93
ACL. L. Rheault and C. Cochrane. ACL。 L. RheaultとC. Cochrane。 0.84
2020. Word embeddings for the analysis of ideological placement in parliamentary corpora. 2020. 議会コーパスにおけるイデオロギー配置の分析のための単語埋め込み 0.78
Political Analysis, 28:112–133. 政治分析、28:112-133。 0.54
英語(論文から抽出)日本語訳スコア
Quentin Lhoest, and Alexander Rush. クエンティン・ロエストと アレクサンドル・ラッシュ 0.49
2020. Transformers: State-of-the-art natural language processIn EMNLP - Proceedings of the 2020 Coning. 2020. Transformers: 最先端の自然言語プロセスEMNLP - 2020 Coningの成果。 0.81
ference on Empirical Methods in Natural Language Processing: System Demonstrations, pages 38–45, Online. 自然言語処理における経験的手法に関する参照:システムデモ、38-45ページオンライン。 0.72
ACL. Yijia Zhang, Qingyu Chen, Z. Yang, H. Lin, and Zhiyong Lu. ACL。 Yijia Zhang, Qingyu Chen, Z. Yang, H. Lin, Zhiyong Lu 0.80
2019. Biowordvec, improving biomedical word embeddings with subword information and mesh. 2019. biowordvec, サブワード情報とメッシュによる生体医学的単語埋め込みの改善 0.80
Scientific Data, 6. Zhe Zhao, Tao Liu, Shen Li, Bofang Li, and Xiaoyong Du. 科学データ6。 Zhe Zhao, Tao Liu, Shen Li, Bofang Li, Xiaoyong Du 0.64
2017. Ngram2vec: Learning improved word representations from ngram co-occurrence statistics. 2017. Ngram2vec: ngram共起統計から改善された単語表現。 0.81
In EMNLP. Anna Rogers, Olga Kovaleva, and Anna Rumshisky. EMNLP。 アンナ・ロジャース、オルガ・コヴァレヴァ、アンナ・ラムスキー。 0.56
2020. A primer in bertology: What we know about how bert works. 2020. bertologyのプライマー:bertの仕組みについて分かっていること。 0.70
Transactions of the Association for Computational Linguistics, 8:842–866. association for computational linguistics, 8:842–866を参照。 0.75
Paula Rubio-Fern´andez. パウラ・ルビオ=フェルン(Paula Rubio-Fern)。 0.23
2008. Concept narrowing: The role of context-independent information. 2008. 概念絞り込み: 文脈に依存しない情報の役割。 0.80
J. Semant., 25:381–409. J。 背番号25:381-409。 0.54
Holger Schwenk and Matthijs Douze. Holger Schwenk氏とMatthijs Douze氏。 0.76
2017. Learning joint multilingual sentence representations with In Proceedings of the neural machine translation. 2017. In Proceedings of the Neural Machine Translationによる多言語文表現の学習 0.79
2nd Workshop on Representation Learning for NLP, pages 157–167, Vancouver, Canada. 2nd Workshop on Representation Learning for NLP, page 157–167, Canada, Vancouver. 0.98
ACL. Philippa Shoemark, Farhana Ferdousi Liza, Dong Nguyen, Scott Hale, and Barbara McGillivray. ACL。 Philippa Shoemark, Farhana Ferdousi Liza, Dong Nguyen, Scott Hale, Barbara McGillivray 0.76
2019. Room to Glo: A systematic comparison of semantic change detection approaches with word embeddings. 2019. room to glo: 意味変化検出アプローチと単語埋め込みの体系的な比較。 0.77
In EMNLP-IJCNLP - Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, pages 66–76, Hong Kong, China. In EMNLP-IJCNLP - Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing, page 66-76, Hong Kong, China 0.90
ACL. R. Socher, Alex Perelygin, J. Wu, Jason Chuang, Christopher D. Manning, A. Ng, and Christopher Potts. ACL。 R. Socher、Alex Perelygin、J. Wu、Jason Chuang、Christopher D. Manning、A. Ng、Christopher Potts。 0.84
2013. Recursive deep models for semantic compositionality over a sentiment treebank. 2013. 感情木バンク上の意味的構成性の再帰的深部モデル 0.74
In EMNLP. Charles Spearman. EMNLP。 チャールズ・スピアマン。 0.62
1904. The proof and measurement of association between two things. 1904. 2つの事柄間の関係の証明と測定。 0.83
The American journal of psychology, 15(1):72–101. The American Journal of Psycho, 15(1):72–101 0.81
Emma Strubell, Ananya Ganesh, and Andrew McCallum. Emma Strubell、Ananya Ganesh、Andrew McCallum。 0.70
2019. Energy and Policy Considerations for Deep Learning in NLP. 2019. NLPにおける深層学習のためのエネルギー・政策考察 0.84
In ACL. Ellen M Voorhees. ACL。 Ellen M Voorhees 0.59
2002. Overview of the TREC 2001 question answering track. 2002. TREC 2001 質問応答トラックの概要 0.69
In NIST special publication, pages 42–51. NISTの特別版では42-51頁。 0.67
Ivan Vulic, Sebastian Ruder, and Anders Søgaard. Ivan Vulic、Sebastian Ruder、Anders Søgaard。 0.67
2020. Are all good word vector spaces isomorphic? 2020. すべてのグッドワードベクトル空間は同型か? 0.79
In EMNLP. Janyce Wiebe, Theresa Wilson, and Claire Cardie. EMNLP。 Janyce Wiebe、Teresa Wilson、Claire Cardie。 0.56
2005. Annotating expressions of opinions and emotions in language. 2005. 言語における意見と感情の表現。 0.81
Language resources and evaluation, 39(2):165–210. 言語資源と評価、39(2):165-210。 0.72
Adina Williams, Nikita Nangia, and Samuel Bowman. アディナ・ウィリアムズ、ニキータ・ナンギア、サミュエル・ボウマン。 0.51
2018. A broad-coverage challenge corpus for sentence understanding through inference. 2018. 推論による文理解のための広範にわたるチャレンジコーパス 0.73
In Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies, Volume 1 (Long Papers), pages 1112–1122. the association for computational linguistics: human language technologies, volume 1 (long papers, pages 1112–1122) 2018年北アメリカ支部の議事録。 0.70
Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame, Thomas Wolf, Lysandre Debut, Victor Sanh, Julien Chaumond, Clement Delangue, Anthony Moi, Pierric Cistac, Tim Rault, Remi Louf, Morgan Funtowicz, Joe Davison, Sam Shleifer, Patrick von Platen, Clara Ma, Yacine Jernite, Julien Plu, Canwen Xu, Teven Le Scao, Sylvain Gugger, Mariama Drame 0.84
英語(論文から抽出)日本語訳スコア
A Comparison of multiple downstream runs 複数の下流部の比較 走る 0.71
Average Mean F1 / Acc. 平均 略称F1/Acc。 0.70
Embeddings \Task 埋め込み \Task 0.71
67.0 ± 0.2/78.1 ± 0.2 ASE - BERT-12 (5) 68.3 ± 0.3/79.9 ± 0.2 BERT2STATICpara ASE - ROBERTA-12 (2) 67.0 ± 0.2/78.2 ± 0.3 67.9 ± 0.2/79.6 ± 0.3 ROBERTA2STATICpara 67.4 ± 0.3/78.3 ± 0.3 68.4 ± 0.2/80.0 ± 0.4 67.0 ± 0.2/78.1 ± 0.2 ASE - BERT-12 (5) 68.3 ± 0.3/79.9 ± 0.2 BERT2STATICpara ASE - ROBERTA-12 (2) 67.0 ± 0.2/78.2 ± 0.3 67.9 ± 0.2/79.6 ± 0.3 ROBERTA2STATICpara 67.4 ± 0.3/78.3 ± 0.3 68.4 ± 0.2/80.0 ± 0.4 0.47
ASE - GPT2-12 (4) GPT22STATICpara ASE - GPT2-12 (4) GPT22StaTICpara 0.72
Table 5: Comparison of the overall performance of X2STATICpara with ASE on downstream tasks. 表5: 下流タスクにおけるX2STATICparaとASEの全体的なパフォーマンスの比較。 0.80
Mean and standard deviation of performance on each task over six runs is shown. 各タスクにおける6つの実行に対するパフォーマンスの平均と標準偏差を示す。 0.76
B Experiments on larger models In addition to the smaller 12-layer contextual embedding models, we also obtain X2STATIC word vectors from larger 24-layer contextual embedding models, once again outperforming their ASE counterparts by a significant margin. B より大きなモデルに対する実験 より小さな12層コンテキスト埋め込みモデルに加えて、大きな24層コンテキスト埋め込みモデルからX2STATICワードベクトルを得る。
訳抜け防止モード: B より大きなモデルの実験 12 層のコンテキスト埋め込みモデルに加えて。 また、より大規模な24層のコンテキスト埋め込みモデルからX2STATICワードベクトルを得る。 ASEは再び大きな差で 上回っています
0.76
The evaluation results can be accessed in the Table 6. 評価結果はテーブル6にアクセスできる。 0.61
英語(論文から抽出)日本語訳スコア
Model \ Distilled Model Model \ 蒸留モデル 0.78
Existing models FASTTEXT GLOVE Models trained by us SKIPGRAM CBOW SENT2VEC Models distilled by us ASE - best layer per task ASE - best overall layer BERT2STATICsent BERT2STATICpara 既存モデル SKIPGRAM CBOW SENT2VEC Models distilled by us ASE - Best Layer per task ASE - Best overall layer BERT2StaTICpara 0.70
Parent Model \ Other details 親モデル その他の詳細 0.86
Size of the training corpus relative to ours 12x 650x 大きさ ours 12x 650xに対するトレーニングコーパス 0.64
N.A. N.A. N.A. N.A. N.A. N.A. 0.71
Parent Model BERT-12 BERT-12 BERT-12 BERT-12 親モデル BERT-12 BERT-12 BERT-12 BERT-12 0.54
300 300 768 768 768 300 300 768 768 768 0.85
768 768 768 768 768 768 768 768 0.85
Dim. RG-65 うーん。 RG-65 0.48
WS-353 SL-999 WS-353 SL-999 0.59
SV-3500 RW-2034 Average SV-3500 RW-2034 平均値 0.50
0.7669 0.6442 0.7669 0.6442 0.50
0.596 0.5791 0.596 0.5791 0.50
0.416 0.3764 0.416 0.3764 0.50
0.3274 0.2625 0.3274 0.2625 0.50
0.5226 0.4607 0.5226 0.4607 0.50
0.5276 0.4646 0.5276 0.4646 0.50
0.8259 0.8348 0.7811 0.8259 0.8348 0.7811 0.47
0.7141 0.4999 0.7407 0.7141 0.4999 0.7407 0.47
0.4064 0.4097 0.5034 0.4064 0.4097 0.5034 0.47
0.2722 0.2626 0.3297 0.2722 0.2626 0.3297 0.47
0.4849 0.4043 0.4248 0.4849 0.4043 0.4248 0.47
0.5407 0.4823 0.55594 0.5407 0.4823 0.55594 0.47
0.7449(1) 0.6948(3) 0.7421 0.7555 0.7449(1) 0.6948(3) 0.7421 0.7555 0.68
0.7012(1) 0.6768(3) 0.7297 0.7598 0.7012(1) 0.6768(3) 0.7297 0.7598 0.68
0.5216(4) 0.5195(3) 0.5461 0.5384 0.5216(4) 0.5195(3) 0.5461 0.5384 0.68
0.4151(5) 0.3889(3) 0.4437 0.4317 0.4151(5) 0.3889(3) 0.4437 0.4317 0.68
0.4577(5) 0.4343(3) 0.5469 0.5299 0.4577(5) 0.4343(3) 0.5469 0.5299 0.68
ASE - best layer per task BERT-24 ASE - best task independent layer BERT-24 BERT2STATICsent BERT-24 BERT-24 BERT2STATICpara ASE - タスク毎の最高層 BERT-24 ASE - タスク独立層 BERT-24 BERT2Staticsent BERT-24 BERT-24 BERT2StaTICpara 0.66
1024 0.7745(9) 1024 0.7677(7) 1024 0.8031 0.8085 1024 1024 0.7745(9) 1024 0.7677(7) 1024 0.8031 0.8085 1024 0.77
0.7267(6) 0.5404(15) 0.4364(10) 0.4735(6) 0.4665(7) 0.7052(7) 0.5595 0.7239 0.5504 0.7652 0.7267(6) 0.5404(15) 0.4364(10) 0.4735(6) 0.4665(7) 0.7052(7) 0.5595 0.7239 0.5504 0.7652 0.70
0.5209(7) 0.5675 0.5607 0.5209(7) 0.5675 0.5607 0.63
0.4307(7) 0.4692 0.4543 0.4307(7) 0.4692 0.4543 0.63
ASE - best layer per task ASE - best overall layer ROBERTA2STATICsent ROBERTA2STATICpara ASE - タスク毎の最高のレイヤ ASE - 全体層 ROBERTA2 スタティックパラ ROBERTA2 スタティック 0.67
ROBERTA-12 ROBERTA-12 ROBERTA-12 ROBERTA-12 ロベルタ-12 ロベルタ-12 ロベルタ12 0.41
768 768 768 768 768 768 768 768 0.85
0.673(0) 0.673(0) 0.7999 0.8057 0.673(0) 0.673(0) 0.7999 0.8057 0.68
0.7023(0) 0.7023(0) 0.7452 0.7638 0.7023(0) 0.7023(0) 0.7452 0.7638 0.68
0.554(5) 0.5167(0) 0.5507 0.5544 0.554(5) 0.5167(0) 0.5507 0.5544 0.68
0.4602(4) 0.4424(0) 0.4658 0.4717 0.4602(4) 0.4424(0) 0.4658 0.4717 0.68
ASE - best layer per task ROBERTA-24 ASE - best task independent layer ROBERTA-24 ROBERTA2STATICsent ROBERTA-24 ROBERTA-24 ROBERTA2STATICpara ASE - タスク毎の最高層 ROBERTA-24ASE - タスク独立層 ROBERTA-24 ROBERTA2 スタント ROBERTA-24 ROBERTA-24 ROBERTA2 スタントパラ 0.58
1024 0.6782(8) 1024 0.6738(6) 1024 0.7677 0.7939 1024 1024 0.6782(8) 1024 0.6738(6) 1024 0.7677 0.7939 1024 0.77
0.6736(6) 0.5526(18) 0.4571(9) 0.4571(9) 0.6270(9) 0.7336 0.4576 0.4663 0.7523 0.6736(6) 0.5526(18) 0.4571(9) 0.4571(9) 0.6270(9) 0.7336 0.4576 0.4663 0.7523 0.68
0.5437(9) 0.5397 0.5476 0.5437(9) 0.5397 0.5476 0.63
ASE - best layer per task ASE - best overall layer GPT22STATICsent GPT22STATICpara ASE - best layer per task GPT2-24 ASE - best task independent layer GPT2-24 ase - best layer per task ase - best overall layer gpt22staticsent gpt22staticpara ase - best layer per task gpt2-24 ase - best task independent layer gpt2-24 0.70
GPT2-12 GPT2-12 GPT2-12 GPT2-12 gpt2-12 gpt2-12 gpt2-12 0.31
768 768 768 768 768 768 768 768 0.85
0.7013(1) 0.6833(2) 0.7484 0.7881 0.7013(1) 0.6833(2) 0.7484 0.7881 0.68
0.6879(0) 0.6560(2) 0.7151 0.7267 0.6879(0) 0.6560(2) 0.7151 0.7267 0.68
0.4972(2) 0.4972(2) 0.5397 0.5417 0.4972(2) 0.4972(2) 0.5397 0.5417 0.68
0.3905(2) 0.3905(2) 0.4676 0.4733 0.3905(2) 0.3905(2) 0.4676 0.4733 0.68
1024 0.6574(1) 0.6957(0) 0.4988(13) 0.4226(12) 0.4566(12) 0.5155(13) 1024 0.5773(13) 0.6242(13) 0.4988(13) 0.4210(13) 0.4561(13) 0.5155(13) 1024 0.6574(1) 0.6957(0) 0.4988(13) 0.4226(12) 0.4566(12) 0.5155(13) 1024 0.5773(13) 0.6242(13) 0.4988(13) 0.4210(13) 0.4561(13) 0.5155(13) 0.80
GPT22STATICsent GPT22STATICpara gpt22staticsent gpt22staticpara 0.35
GPT2-24 GPT2-24 GPT2-24 GPT2-24 0.39
1024 1024 0.7815 0.7907 1024 1024 0.7815 0.7907 0.68
0.7311 0.7331 0.7311 0.7331 0.50
0.5537 0.5488 0.5537 0.5488 0.50
0.4774 0.4850 0.4774 0.4850 0.50
0.5939 0.5828 0.5939 0.5828 0.50
0.6275 0.6281 0.6275 0.6281 0.50
Table 6: Comparison of the performance of different embedding methods on word similarity tasks. 表6: 単語類似性タスクにおける異なる埋め込みメソッドのパフォーマンスの比較。 0.84
Models are compared using Spearman correlation for word similarity tasks. 単語類似性タスクのスピアマン相関を用いてモデルを比較する。 0.66
All X2STATIC method performances which improve over all ASE methods on their parent model as well as all static models are shown in bold. すべてのX2STATICメソッドのパフォーマンスは、親モデル上のすべてのASEメソッドと、すべての静的モデルを大胆に示す。 0.77
Best performance in each task is underlined. 各タスクにおける最高のパフォーマンスは下線で表現される。 0.53
For all ASE methods, the number in parentheses for each dataset indicates which layer was used for obtaining the static embeddings. すべてのASEメソッドに対して、各データセットの括弧の数は、静的な埋め込みを得るためにどの層が使われたかを示す。 0.65
0.5429(3) 0.5429(3) 0.6017 0.6031 0.5429(3) 0.5429(3) 0.6017 0.6031 0.68
0.5782(7) 0.5782(7) 0.6247 0.6278 0.5782(7) 0.5782(7) 0.6247 0.6278 0.68
0.5600(0) 0.5600(0) 0.6222 0.6291 0.5600(0) 0.5600(0) 0.6222 0.6291 0.68
0.5680(9) 0.5680(9) 0.6141 0.6268 0.5680(9) 0.5680(9) 0.6141 0.6268 0.68
0.5365(2) 0.5365(2) 0.6094 0.6193 0.5365(2) 0.5365(2) 0.6094 0.6193 0.68
0.5075(3) 0.4657(0) 0.5496 0.5501 0.5075(3) 0.4657(0) 0.5496 0.5501 0.68
0.5385(9) 0.5385(9) 0.5720 0.5739 0.5385(9) 0.5385(9) 0.5720 0.5739 0.68
0.4556(2) 0.4556(2) 0.5760 0.5668 0.4556(2) 0.4556(2) 0.5760 0.5668 0.68
                           ページの最初に戻る

翻訳にはFugu-Machine Translatorを利用しています。