論文の概要: Why Overfitting Isn't Always Bad: Retrofitting Cross-Lingual Word
Embeddings to Dictionaries
- arxiv url: http://arxiv.org/abs/2005.00524v1
- Date: Fri, 1 May 2020 17:56:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-07 23:01:39.294885
- Title: Why Overfitting Isn't Always Bad: Retrofitting Cross-Lingual Word
Embeddings to Dictionaries
- Title(参考訳): オーバーフィットが必ずしも悪いことではない理由: 辞書への言語間埋め込みを補足する
- Authors: Mozhi Zhang, Yoshinari Fujinuma, Michael J. Paul, Jordan Boyd-Graber
- Abstract要約: 言語間単語埋め込みはバイリンガル語彙誘導(BLI)でしばしば評価される
最近のCLWE法では、トレーニング辞書に不適合な線形射影を用いてBLIを一般化している。
CLWEをトレーニング辞書に再適合させることにより、この制限に対処し、学習用翻訳ペアを埋め込み空間に近づけ、トレーニング用辞書に過度に適合させる。
- 参考スコア(独自算出の注目度): 21.574247575545332
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cross-lingual word embeddings (CLWE) are often evaluated on bilingual lexicon
induction (BLI). Recent CLWE methods use linear projections, which underfit the
training dictionary, to generalize on BLI. However, underfitting can hinder
generalization to other downstream tasks that rely on words from the training
dictionary. We address this limitation by retrofitting CLWE to the training
dictionary, which pulls training translation pairs closer in the embedding
space and overfits the training dictionary. This simple post-processing step
often improves accuracy on two downstream tasks, despite lowering BLI test
accuracy. We also retrofit to both the training dictionary and a synthetic
dictionary induced from CLWE, which sometimes generalizes even better on
downstream tasks. Our results confirm the importance of fully exploiting
training dictionary in downstream tasks and explains why BLI is a flawed CLWE
evaluation.
- Abstract(参考訳): 言語間単語埋め込み(CLWE)はしばしばバイリンガル語彙誘導(BLI)に基づいて評価される。
最近のCLWE法では、トレーニング辞書に不適合な線形射影を用いてBLIを一般化している。
しかし、不適合は、訓練辞書の単語に依存する他の下流タスクへの一般化を妨げる可能性がある。
CLWEをトレーニング辞書に再適合させることにより、この制限に対処し、学習用翻訳ペアを埋め込み空間に近づけ、トレーニング用辞書に過度に適合させる。
この単純な後処理ステップは、BLIテストの精度が低下しているにもかかわらず、2つの下流タスクの精度を向上する。
また, 学習辞書とclweから誘導される合成辞書の両方を改良し, 時として下流タスクを一般化する。
その結果、下流作業における学習辞書の活用の重要性が確認され、BLIがCLWE評価に欠陥がある理由が説明できる。
関連論文リスト
- An Analysis of BPE Vocabulary Trimming in Neural Machine Translation [56.383793805299234]
語彙トリミング(vocabulary trimming)は、まれなサブワードをコンポーネントサブワードに置き換える後処理のステップである。
ボキャブラリトリミングは性能向上に失敗し,さらに大きな劣化を招きやすいことを示す。
論文 参考訳(メタデータ) (2024-03-30T15:29:49Z) - Improving Bilingual Lexicon Induction with Cross-Encoder Reranking [31.142790337451366]
BLICEr (BLI with Cross-Encoder Re rank) と呼ばれる新しい半教師付きポストホックリグレード法を提案する。
鍵となる考え方は、mPLMから言語間の語彙的知識を抽出し、元のCLWEと組み合わせることである。
BLICErは、多様な言語にまたがる2つの標準BLIベンチマークで、新しい結果を確立している。
論文 参考訳(メタデータ) (2022-10-30T21:26:07Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Dict-BERT: Enhancing Language Model Pre-training with Dictionary [42.0998323292348]
事前学習型言語モデル(PLM)は,大規模コーパス上で自己指導型学習タスクを行うことで,普遍的な言語表現を学習することを目的としている。
本研究では,辞書におけるレアワードの定義を活用することで,言語モデル事前学習の強化に焦点をあてる。
入力テキストシーケンスとまれな単語定義間の単語と文レベルのアライメントに関する2つの新しい自己教師付き事前学習タスクを提案する。
論文 参考訳(メタデータ) (2021-10-13T04:29:14Z) - Cross-Lingual Word Embedding Refinement by $\ell_{1}$ Norm Optimisation [10.826468075743701]
言語間の単語埋め込みは、2つ以上の言語からの単語を共有高次元空間にエンコードする。
本稿ではCLWEを改善するための簡単な後処理ステップを提案する。
論文 参考訳(メタデータ) (2021-04-11T04:37:54Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Verb Knowledge Injection for Multilingual Event Processing [50.27826310460763]
動詞のセマンティック・シンタクティックな振る舞いに関する明示的な情報を注入することでLMプリトレーニングトランスフォーマーの性能が向上するかどうかを検討する。
まず,動詞知識の注入が英語イベント抽出のパフォーマンス向上につながることを示す。
次に、他の言語でのイベント抽出のための動詞アダプタの有用性を探ります。
論文 参考訳(メタデータ) (2020-12-31T03:24:34Z) - Mining Knowledge for Natural Language Inference from Wikipedia
Categories [53.26072815839198]
NLIおよびLEタスクのモデル性能を改善するためのリソースであるWikiNLIを紹介する。
ウィキペディアには、自然に注釈付けされたカテゴリー階層から作られた428,899の句が含まれている。
我々は、BERTやRoBERTaのような強力なベースラインをWikiNLIで事前訓練し、下流タスクでモデルを転送することで改善できることを示します。
論文 参考訳(メタデータ) (2020-10-03T00:45:01Z) - Taking Notes on the Fly Helps BERT Pre-training [94.43953312613577]
Takeing Notes on the Fly (TNF) は、事前トレーニング中にフライで稀な単語のメモを取り、次回発生するときにモデルがそれらを理解するのに役立つ。
TNFは、文中のまれな単語によって引き起こされる不適切な意味をカバーするために、クロス文情報を用いるので、より良いデータ利用を提供する。
論文 参考訳(メタデータ) (2020-08-04T11:25:09Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。