論文の概要: Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring
- arxiv url: http://arxiv.org/abs/2012.15715v1
- Date: Thu, 31 Dec 2020 17:10:14 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-17 17:28:37.903037
- Title: Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring
- Title(参考訳): オフラインマッピングを超えて:コンテキストアンカーによる言語間埋め込みの学習
- Authors: Aitor Ormazabal, Mikel Artetxe, Aitor Soroa, Gorka Labaka, Eneko
Agirre
- Abstract要約: 英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
- 参考スコア(独自算出の注目度): 41.77270308094212
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research on cross-lingual word embeddings has been dominated by
unsupervised mapping approaches that align monolingual embeddings. Such methods
critically rely on those embeddings having a similar structure, but it was
recently shown that the separate training in different languages causes
departures from this assumption. In this paper, we propose an alternative
approach that does not have this limitation, while requiring a weak seed
dictionary (e.g., a list of identical words) as the only form of supervision.
Rather than aligning two fixed embedding spaces, our method works by fixing the
target language embeddings, and learning a new set of embeddings for the source
language that are aligned with them. To that end, we use an extension of
skip-gram that leverages translated context words as anchor points, and
incorporates self-learning and iterative restarts to reduce the dependency on
the initial dictionary. Our approach outperforms conventional mapping methods
on bilingual lexicon induction, and obtains competitive results in the
downstream XNLI task.
- Abstract(参考訳): 言語間単語埋め込みに関する最近の研究は、モノリンガル埋め込みを整列する教師なしマッピングアプローチによって支配されている。
このような手法は、同様の構造を持つ組込みに依存するが、最近、異なる言語での個別のトレーニングが、この仮定からの離脱を引き起こすことが示されている。
本稿では,この制限をもたない代替手法を提案するとともに,弱いシード辞書(例:同一語のリスト)を監督の唯一の形式として要求する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
そこで我々は,翻訳された文脈単語をアンカーポイントとして活用するskip-gramの拡張を用い,自己学習と反復リスタートを取り入れ,辞書への依存度を低減した。
本手法は,従来のバイリンガル語彙誘導法よりも優れ,下流XNLIタスクにおける競合結果が得られる。
関連論文リスト
- Pixel Sentence Representation Learning [67.4775296225521]
本研究では,視覚表現学習プロセスとして,文レベルのテキスト意味論の学習を概念化する。
タイポスや単語順シャッフルのような視覚的に接地されたテキスト摂動法を採用し、人間の認知パターンに共鳴し、摂動を連続的に認識できるようにする。
我々のアプローチは、大規模に教師なしのトピックアライメントトレーニングと自然言語推論監督によってさらに強化されている。
論文 参考訳(メタデータ) (2024-02-13T02:46:45Z) - Unsupervised Alignment of Distributional Word Embeddings [0.0]
クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。
提案手法は,複数の言語対をまたいだバイリンガル語彙誘導タスクにおいて,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-03-09T16:39:06Z) - Combining Static Word Embeddings and Contextual Representations for
Bilingual Lexicon Induction [19.375597786174197]
静的な単語埋め込みと文脈表現を組み合わせた,シンプルで効果的な機構を提案する。
教師付きおよび教師なしのBLIベンチマーク設定下で, 様々な言語ペア上で, 組み合わせのメカニズムを検証した。
論文 参考訳(メタデータ) (2021-06-06T10:31:02Z) - Bilingual Lexicon Induction via Unsupervised Bitext Construction and
Word Alignment [49.3253280592705]
我々は,bitextマイニングと教師なし単語アライメントを組み合わせた手法により,はるかに高品質な語彙を生成可能であることを示す。
私たちの最終モデルは、BUCC 2020共有タスクの最先端を14 $F_1$ポイント、平均12以上の言語ペアで上回ります。
論文 参考訳(メタデータ) (2021-01-01T03:12:42Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Multi-Adversarial Learning for Cross-Lingual Word Embeddings [19.407717032782863]
言語間単語の埋め込みを誘導する新しい手法を提案する。
複数のマッピングを通じてシード言語間の辞書を誘導し、それぞれが1つの部分空間のマッピングに適合するように誘導される。
教師なしバイリンガルレキシコン誘導実験により, 従来のシングルマッピング法よりも性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-16T14:54:28Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。