論文の概要: Refinement of Unsupervised Cross-Lingual Word Embeddings
- arxiv url: http://arxiv.org/abs/2002.09213v1
- Date: Fri, 21 Feb 2020 10:39:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 00:24:03.926297
- Title: Refinement of Unsupervised Cross-Lingual Word Embeddings
- Title(参考訳): 教師なし言語間単語埋め込みのリファインメント
- Authors: Magdalena Biesialska and Marta R. Costa-juss\`a
- Abstract要約: 言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
- 参考スコア(独自算出の注目度): 2.4366811507669124
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Cross-lingual word embeddings aim to bridge the gap between high-resource and
low-resource languages by allowing to learn multilingual word representations
even without using any direct bilingual signal. The lion's share of the methods
are projection-based approaches that map pre-trained embeddings into a shared
latent space. These methods are mostly based on the orthogonal transformation,
which assumes language vector spaces to be isomorphic. However, this criterion
does not necessarily hold, especially for morphologically-rich languages. In
this paper, we propose a self-supervised method to refine the alignment of
unsupervised bilingual word embeddings. The proposed model moves vectors of
words and their corresponding translations closer to each other as well as
enforces length- and center-invariance, thus allowing to better align
cross-lingual embeddings. The experimental results demonstrate the
effectiveness of our approach, as in most cases it outperforms state-of-the-art
methods in a bilingual lexicon induction task.
- Abstract(参考訳): 言語間単語埋め込みは、直接バイリンガル信号を使用しなくても多言語語表現を学習できるようにすることにより、高リソース言語と低リソース言語のギャップを埋めることを目的としている。
ライオンの手法のシェアは、事前訓練された埋め込みを共有潜在空間にマッピングするプロジェクションに基づくアプローチである。
これらの手法は主に、言語ベクトル空間を同型とする直交変換に基づいている。
しかし、この基準は必ずしも成立せず、特に形態学的に豊富な言語の場合である。
本稿では,非教師付きバイリンガル単語埋め込みのアライメントを改良する自己教師型手法を提案する。
提案するモデルは,単語のベクトルと対応する翻訳を互いに近づけるだけでなく,長さと中心非分散を強制することで,言語間埋め込みをよりよく調整する。
実験の結果,両言語語彙誘導タスクにおいて最先端の手法よりも優れており,本手法の有効性が示された。
関連論文リスト
- Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - Unsupervised Alignment of Distributional Word Embeddings [0.0]
クロスドメインアライメントは、機械翻訳から伝達学習までのタスクにおいて重要な役割を果たす。
提案手法は,複数の言語対をまたいだバイリンガル語彙誘導タスクにおいて,優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2022-03-09T16:39:06Z) - Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon
Induction [21.782189001319935]
2つの言語の埋め込みの同型性を高めるための変換に基づく手法を提案する。
我々の手法は最先端の手法と比較して、競争力や優れた性能を達成することができる。
論文 参考訳(メタデータ) (2021-05-26T02:09:58Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Multi-Adversarial Learning for Cross-Lingual Word Embeddings [19.407717032782863]
言語間単語の埋め込みを誘導する新しい手法を提案する。
複数のマッピングを通じてシード言語間の辞書を誘導し、それぞれが1つの部分空間のマッピングに適合するように誘導される。
教師なしバイリンガルレキシコン誘導実験により, 従来のシングルマッピング法よりも性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-16T14:54:28Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。