論文の概要: Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon
Induction
- arxiv url: http://arxiv.org/abs/2105.12297v1
- Date: Wed, 26 May 2021 02:09:58 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-28 02:28:05.181009
- Title: Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon
Induction
- Title(参考訳): ロバストなバイリンガル語彙誘導のための単語埋め込み変換
- Authors: Hailong Cao and Tiejun Zhao
- Abstract要約: 2つの言語の埋め込みの同型性を高めるための変換に基づく手法を提案する。
我々の手法は最先端の手法と比較して、競争力や優れた性能を達成することができる。
- 参考スコア(独自算出の注目度): 21.782189001319935
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Great progress has been made in unsupervised bilingual lexicon induction
(UBLI) by aligning the source and target word embeddings independently trained
on monolingual corpora. The common assumption of most UBLI models is that the
embedding spaces of two languages are approximately isomorphic. Therefore the
performance is bound by the degree of isomorphism, especially on etymologically
and typologically distant languages. To address this problem, we propose a
transformation-based method to increase the isomorphism. Embeddings of two
languages are made to match with each other by rotating and scaling. The method
does not require any form of supervision and can be applied to any language
pair. On a benchmark data set of bilingual lexicon induction, our approach can
achieve competitive or superior performance compared to state-of-the-art
methods, with particularly strong results being found on distant languages.
- Abstract(参考訳): 非教師的バイリンガル語彙誘導(UBLI)において,単言語コーパスで独立に訓練されたソースとターゲット単語の埋め込みを調整することにより,大きな進歩を遂げた。
ほとんどのUBLIモデルの一般的な仮定は、2つの言語の埋め込み空間が概同型であるということである。
したがって、その性能は同型度、特に語源的および類型的遠隔言語によって制限される。
この問題に対処するため,同型性を高める変換に基づく手法を提案する。
2つの言語の埋め込みは、回転とスケーリングによって互いに一致させる。
この方法はいかなる種類の監督も必要とせず、任意の言語対に適用できる。
バイリンガル語彙誘導のベンチマークデータセットでは、最先端の手法と比較して競争力や優れた性能が得られ、特に遠い言語では強い結果が得られている。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow
Interpolation [48.32604585839687]
従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。
そこで本研究では,滑らかなブリッジングのための中間空間列を提案する。
論文 参考訳(メタデータ) (2022-10-07T04:37:47Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Multi-Adversarial Learning for Cross-Lingual Word Embeddings [19.407717032782863]
言語間単語の埋め込みを誘導する新しい手法を提案する。
複数のマッピングを通じてシード言語間の辞書を誘導し、それぞれが1つの部分空間のマッピングに適合するように誘導される。
教師なしバイリンガルレキシコン誘導実験により, 従来のシングルマッピング法よりも性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-16T14:54:28Z) - Inducing Language-Agnostic Multilingual Representations [61.97381112847459]
言語間の表現は、世界中のほとんどの言語でNLP技術が利用可能になる可能性がある。
i) 対象言語のベクトル空間をピボットソース言語に再配置すること、(ii) 言語固有の手段と分散を取り除くこと、(ii) 副産物としての埋め込みの識別性を向上すること、(iii) 形態的制約や文の並べ替えを除去することによって言語間の入力類似性を高めること、の3つのアプローチを検討する。
論文 参考訳(メタデータ) (2020-08-20T17:58:56Z) - LNMap: Departures from Isomorphic Assumption in Bilingual Lexicon
Induction Through Non-Linear Mapping in Latent Space [17.49073364781107]
バイリンガル語彙誘導のための言語間単語埋め込み学習のための新しい半教師付き手法を提案する。
我々のモデルは同型仮定とは独立であり、2つの独立に訓練されたオートエンコーダの潜在空間における非線形写像を用いる。
論文 参考訳(メタデータ) (2020-04-28T23:28:26Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。