論文の概要: LNMap: Departures from Isomorphic Assumption in Bilingual Lexicon
Induction Through Non-Linear Mapping in Latent Space
- arxiv url: http://arxiv.org/abs/2004.13889v2
- Date: Thu, 22 Oct 2020 00:42:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:17:10.313876
- Title: LNMap: Departures from Isomorphic Assumption in Bilingual Lexicon
Induction Through Non-Linear Mapping in Latent Space
- Title(参考訳): LNMap: 潜時空間における非線形マッピングによるバイリンガル語彙誘導における同型推定からの逸脱
- Authors: Tasnim Mohiuddin, M Saiful Bari, and Shafiq Joty
- Abstract要約: バイリンガル語彙誘導のための言語間単語埋め込み学習のための新しい半教師付き手法を提案する。
我々のモデルは同型仮定とは独立であり、2つの独立に訓練されたオートエンコーダの潜在空間における非線形写像を用いる。
- 参考スコア(独自算出の注目度): 17.49073364781107
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Most of the successful and predominant methods for bilingual lexicon
induction (BLI) are mapping-based, where a linear mapping function is learned
with the assumption that the word embedding spaces of different languages
exhibit similar geometric structures (i.e., approximately isomorphic). However,
several recent studies have criticized this simplified assumption showing that
it does not hold in general even for closely related languages. In this work,
we propose a novel semi-supervised method to learn cross-lingual word
embeddings for BLI. Our model is independent of the isomorphic assumption and
uses nonlinear mapping in the latent space of two independently trained
auto-encoders. Through extensive experiments on fifteen (15) different language
pairs (in both directions) comprising resource-rich and low-resource languages
from two different datasets, we demonstrate that our method outperforms
existing models by a good margin. Ablation studies show the importance of
different model components and the necessity of non-linear mapping.
- Abstract(参考訳): bli(bilingual lexicon induction)の成功法と支配的手法のほとんどはマッピングベースであり、線形写像関数は、異なる言語の単語埋め込み空間が類似した幾何学的構造(すなわち、概同型)を示すと仮定して学習される。
しかし、近年のいくつかの研究は、近縁言語でも一般的には成立しないという単純な仮定を批判している。
本稿では,bliの言語間埋め込みを学ぶための,新しい半教師付き手法を提案する。
我々のモデルは同型仮定とは独立であり、2つの独立に訓練されたオートエンコーダの潜在空間における非線形写像を用いる。
資源豊かで低リソースな言語を2つのデータセットから構成した15の異なる言語対(両方向)に関する広範な実験を通じて,本手法が既存のモデルよりも優れた性能を示すことを示す。
アブレーション研究は、異なるモデル成分の重要性と非線形マッピングの必要性を示している。
関連論文リスト
- Concept Space Alignment in Multilingual LLMs [47.633314194898134]
一般化は類似の型付けを持つ言語や抽象概念に最適である。
いくつかのモデルでは、プロンプトベースの埋め込みは単語の埋め込みよりもよく整合するが、投影は線形ではない。
論文 参考訳(メタデータ) (2024-10-01T21:21:00Z) - Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - Isomorphic Cross-lingual Embeddings for Low-Resource Languages [1.5076964620370268]
CLWE(Cross-Lingual Word Embeddings)は、高リソース設定から学習した言語情報を低リソースに転送するための重要なコンポーネントである。
我々は、関連の高い高リソース言語を共同で活用することで、低リソース対に対して、アイソメトリを仮定せずにCLWEを学習するフレームワークを導入する。
両言語レキシコン誘導(BLI)と固有値類似度(Eigenvalue similarity)によって測定された同型性の品質と程度において,現在の手法よりも一貫した利得を示す。
論文 参考訳(メタデータ) (2022-03-28T10:39:07Z) - Cross-lingual alignments of ELMo contextual embeddings [0.0]
言語間埋め込みは、低リソース言語から高リソース言語への単語の埋め込みをマッピングする。
最近の文脈埋め込みの言語間マッピングを作成するには、埋め込み空間間のアンカーポイントは、同じ文脈における単語でなければならない。
ELMo埋め込みのための新しい言語間マッピング手法を提案する。
論文 参考訳(メタデータ) (2021-06-30T11:26:43Z) - Word Embedding Transformation for Robust Unsupervised Bilingual Lexicon
Induction [21.782189001319935]
2つの言語の埋め込みの同型性を高めるための変換に基づく手法を提案する。
我々の手法は最先端の手法と比較して、競争力や優れた性能を達成することができる。
論文 参考訳(メタデータ) (2021-05-26T02:09:58Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Multi-Adversarial Learning for Cross-Lingual Word Embeddings [19.407717032782863]
言語間単語の埋め込みを誘導する新しい手法を提案する。
複数のマッピングを通じてシード言語間の辞書を誘導し、それぞれが1つの部分空間のマッピングに適合するように誘導される。
教師なしバイリンガルレキシコン誘導実験により, 従来のシングルマッピング法よりも性能が向上することが示された。
論文 参考訳(メタデータ) (2020-10-16T14:54:28Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。