論文の概要: Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora
- arxiv url: http://arxiv.org/abs/2010.14649v2
- Date: Wed, 20 Oct 2021 01:52:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-02 10:55:03.932487
- Title: Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora
- Title(参考訳): 並列コーパスを用いた超低リソース言語における文脈的言語間単語埋め込みとアライメントの学習
- Authors: Takashi Wada, Tomoharu Iwata, Yuji Matsumoto, Timothy Baldwin, Jey Han
Lau
- Abstract要約: そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
- 参考スコア(独自算出の注目度): 63.5286019659504
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We propose a new approach for learning contextualised cross-lingual word
embeddings based on a small parallel corpus (e.g. a few hundred sentence
pairs). Our method obtains word embeddings via an LSTM encoder-decoder model
that simultaneously translates and reconstructs an input sentence. Through
sharing model parameters among different languages, our model jointly trains
the word embeddings in a common cross-lingual space. We also propose to combine
word and subword embeddings to make use of orthographic similarities across
different languages. We base our experiments on real-world data from endangered
languages, namely Yongning Na, Shipibo-Konibo, and Griko. Our experiments on
bilingual lexicon induction and word alignment tasks show that our model
outperforms existing methods by a large margin for most language pairs. These
results demonstrate that, contrary to common belief, an encoder-decoder
translation model is beneficial for learning cross-lingual representations even
in extremely low-resource conditions. Furthermore, our model also works well on
high-resource conditions, achieving state-of-the-art performance on a
German-English word-alignment task.
- Abstract(参考訳): 本稿では,小並列コーパス(例えば数百文ペア)に基づく文脈付き言語間埋め込み学習のための新しい手法を提案する。
本手法は,入力文を同時に翻訳・再構成するLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
モデルパラメータを異なる言語間で共有することで,共通の言語間空間における単語埋め込みを協調的に学習する。
また,単語と副単語の埋め込みを組み合わせることで,異なる言語間の正書法的類似性を活用することを提案する。
我々は、危険にさらされている言語、Yongning Na、Shitibo-Konibo、Grikoの実際のデータに基づいて実験を行った。
バイリンガル語彙誘導および単語アライメントタスクに関する実験により、我々のモデルは、ほとんどの言語対において、既存の手法よりも優れた性能を示した。
これらの結果から,エンコーダ・デコーダ翻訳モデルは,低リソース条件下でも言語間表現の学習に有用であることが示唆された。
さらに,このモデルは高資源条件でもうまく機能し,ドイツ語-英語の単語調整タスクにおいて最先端のパフォーマンスを達成している。
関連論文リスト
- Cross-Lingual Word Alignment for ASEAN Languages with Contrastive Learning [5.5119571570277826]
言語間単語アライメントは、自然言語処理タスクにおいて重要な役割を果たす。
近年,BiLSTMを用いたエンコーダデコーダモデルを提案する。
本稿では,BiLSTMに基づくエンコーダデコーダフレームワークにコントラスト学習を取り入れることを提案する。
論文 参考訳(メタデータ) (2024-07-06T11:56:41Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Beyond Contrastive Learning: A Variational Generative Model for
Multilingual Retrieval [109.62363167257664]
本稿では,多言語テキスト埋め込み学習のための生成モデルを提案する。
我々のモデルは、$N$言語で並列データを操作する。
本手法は, 意味的類似性, ビットクストマイニング, 言語間質問検索などを含む一連のタスクに対して評価を行う。
論文 参考訳(メタデータ) (2022-12-21T02:41:40Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Word Alignment by Fine-tuning Embeddings on Parallel Corpora [96.28608163701055]
並列コーパス上の単語アライメントには、翻訳語彙の学習、言語処理ツールの言語間変換、翻訳出力の自動評価や解析など、幅広い応用がある。
近年,複数言語で訓練された言語モデル(LM)から抽出した事前学習された単語埋め込みが,並列データに対する明示的な訓練がなくても,単語アライメントタスクにおける競合的な結果が得られることを示す研究も行われている。
本稿では,事前学習したLMの活用と,アライメント品質の向上を目的とした並列テキストによる微調整,提案という2つのアプローチの結婚方法を検討する。
論文 参考訳(メタデータ) (2021-01-20T17:54:47Z) - On the Language Neutrality of Pre-trained Multilingual Representations [70.93503607755055]
語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
論文 参考訳(メタデータ) (2020-04-09T19:50:32Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。