論文の概要: On the Language Neutrality of Pre-trained Multilingual Representations
- arxiv url: http://arxiv.org/abs/2004.05160v4
- Date: Tue, 29 Sep 2020 18:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-15 02:54:22.622986
- Title: On the Language Neutrality of Pre-trained Multilingual Representations
- Title(参考訳): 事前学習した多言語表現の言語中立性について
- Authors: Jind\v{r}ich Libovick\'y, Rudolf Rosa, Alexander Fraser
- Abstract要約: 語彙意味論に関して,多言語文脈埋め込みの言語中立性を直接的に検討する。
その結果、文脈埋め込みは言語ニュートラルであり、概して静的な単語型埋め込みよりも情報的であることがわかった。
本稿では,言語識別における最先端の精度に到達し,並列文の単語アライメントのための統計的手法の性能を一致させる方法について述べる。
- 参考スコア(独自算出の注目度): 70.93503607755055
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual contextual embeddings, such as multilingual BERT and
XLM-RoBERTa, have proved useful for many multi-lingual tasks. Previous work
probed the cross-linguality of the representations indirectly using zero-shot
transfer learning on morphological and syntactic tasks. We instead investigate
the language-neutrality of multilingual contextual embeddings directly and with
respect to lexical semantics. Our results show that contextual embeddings are
more language-neutral and, in general, more informative than aligned static
word-type embeddings, which are explicitly trained for language neutrality.
Contextual embeddings are still only moderately language-neutral by default, so
we propose two simple methods for achieving stronger language neutrality:
first, by unsupervised centering of the representation for each language and
second, by fitting an explicit projection on small parallel data. Besides, we
show how to reach state-of-the-art accuracy on language identification and
match the performance of statistical methods for word alignment of parallel
sentences without using parallel data.
- Abstract(参考訳): マルチリンガルBERTやXLM-RoBERTaのような多言語コンテキスト埋め込みは、多くの多言語タスクに有用であることが証明されている。
前回の研究では、形態的および構文的タスクにおけるゼロショット転送学習を用いて間接的に表現の言語横断性を調査した。
代わりに,多言語文脈埋め込みの言語中立性を直接,語彙意味論に関して検討する。
この結果から,文脈的埋め込みは言語ニュートラルであり,言語中立性のために明示的に訓練された静的な単語型埋め込みよりも情報的であることが示唆された。
そこで本稿では,各言語に対する表現の教師なし中心化と,小さな並列データに明示的なプロジェクションを適用することで,より強力な言語中立性を実現するための2つの簡単な方法を提案する。
さらに,言語識別における最先端の精度に到達し,並列データを用いることなく,並列文の単語アライメントに関する統計的手法の性能を一致させる方法を示す。
関連論文リスト
- Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - mOthello: When Do Cross-Lingual Representation Alignment and Cross-Lingual Transfer Emerge in Multilingual Models? [15.90185747024602]
本稿では,2つの質問を探索するテストベッドとして,合成タスクであるMultilingual Othello(mOthello)を提案する。
多言語事前学習で訓練されたモデルは、全ての入力言語にまたがる言語ニュートラル表現を学習できないことがわかった。
本稿では,言語ニュートラル表現の学習を誘導し,言語間移動を促進する多言語事前学習手法を提案する。
論文 参考訳(メタデータ) (2024-04-18T18:03:08Z) - Improving In-context Learning of Multilingual Generative Language Models with Cross-lingual Alignment [42.624862172666624]
本稿では,一対の翻訳文を利用する単純な言語間アライメントフレームワークを提案する。
多言語コントラスト学習を通じて、異なる言語にまたがる内部文表現を整合させる。
実験結果から,事前学習トークンが0.1文未満であっても,アライメントフレームワークは生成言語モデルの言語間相互性を大幅に向上させることが明らかとなった。
論文 参考訳(メタデータ) (2023-11-14T11:24:08Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Gender Bias in Multilingual Embeddings and Cross-Lingual Transfer [101.58431011820755]
多言語埋め込みにおけるジェンダーバイアスとNLPアプリケーションの伝達学習への影響について検討する。
我々は、バイアス分析のための多言語データセットを作成し、多言語表現におけるバイアスの定量化方法をいくつか提案する。
論文 参考訳(メタデータ) (2020-05-02T04:34:37Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z) - Robust Cross-lingual Embeddings from Parallel Sentences [65.85468628136927]
本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
論文 参考訳(メタデータ) (2019-12-28T16:18:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。