論文の概要: Robust Cross-lingual Embeddings from Parallel Sentences
- arxiv url: http://arxiv.org/abs/1912.12481v2
- Date: Fri, 1 May 2020 17:02:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 12:46:10.835307
- Title: Robust Cross-lingual Embeddings from Parallel Sentences
- Title(参考訳): 並列文からのロバストな言語間埋め込み
- Authors: Ali Sabet, Prakhar Gupta, Jean-Baptiste Cordonnier, Robert West,
Martin Jaggi
- Abstract要約: 本稿では,文整合コーパスを利用して頑健な言語間単語表現を実現するCBOW手法のバイリンガル拡張を提案する。
提案手法は,他のすべての手法と比較して,言語間文検索性能を著しく向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、ディープRNN法と同等性を実現する。
- 参考スコア(独自算出の注目度): 65.85468628136927
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in cross-lingual word embeddings have primarily relied on
mapping-based methods, which project pretrained word embeddings from different
languages into a shared space through a linear transformation. However, these
approaches assume word embedding spaces are isomorphic between different
languages, which has been shown not to hold in practice (S{\o}gaard et al.,
2018), and fundamentally limits their performance. This motivates investigating
joint learning methods which can overcome this impediment, by simultaneously
learning embeddings across languages via a cross-lingual term in the training
objective. We propose a bilingual extension of the CBOW method which leverages
sentence-aligned corpora to obtain robust cross-lingual word and sentence
representations. Our approach significantly improves cross-lingual sentence
retrieval performance over all other approaches while maintaining parity with
the current state-of-the-art methods on word-translation. It also achieves
parity with a deep RNN method on a zero-shot cross-lingual document
classification task, requiring far fewer computational resources for training
and inference. As an additional advantage, our bilingual method leads to a much
more pronounced improvement in the the quality of monolingual word vectors
compared to other competing methods.
- Abstract(参考訳): 近年の言語間単語埋め込みの進歩は主に、異なる言語からの事前学習された単語埋め込みを線形変換によって共有空間に投影するマッピングベースの手法に依存している。
しかし、これらの手法は、単語埋め込み空間が異なる言語間で同型であると仮定し、実際には保持されないことが示されている(S{\o}gaard et al., 2018)。
本研究は,この障害を克服できる共同学習手法について,言語間の埋め込みを訓練目的の言語横断語で同時に学習することで研究する。
本稿では,文整合コーパスを利用して文間単語と文表現を頑健に獲得するCBOW手法のバイリンガル拡張を提案する。
本手法は,単語翻訳における現在最先端の手法と同等性を保ちながら,言語間文検索性能を大幅に向上させる。
また、ゼロショットのクロスランガル文書分類タスクにおいて、深いRNN法と同等であり、トレーニングや推論のための計算資源をはるかに少なくする。
追加の利点として,本手法は他の競合手法と比較して,単言語単語ベクターの品質が大幅に向上した。
関連論文リスト
- Optimal Transport Posterior Alignment for Cross-lingual Semantic Parsing [68.47787275021567]
言語間のセマンティックパーシングは、高いソース言語(例えば英語)から少ないトレーニングデータを持つ低リソース言語へのパーシング能力を伝達する。
そこで本稿では,最適輸送を用いた係り受け変数間の言語間相違を明示的に最小化することで,言語間セマンティック解析のための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-07-09T04:52:31Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - A Simple and Effective Method to Improve Zero-Shot Cross-Lingual
Transfer Learning [6.329304732560936]
既存のゼロショットのクロスリンガル転送法は、並列コーパスやバイリンガル辞書に依存している。
意味喪失のない仮想多言語埋め込みに英語の埋め込みを移すための埋め込み・プッシュ・アテンション・プル・ロバスト・ターゲットを提案する。
論文 参考訳(メタデータ) (2022-10-18T15:36:53Z) - Cross-Align: Modeling Deep Cross-lingual Interactions for Word Alignment [63.0407314271459]
提案したCross-Alignは、5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成する。
実験の結果,提案したCross-Alignは5つの言語ペアのうち4つで最先端(SOTA)のパフォーマンスを達成することがわかった。
論文 参考訳(メタデータ) (2022-10-09T02:24:35Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Beyond Offline Mapping: Learning Cross Lingual Word Embeddings through
Context Anchoring [41.77270308094212]
英語以外の言語における単語埋め込みのための代替マッピング手法を提案する。
2つの固定埋め込み空間を整列させるのではなく、対象言語埋め込みを固定し、それらに整列したソースコード言語に対する新しい埋め込み集合を学習することで機能する。
提案手法は,従来のバイリンガル語彙誘導法よりも優れており,下流XNLIタスクにおける競合結果が得られる。
論文 参考訳(メタデータ) (2020-12-31T17:10:14Z) - Learning Contextualised Cross-lingual Word Embeddings and Alignments for
Extremely Low-Resource Languages Using Parallel Corpora [63.5286019659504]
そこで本稿では,小さな並列コーパスに基づく文脈型言語間単語埋め込み学習手法を提案する。
本手法は,入力文の翻訳と再構成を同時に行うLSTMエンコーダデコーダモデルを用いて単語埋め込みを実現する。
論文 参考訳(メタデータ) (2020-10-27T22:24:01Z) - Refinement of Unsupervised Cross-Lingual Word Embeddings [2.4366811507669124]
言語間の単語埋め込みは、高リソース言語と低リソース言語のギャップを埋めることを目的としています。
教師なしバイリンガル単語埋め込みのアライメントを改良する自己教師付き手法を提案する。
論文 参考訳(メタデータ) (2020-02-21T10:39:53Z) - A Common Semantic Space for Monolingual and Cross-Lingual
Meta-Embeddings [10.871587311621974]
本稿では,モノリンガルおよびクロスリンガルなメタ埋め込みを作成するための新しい手法を提案する。
既存のワードベクトルは線形変換と平均化を用いて共通の意味空間に投影される。
結果として得られる言語間メタ埋め込みは、優れた言語間移動学習能力を示す。
論文 参考訳(メタデータ) (2020-01-17T15:42:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。