論文の概要: Unsupervised Multilingual Sentence Embeddings for Parallel Corpus Mining
- arxiv url: http://arxiv.org/abs/2105.10419v1
- Date: Fri, 21 May 2021 15:39:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-25 03:29:15.241198
- Title: Unsupervised Multilingual Sentence Embeddings for Parallel Corpus Mining
- Title(参考訳): 並列コーパスマイニングのための教師なし多言語文埋め込み
- Authors: Ivana Kvapil{\i}kova, Mikel Artetxe, Gorka Labaka, Eneko Agirre,
Ond\v{r}ej Bojar
- Abstract要約: 単言語データのみに依存する多言語文の埋め込みを導出する新しい教師なし手法を提案する。
まず、教師なし機械翻訳を用いて合成並列コーパスを作成し、事前訓練された言語間マスキング言語モデル(XLM)を微調整する。
また, 2つの並列コーパスマイニング作業において, バニラXLMよりも22F1ポイント向上した。
- 参考スコア(独自算出の注目度): 38.10950540247151
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing models of multilingual sentence embeddings require large parallel
data resources which are not available for low-resource languages. We propose a
novel unsupervised method to derive multilingual sentence embeddings relying
only on monolingual data. We first produce a synthetic parallel corpus using
unsupervised machine translation, and use it to fine-tune a pretrained
cross-lingual masked language model (XLM) to derive the multilingual sentence
representations. The quality of the representations is evaluated on two
parallel corpus mining tasks with improvements of up to 22 F1 points over
vanilla XLM. In addition, we observe that a single synthetic bilingual corpus
is able to improve results for other language pairs.
- Abstract(参考訳): 既存の多言語文埋め込みモデルは、低リソース言語では利用できない大規模な並列データリソースを必要とする。
単言語データのみに依存する多言語文埋め込みを導出する新しい教師なし手法を提案する。
まず,教師なし機械翻訳を用いた合成並列コーパスを作成し,事前学習されたクロスリンガルマスク言語モデル(xlm)を用いて多言語文表現を導出する。
表現の質は2つの並列コーパスマイニングタスクで評価され、バニラxlmより最大22f1ポイント向上した。
また,1つの合成バイリンガルコーパスが他の言語ペアの結果を改善することができることを観察した。
関連論文リスト
- Parallel Corpus Augmentation using Masked Language Models [2.3020018305241337]
マルチLingual Masked Language Model を用いて、コンテキスト内の代替語をマスキングし、予測する。
センテンス・エンベディング(Sentence Embeddings)を使用して、お互いの翻訳の可能性が高い文対をチェックし、選択する。
論文 参考訳(メタデータ) (2024-10-04T07:15:07Z) - VECO 2.0: Cross-lingual Language Model Pre-training with
Multi-granularity Contrastive Learning [56.47303426167584]
複数粒度アライメントを持つコントラスト学習に基づく言語間事前学習モデルVECO2.0を提案する。
具体的には、シーケンス・ツー・シーケンスアライメントが誘導され、並列対の類似性を最大化し、非並列対を最小化する。
トークン・ツー・トークンのアライメントは、シソーラス辞書を介して発掘された同義トークンと、バイリンガルな例の他の未使用トークンとのギャップを埋めるために統合される。
論文 参考訳(メタデータ) (2023-04-17T12:23:41Z) - Multilingual Sentence Transformer as A Multilingual Word Aligner [15.689680887384847]
多言語文 Transformer LaBSE が強い多言語単語アライメント器であるかどうかを検討する。
7つの言語対の実験結果から、最も優れたコーディネータは、すべての品種の過去の最先端モデルよりも優れていることが示された。
コーディネータは1つのモデルで異なる言語ペアをサポートし、ファインタニングプロセスに現れないゼロショット言語ペア上で新しい最先端の言語ペアを実現する。
論文 参考訳(メタデータ) (2023-01-28T09:28:55Z) - Language Agnostic Multilingual Information Retrieval with Contrastive
Learning [59.26316111760971]
本稿では,多言語情報検索システムの学習方法を提案する。
並列コーパスと非並列コーパスを利用して、事前訓練された多言語言語モデルを改善する。
我々のモデルは少数のパラレル文でもうまく機能する。
論文 参考訳(メタデータ) (2022-10-12T23:53:50Z) - Exploiting Parallel Corpora to Improve Multilingual Embedding based
Document and Sentence Alignment [1.5293427903448025]
本稿では,文書・文アライメントにおける多言語文表現の性能向上のために,小型並列コーパスを用いた重み付け機構を提案する。
新たに作成されたSinhala- English,Tamil- English,Sinhala-Tamilのデータセットの結果から,この新たな重み付け機構は文書のアライメントと文のアライメントを大幅に改善することが示された。
論文 参考訳(メタデータ) (2021-06-12T13:00:10Z) - Bilingual alignment transfers to multilingual alignment for unsupervised
parallel text mining [3.4519649635864584]
本研究は、ペアまたはペアなしのバイリンガルテキストを用いた言語間表現の学習手法を提案する。
我々は、言語間アライメント戦略は転送可能であり、2つの言語のみをアライメントするように訓練されたモデルは、多言語的によりアライメントされた表現を符号化できると仮定する。
論文 参考訳(メタデータ) (2021-04-15T17:51:22Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - XCOPA: A Multilingual Dataset for Causal Commonsense Reasoning [68.57658225995966]
XCOPA (Cross-lingual Choice of Plausible Alternatives) は11言語における因果コモンセンス推論のための多言語データセットである。
提案手法は,翻訳に基づく転送と比較して,現在の手法の性能が低下していることを明らかにする。
論文 参考訳(メタデータ) (2020-05-01T12:22:33Z) - Knowledge Distillation for Multilingual Unsupervised Neural Machine
Translation [61.88012735215636]
unsupervised neural machine translation (UNMT) は、最近、いくつかの言語対に対して顕著な結果を得た。
UNMTは単一の言語ペア間でのみ翻訳することができ、同時に複数の言語ペアに対して翻訳結果を生成することはできない。
本稿では,1つのエンコーダと1つのデコーダを用いて13言語間を翻訳する簡単な手法を実証的に紹介する。
論文 参考訳(メタデータ) (2020-04-21T17:26:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。