論文の概要: Language-agnostic BERT Sentence Embedding
- arxiv url: http://arxiv.org/abs/2007.01852v2
- Date: Tue, 8 Mar 2022 05:10:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 05:29:46.566107
- Title: Language-agnostic BERT Sentence Embedding
- Title(参考訳): 言語非依存なbert文埋め込み
- Authors: Fangxiaoyu Feng, Yinfei Yang, Daniel Cer, Naveen Arivazhagan, Wei Wang
- Abstract要約: 単言語および言語間表現の学習に最適な方法を組み合わせることで,多言語文の埋め込みを学習する方法を検討する。
事前学習した多言語言語モデルを導入することで,性能向上に必要な並列トレーニングデータの量を大幅に削減できることを示す。
- 参考スコア(独自算出の注目度): 14.241717104817713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While BERT is an effective method for learning monolingual sentence
embeddings for semantic similarity and embedding based transfer learning
(Reimers and Gurevych, 2019), BERT based cross-lingual sentence embeddings have
yet to be explored. We systematically investigate methods for learning
multilingual sentence embeddings by combining the best methods for learning
monolingual and cross-lingual representations including: masked language
modeling (MLM), translation language modeling (TLM) (Conneau and Lample, 2019),
dual encoder translation ranking (Guo et al., 2018), and additive margin
softmax (Yang et al., 2019a). We show that introducing a pre-trained
multilingual language model dramatically reduces the amount of parallel
training data required to achieve good performance by 80%. Composing the best
of these methods produces a model that achieves 83.7% bi-text retrieval
accuracy over 112 languages on Tatoeba, well above the 65.5% achieved by
Artetxe and Schwenk (2019b), while still performing competitively on
monolingual transfer learning benchmarks (Conneau and Kiela, 2018). Parallel
data mined from CommonCrawl using our best model is shown to train competitive
NMT models for en-zh and en-de. We publicly release our best multilingual
sentence embedding model for 109+ languages at https://tfhub.dev/google/LaBSE.
- Abstract(参考訳): BERTは意味的類似性や埋め込みに基づく移動学習(Reimers and Gurevych, 2019)のための単言語文埋め込みを学習する有効な方法であるが、BERTに基づく言語間文埋め込みはまだ検討されていない。
多言語文の埋め込みを学習するための手法として,マスク付き言語モデリング(MLM),翻訳言語モデリング(TLM)(Conneau and Lample, 2019),二重エンコーダ翻訳ランキング(Guo et al., 2018),加法的マージンソフトマックス(Yang et al., 2019a)など,一言語的および多言語的表現を学習する最善の方法を組み合わせて,体系的に検討した。
事前学習した多言語言語モデルを導入することで,性能向上に必要な並列トレーニングデータの量を大幅に削減できることを示す。
これらの手法の最良の構成は、タトエバの112言語で83.7%のバイテキスト検索精度を達成し、Artetxe と Schwenk (2019b) の65.5%をはるかに上回り、単言語変換学習ベンチマーク(Conneau と Kiela, 2018)で競争力を発揮している。
最適なモデルを用いてCommonCrawlから抽出した並列データを用いて, en-zh と en-de の競合NMTモデルをトレーニングする。
我々は109以上の言語に対する最高の多言語文埋め込みモデルをhttps://tfhub.dev/google/LaBSEで公開しています。
関連論文リスト
- Multilingual De-Duplication Strategies: Applying scalable similarity search with monolingual & multilingual embedding models [0.0]
本稿では,高度NLPツールを用いた多言語テキストデータの重複解消について述べる。
我々は、mpnetと多言語埋め込みモデル(distiluse)を併用し、英語への翻訳を含む2段階の手法の比較を行った。
論文 参考訳(メタデータ) (2024-06-19T16:48:14Z) - Tagengo: A Multilingual Chat Dataset [3.8073142980733]
74言語で70k以上のプロンプト応答対の高品質なデータセットを提示する。
このデータセットを使って、最先端のオープンソースLLMをトレーニングし、マルチ言語でチャットします。
論文 参考訳(メタデータ) (2024-05-21T09:06:36Z) - CroissantLLM: A Truly Bilingual French-English Language Model [42.03897426049679]
英語とフランス語のトークンセットを事前訓練した1.3B言語モデルであるCroissantLLMを紹介する。
我々は、英語とフランス語の事前学習データ比率1:1で、本質的なバイリンガルモデルを訓練するアプローチを開拓した。
英語以外のパフォーマンスを評価するため、新しいベンチマークである FrenchBench を作成します。
論文 参考訳(メタデータ) (2024-02-01T17:17:55Z) - PolyLM: An Open Source Polyglot Large Language Model [57.64420154135178]
我々は6400億(B)トークンでトレーニングされた多言語大言語モデル(LLM)であるPolyLMについて述べる。
その多言語的能力を高めるために,1) バイリンガルデータをトレーニングデータに統合し,2) 事前学習中に英語以外のデータの比率を30%から60%に引き上げるカリキュラム学習戦略を採用する。
さらに,モデル微調整のために,132.7Kの多言語命令を自動的に生成する多言語自己指示手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T09:00:37Z) - MiLMo:Minority Multilingual Pre-trained Language Model [1.6409017540235764]
本稿では、マイノリティ言語タスクにおいてより優れた性能を発揮する、MLMoという多言語事前学習モデルを構築した。
テキスト分類タスクにおいて,Word2vecモデルと事前学習モデルを比較することにより,少数言語の下流タスク研究に最適なスキームを提供する。
論文 参考訳(メタデータ) (2022-12-04T09:28:17Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - Beyond English-Centric Multilingual Machine Translation [74.21727842163068]
我々は真の多言語多言語翻訳モデルを作成し、100言語のいずれかのペア間で直接翻訳できる。
大規模なマイニングによって生成された教師付きデータで、数千の言語方向をカバーするトレーニングデータセットを構築し、オープンソースにしています。
WMTのベストシングルシステムに競争力を持たせながら、非英語の方向を直接翻訳する場合、非英語モデルに焦点をあてると10 BLEU以上のゲインが得られる。
論文 参考訳(メタデータ) (2020-10-21T17:01:23Z) - Reusing a Pretrained Language Model on Languages with Limited Corpora
for Unsupervised NMT [129.99918589405675]
本稿では,オープンソース言語上でのみ事前訓練されたLMを再利用する効果的な手法を提案する。
モノリンガルLMは両言語で微調整され、UNMTモデルの初期化に使用される。
我々のアプローチであるRE-LMは、英語・マケドニア語(En-Mk)と英語・アルバニア語(En-Sq)の競合言語間事前学習モデル(XLM)より優れています。
論文 参考訳(メタデータ) (2020-09-16T11:37:10Z) - Making Monolingual Sentence Embeddings Multilingual using Knowledge
Distillation [73.65237422910738]
既存の文埋め込みモデルを新しい言語に拡張する,簡単かつ効率的な手法を提案する。
これにより、以前のモノリンガルモデルから多言語バージョンを作成することができる。
論文 参考訳(メタデータ) (2020-04-21T08:20:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。