論文の概要: English Contrastive Learning Can Learn Universal Cross-lingual Sentence
Embeddings
- arxiv url: http://arxiv.org/abs/2211.06127v1
- Date: Fri, 11 Nov 2022 11:17:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-14 15:19:25.186590
- Title: English Contrastive Learning Can Learn Universal Cross-lingual Sentence
Embeddings
- Title(参考訳): 英語のコントラスト学習は、普遍的な言語間文埋め込みを学習できる
- Authors: Yau-Shian Wang and Ashley Wu and Graham Neubig
- Abstract要約: 共通言語間文埋め込みは意味的に類似した言語間文を共有埋め込み空間にマッピングする。
そこで本研究では,SimCSEを多言語設定に拡張したmSimCSEを提案する。
- 参考スコア(独自算出の注目度): 77.94885131732119
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Universal cross-lingual sentence embeddings map semantically similar
cross-lingual sentences into a shared embedding space. Aligning cross-lingual
sentence embeddings usually requires supervised cross-lingual parallel
sentences. In this work, we propose mSimCSE, which extends SimCSE to
multilingual settings and reveal that contrastive learning on English data can
surprisingly learn high-quality universal cross-lingual sentence embeddings
without any parallel data. In unsupervised and weakly supervised settings,
mSimCSE significantly improves previous sentence embedding methods on
cross-lingual retrieval and multilingual STS tasks. The performance of
unsupervised mSimCSE is comparable to fully supervised methods in retrieving
low-resource languages and multilingual STS. The performance can be further
enhanced when cross-lingual NLI data is available. Our code is publicly
available at https://github.com/yaushian/mSimCSE.
- Abstract(参考訳): 共通言語間文埋め込みは意味的に類似した言語間文を共有埋め込み空間にマッピングする。
言語間埋め込みの調整は通常、教師付き言語間並列文を必要とする。
本研究では,simcseを多言語環境に拡張したmsimcseを提案し,英語データを用いたコントラスト学習が,並列データを用いずに驚くほど高品質な万能クロスリンガル文埋め込みを学習できることを明らかにする。
教師なしおよび弱教師付き設定では、mSimCSEは、言語間検索や多言語STSタスクに対する従来の文埋め込み法を大幅に改善する。
教師なしmSimCSEの性能は、低リソース言語と多言語STSを検索する完全教師付き手法に匹敵する。
言語間NLIデータが利用可能であれば、パフォーマンスをさらに向上することができる。
私たちのコードはhttps://github.com/yaushian/msimcseで公開されています。
関連論文リスト
- Crosslingual Capabilities and Knowledge Barriers in Multilingual Large Language Models [62.91524967852552]
大規模言語モデル(LLM)は、多言語コーパスの事前訓練のため、一般的に多言語である。
しかし、これらのモデルは言語間で対応する概念を関連付けることができ、効果的にクロスランガルなのでしょうか?
本研究は,言語横断的課題に関する6つの技術 LLM の評価を行った。
論文 参考訳(メタデータ) (2024-06-23T15:15:17Z) - Improving Multi-lingual Alignment Through Soft Contrastive Learning [9.454626745893798]
本稿では,事前学習した単言語埋め込みモデルによって測定された文の類似性に基づいて,多言語埋め込みを整合させる新しい手法を提案する。
翻訳文ペアが与えられた場合、言語間埋め込み間の類似性は、単言語教師モデルで測定された文の類似性に従うように、多言語モデルを訓練する。
論文 参考訳(メタデータ) (2024-05-25T09:46:07Z) - Cross-lingual Transfer or Machine Translation? On Data Augmentation for
Monolingual Semantic Textual Similarity [2.422759879602353]
Wikipediaデータの言語間転送では、モノリンガルSTSのパフォーマンスが改善されている。
学習データとしてNLIに着目した先行研究とは対照的に,これらの言語ではWikipediaドメインがNLIドメインよりも優れている。
論文 参考訳(メタデータ) (2024-03-08T12:28:15Z) - Efficiently Aligned Cross-Lingual Transfer Learning for Conversational
Tasks using Prompt-Tuning [98.60739735409243]
英語のような高リソース言語で訓練された言語モデルの言語間移動は、多くのNLPタスクのために広く研究されている。
並列および大規模多言語会話データセットである言語間アライメント事前学習のためのXSGDを導入する。
協調的な言語間表現を容易にするために,アライメントプロンプトを学習するための効率的なプロンプトチューニング手法を開発した。
論文 参考訳(メタデータ) (2023-04-03T18:46:01Z) - EASE: Entity-Aware Contrastive Learning of Sentence Embedding [37.7055989762122]
EASEは文とその関連エンティティ間の対照的な学習を通して文の埋め込みを学習する新しい方法である。
EASEは英語のセマンティックテキスト類似性(STS)と短いテキストクラスタリング(STC)タスクにおいて、競合的あるいはより良いパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-05-09T13:22:44Z) - Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Syntax-augmented Multilingual BERT for Cross-lingual Transfer [37.99210035238424]
この研究は、言語構文とトレーニングmBERTを明示的に提供することが、言語間転送に役立つことを示している。
実験の結果,mBERTの構文拡張は,一般的なベンチマーク上での言語間移動を改善することがわかった。
論文 参考訳(メタデータ) (2021-06-03T21:12:50Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。