論文の概要: L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence
representations using multilingual BERT
- arxiv url: http://arxiv.org/abs/2304.11434v1
- Date: Sat, 22 Apr 2023 15:45:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-25 18:30:05.730084
- Title: L3Cube-IndicSBERT: A simple approach for learning cross-lingual sentence
representations using multilingual BERT
- Title(参考訳): L3Cube-IndicSBERT:多言語BERTを用いた言語間文表現の学習方法
- Authors: Samruddhi Deode, Janhavi Gadre, Aditi Kajale, Ananya Joshi, Raviraj
Joshi
- Abstract要約: SBERT (Multilingual Sentence-BERT) モデルは、異なる言語を共通表現空間にマッピングする。
合成コーパスを用いたバニラ多言語BERTモデルから多言語文BERTモデルへ変換する手法を提案する。
多言語BERTモデルは本質的に言語間学習者であり、この単純なベースライン微調整アプローチは、例外的な言語間特性をもたらす。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The multilingual Sentence-BERT (SBERT) models map different languages to
common representation space and are useful for cross-language similarity and
mining tasks. We propose a simple yet effective approach to convert vanilla
multilingual BERT models into multilingual sentence BERT models using synthetic
corpus. We simply aggregate translated NLI or STS datasets of the low-resource
target languages together and perform SBERT-like fine-tuning of the vanilla
multilingual BERT model. We show that multilingual BERT models are inherent
cross-lingual learners and this simple baseline fine-tuning approach without
explicit cross-lingual training yields exceptional cross-lingual properties. We
show the efficacy of our approach on 10 major Indic languages and also show the
applicability of our approach to non-Indic languages German and French. Using
this approach, we further present L3Cube-IndicSBERT, the first multilingual
sentence representation model specifically for Indian languages Hindi, Marathi,
Kannada, Telugu, Malayalam, Tamil, Gujarati, Odia, Bengali, and Punjabi. The
IndicSBERT exhibits strong cross-lingual capabilities and performs
significantly better than alternatives like LaBSE, LASER, and
paraphrase-multilingual-mpnet-base-v2 on Indic cross-lingual and monolingual
sentence similarity tasks. We also release monolingual SBERT models for each of
the languages and show that IndicSBERT performs competitively with its
monolingual counterparts. These models have been evaluated using embedding
similarity scores and classification accuracy.
- Abstract(参考訳): 多言語SBERT (Multilingual Sentence-BERT) モデルは、異なる言語を共通表現空間にマッピングし、言語間の類似性とマイニングタスクに有用である。
合成コーパスを用いたバニラ多言語BERTモデルから多言語文BERTモデルへ変換する手法を提案する。
低リソース対象言語の翻訳NLIまたはSTSデータセットを集約し、バニラ多言語BERTモデルのSBERTライクな微調整を行う。
多言語BERTモデルは本質的に言語間学習者であり、明示的な言語間訓練を伴わないこの単純なベースライン微調整アプローチは、例外的な言語間特性をもたらす。
本研究は,10主要言語に対する我々のアプローチの有効性を示すとともに,ドイツ語とフランス語に対する我々のアプローチの適用性を示す。
このアプローチを用いて,ヒンディー語,マラタイ語,カナダ語,テルグ語,マラヤラム語,タミル語,グジャラート語,オディア語,ベンガル語,パンジャービ語に特有な,最初の多言語文表現モデルであるL3Cube-IndicSBERTを提示する。
IndicSBERTは、強い言語間機能を示し、LaBSE、LASER、およびIndicの言語間および単言語間の文類似性タスクにおけるパラフレーズ-multilingual-mpnet-base-v2のような代替よりもはるかに優れている。
また,各言語を対象とした単言語SBERTモデルもリリースし,IndicSBERTがモノリンガルモデルと競合することを示す。
これらのモデルは埋め込み類似度スコアと分類精度を用いて評価されている。
関連論文リスト
- Exposing Cross-Lingual Lexical Knowledge from Multilingual Sentence
Encoders [85.80950708769923]
本稿では,多言語言語モデルを用いて,それらのパラメータに格納された言語間語彙の知識量を探索し,元の多言語LMと比較する。
また、この知識を付加的に微調整した多言語モデルにより公開する新しい手法も考案した。
標準ベンチマークの大幅な向上を報告します。
論文 参考訳(メタデータ) (2022-04-30T13:23:16Z) - Evaluation of contextual embeddings on less-resourced languages [4.417922173735813]
本稿では,2つのELMoと2つの単言語および複数言語のBERTモデルに対して,9つの言語で14のタスクを用いた最初の多言語比較を行った。
モノリンガル設定では、単言語BERTモデルが一般的に支配的であり、依存性解析タスクなどいくつかの例外がある。
言語横断的な設定では、BERTモデルは少数の言語でのみ訓練され、非常に多言語なBERTモデルと密接に関連している。
論文 参考訳(メタデータ) (2021-07-22T12:32:27Z) - How Good is Your Tokenizer? On the Monolingual Performance of
Multilingual Language Models [96.32118305166412]
本研究では,5つの単一言語下流タスクのセットに基づいて,事前学習可能な単言語モデルを持つ9種類の言語について検討した。
多言語モデルの語彙で適切に表現された言語は、単言語モデルよりも性能が著しく低下する。
論文 参考訳(メタデータ) (2020-12-31T14:11:00Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Towards Fully Bilingual Deep Language Modeling [1.3455090151301572]
両言語のパフォーマンスを損なうことなく、2つの遠隔関連言語に対してバイリンガルモデルを事前学習することが可能かを検討する。
フィンランド英語のバイリンガルBERTモデルを作成し、対応するモノリンガルモデルを評価するために使用されるデータセットの性能を評価する。
我々のバイリンガルモデルは、GLUE上のGoogleのオリジナル英語BERTと同等に動作し、フィンランドのNLPタスクにおける単言語フィンランドBERTのパフォーマンスとほぼ一致します。
論文 参考訳(メタデータ) (2020-10-22T12:22:50Z) - What makes multilingual BERT multilingual? [60.9051207862378]
本研究は,既存の言語間能力の文献を補うための詳細な実験研究である。
我々は,非コンテクスト化および文脈化表現モデルの言語間能力と同一データとの比較を行った。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素であることがわかった。
論文 参考訳(メタデータ) (2020-10-20T05:41:56Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - Are All Languages Created Equal in Multilingual BERT? [22.954688396858085]
104言語で訓練されたMultilingual BERT (mBERT)は、いくつかのNLPタスクにおいて驚くほど優れた言語間性能を示している。
我々は、mBERTが低リソース言語における表現の質に焦点をあて、より広い言語群でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-18T21:15:39Z) - A Study of Cross-Lingual Ability and Language-specific Information in
Multilingual BERT [60.9051207862378]
Multilingual BERTは、言語間転送タスクで驚くほどうまく機能します。
データサイズとコンテキストウィンドウサイズは、転送可能性にとって重要な要素です。
多言語BERTの言語間能力を改善するために、計算的に安価だが効果的なアプローチがある。
論文 参考訳(メタデータ) (2020-04-20T11:13:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。