論文の概要: Extending Multilingual BERT to Low-Resource Languages
- arxiv url: http://arxiv.org/abs/2004.13640v1
- Date: Tue, 28 Apr 2020 16:36:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 22:58:51.853821
- Title: Extending Multilingual BERT to Low-Resource Languages
- Title(参考訳): 低リソース言語への多言語BERTの拡張
- Authors: Zihan Wang, Karthikeyan K, Stephen Mayhew, Dan Roth
- Abstract要約: M-BERT(M-BERT)は、教師付きおよびゼロショットの言語間移動学習において大きな成功を収めている。
我々は、M-BERTを拡張して、新しい言語に利益をもたらすための、シンプルで効果的なアプローチを提案する。
- 参考スコア(独自算出の注目度): 71.0976635999159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multilingual BERT (M-BERT) has been a huge success in both supervised and
zero-shot cross-lingual transfer learning. However, this success has focused
only on the top 104 languages in Wikipedia that it was trained on. In this
paper, we propose a simple but effective approach to extend M-BERT (E-BERT) so
that it can benefit any new language, and show that our approach benefits
languages that are already in M-BERT as well. We perform an extensive set of
experiments with Named Entity Recognition (NER) on 27 languages, only 16 of
which are in M-BERT, and show an average increase of about 6% F1 on languages
that are already in M-BERT and 23% F1 increase on new languages.
- Abstract(参考訳): マルチリンガルBERT (M-BERT) は教師付きおよびゼロショットのクロスリンガル変換学習において大きな成功を収めている。
しかし、この成功は、訓練されたWikipediaのトップ104言語のみに焦点を当てている。
本稿では,M-BERT(E-BERT)を拡張して,任意の新しい言語にメリットをもたらすための,シンプルかつ効果的なアプローチを提案する。
我々は、M-BERTに含まれる言語のうち16言語のみが27言語で名前付きエンティティ認識(NER)による広範な実験を行い、M-BERTにすでに存在する言語では平均6%のF1、新しい言語では23%のF1の増加を示す。
関連論文リスト
- Scaling Speech Technology to 1,000+ Languages [66.31120979098483]
MMS(Massively Multilingual Speech)プロジェクトは、タスクに応じてサポート言語を10~40倍増やす。
主な材料は、一般に公開されている宗教文書の読解に基づく新しいデータセットである。
我々は,1,406言語,1,107言語用1つの多言語自動音声認識モデル,同一言語用音声合成モデル,4,017言語用言語識別モデルについて,事前学習したwav2vec 2.0モデルを構築した。
論文 参考訳(メタデータ) (2023-05-22T22:09:41Z) - gaBERT -- an Irish Language Model [7.834915319072005]
gaBERT はアイルランド語の単言語 BERT モデルである。
フィルタリング基準,語彙サイズ,サブワードトークン化モデルの選択が下流のパフォーマンスにどのように影響するかを示す。
論文 参考訳(メタデータ) (2021-07-27T16:38:53Z) - Multilingual LAMA: Investigating Knowledge in Multilingual Pretrained
Language Models [6.166295570030645]
プローブとして「パリは[MASK]の首都」などの仮訳文が用いられる。
確立されたベンチマークTRExとGoogleREを53言語に翻訳する。
mBERTを知識ベースとして使うと、言語によって様々なパフォーマンスが得られることが分かりました。
論文 参考訳(メタデータ) (2021-02-01T15:07:06Z) - Anchor-based Bilingual Word Embeddings for Low-Resource Languages [76.48625630211943]
良質な単言語単語埋め込み(MWEs)は、大量のラベルのないテキストを持つ言語向けに構築することができる。
MWEは、数千の単語変換ペアだけでバイリンガル空間に整列することができる。
本稿では,高資源言語におけるベクトル空間を出発点とするBWEの構築手法を提案する。
論文 参考訳(メタデータ) (2020-10-23T19:17:00Z) - Looking for Clues of Language in Multilingual BERT to Improve
Cross-lingual Generalization [56.87201892585477]
多言語BERT (m-BERT) には、言語情報と意味情報の両方が含まれている。
トークン埋め込みを操作することで多言語BERTの出力言語を制御する。
論文 参考訳(メタデータ) (2020-10-20T05:41:35Z) - It's not Greek to mBERT: Inducing Word-Level Translations from
Multilingual BERT [54.84185432755821]
mBERT (multilingual BERT) は、言語間での移動を可能にするリッチな言語間表現を学習する。
我々はmBERTに埋め込まれた単語レベルの翻訳情報について検討し、微調整なしで優れた翻訳能力を示す2つの簡単な方法を提案する。
論文 参考訳(メタデータ) (2020-10-16T09:49:32Z) - CoSDA-ML: Multi-Lingual Code-Switching Data Augmentation for Zero-Shot
Cross-Lingual NLP [68.2650714613869]
我々は,mBERTを微調整するための多言語コードスイッチングデータを生成するためのデータ拡張フレームワークを提案する。
既存の研究と比較すると,本手法は訓練にバイリンガル文を頼らず,複数の対象言語に対して1つの学習プロセスしか必要としない。
論文 参考訳(メタデータ) (2020-06-11T13:15:59Z) - Are All Languages Created Equal in Multilingual BERT? [22.954688396858085]
104言語で訓練されたMultilingual BERT (mBERT)は、いくつかのNLPタスクにおいて驚くほど優れた言語間性能を示している。
我々は、mBERTが低リソース言語における表現の質に焦点をあて、より広い言語群でどのように機能するかを考察する。
論文 参考訳(メタデータ) (2020-05-18T21:15:39Z) - An Empirical Study of Pre-trained Transformers for Arabic Information
Extraction [25.10651348642055]
我々は、GigaBERTと呼ばれるカスタマイズされたバイリンガルBERTを、アラビア語のNLPと英語からアラビア語へのゼロショットトランスファー学習のために事前訓練する。
GigaBERTによるIEタスク間のゼロショート転送の有効性について検討した。
我々の最良のモデルは、教師付きおよびゼロショット転送設定の両方において、mBERT、XLM-RoBERTa、AraBERTを大きく上回る。
論文 参考訳(メタデータ) (2020-04-30T00:01:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。