論文の概要: BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding
- arxiv url: http://arxiv.org/abs/2101.00204v1
- Date: Fri, 1 Jan 2021 09:28:45 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 11:10:40.244841
- Title: BanglaBERT: Combating Embedding Barrier for Low-Resource Language
Understanding
- Title(参考訳): BanglaBERT: 低リソース言語理解のための埋め込みバリア
- Authors: Abhik Bhattacharjee, Tahmid Hasan, Kazi Samin, M. Sohel Rahman,
Anindya Iqbal, Rifat Shahriyar
- Abstract要約: 私たちはバングラ自然言語理解モデルを構築し、インターネット上のトップバングラのサイトから収集した18.6gbのデータに基づいてトレーニングした。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
我々は、記述スクリプトを高リソースと共有しない低リソース言語のパフォーマンスを損なう多言語モデルの主な欠点を特定します。
- 参考スコア(独自算出の注目度): 1.7000879291900044
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-training language models on large volume of data with self-supervised
objectives has become a standard practice in natural language processing.
However, most such state-of-the-art models are available in only English and
other resource-rich languages. Even in multilingual models, which are trained
on hundreds of languages, low-resource ones still remain underrepresented.
Bangla, the seventh most widely spoken language in the world, is still low in
terms of resources. Few downstream task datasets for language understanding in
Bangla are publicly available, and there is a clear shortage of good quality
data for pre-training. In this work, we build a Bangla natural language
understanding model pre-trained on 18.6 GB data we crawled from top Bangla
sites on the internet. We introduce a new downstream task dataset and benchmark
on four tasks on sentence classification, document classification, natural
language understanding, and sequence tagging. Our model outperforms
multilingual baselines and previous state-of-the-art results by 1-6%. In the
process, we identify a major shortcoming of multilingual models that hurt
performance for low-resource languages that don't share writing scripts with
any high resource one, which we name the `Embedding Barrier'. We perform
extensive experiments to study this barrier. We release all our datasets and
pre-trained models to aid future NLP research on Bangla and other low-resource
languages. Our code and data are available at
https://github.com/csebuetnlp/banglabert.
- Abstract(参考訳): 自己教師対象を持つ大量のデータに対する事前学習言語モデルは、自然言語処理における標準的実践となっている。
しかし、そのような最先端のモデルのほとんどは英語や他のリソース豊富な言語でのみ利用可能である。
何百もの言語でトレーニングされている多言語モデルにおいても、低リソースモデルはいまだに不足している。
バングラ語は世界で7番目に広く話されている言語であり、資源の面ではまだ低い。
バングラの言語理解のためのダウンストリームタスクデータセットは公開されておらず、事前トレーニングのための品質データは明らかに不足している。
本研究では,インターネット上のトップサイトから収集した18.6GBのデータに基づいて,Banglaの自然言語理解モデルを構築した。
文分類,文書分類,自然言語理解,シーケンスタグ付けの4つのタスクについて,新たなダウンストリームタスクデータセットとベンチマークを導入する。
本モデルは,多言語ベースラインを上回り,前回の結果を1~6%上回った。
このプロセスでは、高いリソースを持つ言語とスクリプトを共有しない低リソース言語のパフォーマンスを損なう多言語モデルの大きな欠点を特定します。
我々はこの障壁を研究するために広範な実験を行う。
すべてのデータセットと事前トレーニングされたモデルをリリースし、Banglaや他の低リソース言語に関する今後のNLP研究を支援します。
私たちのコードとデータはhttps://github.com/csebuetnlp/banglabertで入手できます。
関連論文リスト
- Constructing and Expanding Low-Resource and Underrepresented Parallel Datasets for Indonesian Local Languages [0.0]
インドネシアの5つの言語を特徴とする多言語並列コーパスであるBhinneka Korpusを紹介する。
我々のゴールは、これらの資源へのアクセスと利用を強化し、国内へのリーチを広げることです。
論文 参考訳(メタデータ) (2024-04-01T09:24:06Z) - Zero-shot Sentiment Analysis in Low-Resource Languages Using a
Multilingual Sentiment Lexicon [78.12363425794214]
私たちは、34の言語にまたがるゼロショットの感情分析タスクに重点を置いています。
文レベルの感情データを使用しない多言語語彙を用いた事前学習は、英語の感情データセットに微調整されたモデルと比較して、ゼロショット性能が優れていることを示す。
論文 参考訳(メタデータ) (2024-02-03T10:41:05Z) - NusaWrites: Constructing High-Quality Corpora for Underrepresented and
Extremely Low-Resource Languages [54.808217147579036]
インドネシアの地方言語について事例研究を行う。
データセット構築におけるオンラインスクラップ,人文翻訳,および母語話者による段落作成の有効性を比較した。
本研究は,母語話者による段落作成によって生成されたデータセットが,語彙的多様性と文化的内容の点で優れた品質を示すことを示す。
論文 参考訳(メタデータ) (2023-09-19T14:42:33Z) - BLOOM+1: Adding Language Support to BLOOM for Zero-Shot Prompting [50.24676567971536]
BLOOMモデルは広く公開されている多言語言語モデルであるが、事前訓練は46言語に限られていた。
既存の言語適応戦略をBLOOMに適用し、8つの新しい言語の性能向上を促すゼロショットをベンチマークする。
データ言語を十分に訓練すれば、多様な言語に適応できると結論付けている。
論文 参考訳(メタデータ) (2022-12-19T15:24:45Z) - Language Model Pre-Training with Sparse Latent Typing [66.75786739499604]
そこで本研究では,多種多様な潜在型を持つ文レベルのキーワードを疎に抽出することのできる,事前学習対象Sparse Latent Typingを提案する。
実験結果から,本モデルは外部知識を使わずに,自己教師型で解釈可能な潜在型カテゴリを学習できることが示唆された。
論文 参考訳(メタデータ) (2022-10-23T00:37:08Z) - Can Character-based Language Models Improve Downstream Task Performance
in Low-Resource and Noisy Language Scenarios? [0.0]
我々は、ナラビジ(NArabizi)と呼ばれるラテン文字の拡張を用いて書かれた北アフリカ方言のアラビア語に焦点を当てている。
ナラビジの99k文のみを学習し,小さな木バンクで微調整したキャラクタベースモデルは,大規模多言語モデルとモノリンガルモデルで事前学習した同じアーキテクチャで得られたものに近い性能を示す。
論文 参考訳(メタデータ) (2021-10-26T14:59:16Z) - LaoPLM: Pre-trained Language Models for Lao [3.2146309563776416]
事前訓練された言語モデル(PLM)は、コンテキストにおける異なるレベルの概念をキャプチャし、普遍的な言語表現を生成する。
PTMは、ほとんどのNLPアプリケーションで広く使われているが、Lao NLP研究ではあまり使われていない。
ラオス語の資源管理状況を軽減するために,テキスト分類データセットを構築した。
本稿では,ラオスにおけるトランスフォーマーベースのPTMを,BERT-small,BERT-base,ELECTRA-small,ELECTRA-baseの4つのバージョンで提案する。
論文 参考訳(メタデータ) (2021-10-12T11:13:07Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z) - WikiBERT models: deep transfer learning for many languages [1.3455090151301572]
ウィキペディアデータから言語固有のBERTモデルを作成するための、単純で完全に自動化されたパイプラインを導入します。
我々は,これらのモデルの有効性を,Universal Dependenciesデータに基づく最先端のUDifyを用いて評価する。
論文 参考訳(メタデータ) (2020-06-02T11:57:53Z) - Give your Text Representation Models some Love: the Case for Basque [24.76979832867631]
単語の埋め込みと事前訓練された言語モデルは、テキストのリッチな表現を構築することができる。
多くの小規模企業や研究グループは、サードパーティによって事前訓練され利用可能になったモデルを使用する傾向にある。
これは、多くの言語において、モデルはより小さい(またはより低い)コーパスで訓練されているため、亜最適である。
より大規模なバスク語コーパスを用いて学習したモノリンガルモデルでは、下流のNLPタスクで利用可能なバージョンよりもはるかに優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2020-03-31T18:01:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。