論文の概要: L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking
BERT Sentence Representations for Hindi and Marathi
- arxiv url: http://arxiv.org/abs/2211.11187v2
- Date: Tue, 22 Nov 2022 05:38:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 16:07:01.308272
- Title: L3Cube-MahaSBERT and HindSBERT: Sentence BERT Models and Benchmarking
BERT Sentence Representations for Hindi and Marathi
- Title(参考訳): L3Cube-MahaSBERT と HindSBERT:Hindi と Marathi のための文 BERT モデルとベンチマーク BERT 文表現
- Authors: Ananya Joshi, Aditi Kajale, Janhavi Gadre, Samruddhi Deode, Raviraj
Joshi
- Abstract要約: この研究は、ヒンディー語とマラティ語という2つの低リソースのインドの言語に焦点を当てている。
機械翻訳を用いた合成NLIとSTSデータセットを用いて,これらの言語のための文-BERTモデルを訓練する。
我々は,NLI事前学習とSTSbファインチューニングの戦略が,ヒンディー語とマラタイ語の文類似性モデルの生成に有効であることを示す。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Sentence representation from vanilla BERT models does not work well on
sentence similarity tasks. Sentence-BERT models specifically trained on STS or
NLI datasets are shown to provide state-of-the-art performance. However,
building these models for low-resource languages is not straightforward due to
the lack of these specialized datasets. This work focuses on two low-resource
Indian languages, Hindi and Marathi. We train sentence-BERT models for these
languages using synthetic NLI and STS datasets prepared using machine
translation. We show that the strategy of NLI pre-training followed by STSb
fine-tuning is effective in generating high-performance sentence-similarity
models for Hindi and Marathi. The vanilla BERT models trained using this simple
strategy outperform the multilingual LaBSE trained using a complex training
strategy. These models are evaluated on downstream text classification and
similarity tasks. We evaluate these models on real text classification datasets
to show embeddings obtained from synthetic data training are generalizable to
real datasets as well and thus represent an effective training strategy for
low-resource languages. We also provide a comparative analysis of sentence
embeddings from fast text models, multilingual BERT models (mBERT, IndicBERT,
xlm-RoBERTa, MuRIL), multilingual sentence embedding models (LASER, LaBSE), and
monolingual BERT models based on L3Cube-MahaBERT and HindBERT. We release
L3Cube-MahaSBERT and HindSBERT, the state-of-the-art sentence-BERT models for
Marathi and Hindi respectively. Our work also serves as a guide to building
low-resource sentence embedding models.
- Abstract(参考訳): バニラBERTモデルからの文表現は文類似性タスクではうまく機能しない。
STSまたはNLIデータセットで特別にトレーニングされた文-BERTモデルは、最先端のパフォーマンスを提供する。
しかし、これらの特殊なデータセットがないため、低リソース言語向けにこれらのモデルを構築するのは簡単ではない。
この研究はヒンディー語とマラティ語という2つの低資源インド語に焦点をあてている。
機械翻訳を用いて合成nliとstsデータセットを用いてこれらの言語の文型モデルを訓練する。
nli事前学習とstsb微調整の戦略は,ヒンディー語とマラティ語の高性能文相似性モデルの生成に有効であることを示した。
この単純な戦略を用いて訓練されたバニラBERTモデルは、複雑な訓練戦略を用いて訓練された多言語LaBSEよりも優れていた。
これらのモデルは、下流のテキスト分類と類似性タスクで評価される。
これらのモデルを実テキスト分類データセット上で評価することにより、合成データトレーニングから得られた埋め込みが実際のデータセットに一般化可能であることを示し、低リソース言語に対する効果的なトレーニング戦略を示す。
また、高速テキストモデル、多言語BERTモデル(mBERT, IndicBERT, xlm-RoBERTa, MuRIL)、多言語文埋め込みモデル(LASER, LaBSE)、L3Cube-MahaBERTとHindBERTに基づく単言語BERTモデルの比較分析を行った。
本稿では,Marathi と Hindi の最先端文-BERT モデルである L3Cube-MahaSBERT と HindSBERT をそれぞれリリースする。
私たちの作品は、低リソースの文埋め込みモデルを構築するためのガイドとしても役立ちます。
関連論文リスト
- Unlocking the Potential of Model Merging for Low-Resource Languages [66.7716891808697]
大規模言語モデルを新しい言語に適応させるには、通常、継続事前訓練(CT)と、教師付き微調整(SFT)が含まれる。
我々は低リソース言語の代替としてモデルマージを提案し、異なる機能を持つモデルを追加トレーニングなしで単一のモデルに組み合わせる。
Llama-2-7Bをベースとした実験により、モデルマージはタスク解決能力の低い低リソース言語に対して、極めて少ないデータを持つシナリオにおいて、CT-then-SFTよりも優れていることが実証された。
論文 参考訳(メタデータ) (2024-07-04T15:14:17Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Cross-Lingual NER for Financial Transaction Data in Low-Resource
Languages [70.25418443146435]
半構造化テキストデータにおける言語間名前認識のための効率的なモデリングフレームワークを提案する。
我々は2つの独立したSMSデータセットを英語とアラビア語で使用し、それぞれが半構造化された銀行取引情報を持っている。
わずか30のラベル付きサンプルにアクセスすることで、我々のモデルは、英語からアラビア語までの商人、金額、その他の分野の認識を一般化することができる。
論文 参考訳(メタデータ) (2023-07-16T00:45:42Z) - L3Cube-HindBERT and DevBERT: Pre-Trained BERT Transformer models for
Devanagari based Hindi and Marathi Languages [1.14219428942199]
ヒンディー語単言語コーパスで事前学習したヒンディー語 BERT モデル L3Cube-HindBERT について述べる。
私たちは、MarathiとHindiのモノリンガルデータセットに基づいてトレーニングされたDevanagari BERTモデルであるDevBERTをリリースします。
論文 参考訳(メタデータ) (2022-11-21T13:02:52Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - MoEBERT: from BERT to Mixture-of-Experts via Importance-Guided
Adaptation [68.30497162547768]
本研究では,Mixture-of-Experts構造を用いてモデルキャパシティと推論速度を向上させるMoEBERTを提案する。
自然言語理解と質問応答タスクにおけるMoEBERTの有効性と有効性を検証する。
論文 参考訳(メタデータ) (2022-04-15T23:19:37Z) - Self-Training Vision Language BERTs with a Unified Conditional Model [51.11025371762571]
本稿では,ラベルのない画像データからVL-BERTを学習する自己学習手法を提案する。
ラベル付き画像データを用いて教師モデルを訓練し、トレーニングされたモデルを用いてラベルなし画像データに擬似キャプションを生成する。
提案された自己学習アプローチと、ラベル付けされていない300万の余分なデータを使用することで、競争力やパフォーマンスを向上することが可能になります。
論文 参考訳(メタデータ) (2022-01-06T11:00:52Z) - Evaluation of BERT and ALBERT Sentence Embedding Performance on
Downstream NLP Tasks [4.955649816620742]
本稿では,BERT と ALBERT の文埋め込みモデルについて検討する。
我々は、Sentence-BERT (SBERT) と呼ばれるシアムとトリプルトネットワーク構造を持つBERTネットワークを改良し、BERTをALBERTに置き換え、Sentence-ALBERT (SALBERT) を作成する。
論文 参考訳(メタデータ) (2021-01-26T09:14:06Z) - UNKs Everywhere: Adapting Multilingual Language Models to New Scripts [103.79021395138423]
マルチリンガルBERT(mBERT)やXLM-Rのような多言語言語モデルは、様々なNLPタスクに対して最先端の言語間転送性能を提供する。
キャパシティの制限と事前トレーニングデータの大きな差のため、リソース豊富な言語とリソースを対象とする言語には大きなパフォーマンスギャップがある。
本稿では,事前学習した多言語モデルの低リソース言語や未知のスクリプトへの高速かつ効果的な適応を可能にする新しいデータ効率手法を提案する。
論文 参考訳(メタデータ) (2020-12-31T11:37:28Z) - ParsBERT: Transformer-based Model for Persian Language Understanding [0.7646713951724012]
本稿ではペルシャ語用単言語BERT(ParsBERT)を提案する。
他のアーキテクチャや多言語モデルと比較すると、最先端のパフォーマンスを示している。
ParsBERTは、既存のデータセットや合成データセットを含む、すべてのデータセットでより高いスコアを取得する。
論文 参考訳(メタデータ) (2020-05-26T05:05:32Z) - TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data [113.29476656550342]
本研究では,NL文と表の表現を共同で学習する事前学習型LMであるTaBERTを提案する。
TaBERTは、600万のテーブルとその英語コンテキストからなる大規模なコーパスで訓練されている。
モデルの実装はhttp://fburl.com/TaBERT.comで公開される。
論文 参考訳(メタデータ) (2020-05-17T17:26:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。