論文の概要: L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and
BERT Language Models
- arxiv url: http://arxiv.org/abs/2204.08398v1
- Date: Mon, 18 Apr 2022 16:49:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-19 13:25:55.727984
- Title: L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and
BERT Language Models
- Title(参考訳): L3Cube-HingCorpusとHingBERT:Hindi-EnglishデータセットとBERT言語モデルを組み合わせたコード
- Authors: Ravindra Nayak, Raviraj Joshi
- Abstract要約: L3Cube-HingCorpusは,ローマ文字で最初の大規模実ヒンディー語混成データである。
GLUECoSベンチマークから,コード混合感情分析,POSタグ付け,NER,LIDなどの下流タスクに対するBERTモデルの有効性を示す。
- 参考スコア(独自算出の注目度): 1.14219428942199
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching occurs when more than one language is mixed in a given
sentence or a conversation. This phenomenon is more prominent on social media
platforms and its adoption is increasing over time. Therefore code-mixed NLP
has been extensively studied in the literature. As pre-trained
transformer-based architectures are gaining popularity, we observe that real
code-mixing data are scarce to pre-train large language models. We present
L3Cube-HingCorpus, the first large-scale real Hindi-English code mixed data in
a Roman script. It consists of 52.93M sentences and 1.04B tokens, scraped from
Twitter. We further present HingBERT, HingMBERT, HingRoBERTa, and HingGPT. The
BERT models have been pre-trained on codemixed HingCorpus using masked language
modelling objectives. We show the effectiveness of these BERT models on the
subsequent downstream tasks like code-mixed sentiment analysis, POS tagging,
NER, and LID from the GLUECoS benchmark. The HingGPT is a GPT2 based generative
transformer model capable of generating full tweets. We also release
L3Cube-HingLID Corpus, the largest code-mixed Hindi-English language
identification(LID) dataset and HingBERT-LID, a production-quality LID model to
facilitate capturing of more code-mixed data using the process outlined in this
work. The dataset and models are available at
https://github.com/l3cube-pune/code-mixed-nlp .
- Abstract(参考訳): コードスイッチングは、ある文や会話に複数の言語が混在している場合に発生する。
この現象はソーシャルメディアプラットフォームで顕著であり、その採用は時間とともに増加している。
そのため、コード混合NLPは文献で広く研究されている。
事前学習されたトランスフォーマーベースのアーキテクチャが普及するにつれて、実際のコード混合データが事前学習された大規模言語モデルに不足していることが観察される。
L3Cube-HingCorpusは,ローマ文字で最初の大規模実ヒンディー語混成データである。
52.93mの文と1.04bのトークンからなる。
さらに、HingBERT、HingMBERT、HingRoBERTa、HingGPTを紹介する。
BERTモデルは、マスク付き言語モデリングの目的を使用して、コードミックスされたHingCorpusで事前訓練されている。
GLUECoSベンチマークから,コード混合感情分析,POSタグ付け,NER,LIDなどの下流タスクに対するBERTモデルの有効性を示す。
HingGPTは、全ツイートを生成することができるGPT2ベースの生成トランスフォーマーモデルである。
また,L3Cube-HingLID Corpus,最大コード混合ヒンディー語識別(LID)データセット,HingBERT-LIDもリリースした。
データセットとモデルはhttps://github.com/l3cube-pune/code-mixed-nlpで入手できる。
関連論文リスト
- TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - My Boli: Code-mixed Marathi-English Corpora, Pretrained Language Models
and Evaluation Benchmarks [0.7874708385247353]
私たちは、コードミキシングにおける事前の作業が欠けている低リソースのインドの言語であるMarathiにフォーカスしています。
L3Cube-MeCorpusは,Mr-Enコーパスと1000万のソーシャルメディア文による事前学習用コーパスである。
また、コード混合BERTベースのトランスモデルであるL3Cube-MeBERTとMeRoBERTaをMeCorpusで事前学習した。
論文 参考訳(メタデータ) (2023-06-24T18:17:38Z) - Leveraging Language Identification to Enhance Code-Mixed Text
Classification [0.7340017786387767]
既存のディープラーニングモデルは、コード混合テキストの暗黙の言語情報を活用できない。
本研究の目的は,低リソースのCode-Mixed Hindi- Englishデータセット上でのBERTモデルの性能向上である。
論文 参考訳(メタデータ) (2023-06-08T06:43:10Z) - Comparative Study of Pre-Trained BERT Models for Code-Mixed
Hindi-English Data [0.7874708385247353]
コードミックス(Code Mixed)とは、複数の言語を同一のテキストで使用すること。
本研究では、低リソースのヒンディー語-英語のコード混合言語に焦点を当てる。
我々は,HingBERTに基づくモデルを用いて,各データセットの最先端結果について報告する。
論文 参考訳(メタデータ) (2023-05-25T05:10:28Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Modeling Sequential Sentence Relation to Improve Cross-lingual Dense
Retrieval [87.11836738011007]
マスク付き文モデル(MSM)と呼ばれる多言語多言語言語モデルを提案する。
MSMは、文表現を生成する文エンコーダと、文書から文ベクトルのシーケンスに適用される文書エンコーダとから構成される。
モデルをトレーニングするために,サンプル負の階層的コントラスト損失によって文ベクトルをマスクし,予測するマスク付き文予測タスクを提案する。
論文 参考訳(メタデータ) (2023-02-03T09:54:27Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Exploring Text-to-Text Transformers for English to Hinglish Machine
Translation with Synthetic Code-Mixing [19.19256927651015]
モノリンガル英語のテキストをHinglish(コード混合ヒンディー語と英語)に変換するモデルを記述する。
事前訓練された言語モデルの最近の成功を踏まえ、トランスフォーマーベースのエンコーダデコーダモデルの実用性についても検証する。
私たちのモデルは、英語と英語の公式共有タスクの全体的なランキングで第一位です。
論文 参考訳(メタデータ) (2021-05-18T19:50:25Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。