論文の概要: OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for
Offensive Language Identification
- arxiv url: http://arxiv.org/abs/2310.18387v2
- Date: Sat, 25 Nov 2023 13:13:01 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-30 13:26:10.760490
- Title: OffMix-3L: A Novel Code-Mixed Dataset in Bangla-English-Hindi for
Offensive Language Identification
- Title(参考訳): OffMix-3L: 攻撃的言語識別のためのバングラ・イングリッシュ・ヒンディーにおける新しいコード混合データセット
- Authors: Dhiman Goswami, Md Nishat Raihan, Antara Mahmud, Antonios
Anastasopoulos, Marcos Zampieri
- Abstract要約: コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声に混在している場合によく研究される言語現象である。
OFMix-3Lは、3つの異なる言語のコード混合データを含む新しい攻撃的言語識別データセットである。
- 参考スコア(独自算出の注目度): 26.11758147703999
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Code-mixing is a well-studied linguistic phenomenon when two or more
languages are mixed in text or speech. Several works have been conducted on
building datasets and performing downstream NLP tasks on code-mixed data.
Although it is not uncommon to observe code-mixing of three or more languages,
most available datasets in this domain contain code-mixed data from only two
languages. In this paper, we introduce OffMix-3L, a novel offensive language
identification dataset containing code-mixed data from three different
languages. We experiment with several models on this dataset and observe that
BanglishBERT outperforms other transformer-based models and GPT-3.5.
- Abstract(参考訳): コードミキシング(code-mixing)は、2つ以上の言語をテキストまたは音声で混合するよく研究された言語現象である。
データセットの構築や、コード混合データ上で下流のnlpタスクを実行する作業がいくつか行われている。
3つ以上の言語のコード混合を観察することは珍しくないが、このドメインで利用可能なデータセットのほとんどは、2つの言語からのコード混合データを含んでいる。
本稿では,3言語間のコード混合データを含む攻撃的言語識別データセットであるOFMix-3Lを紹介する。
本稿では,BanglishBERTが他のトランスフォーマーモデルやGPT-3.5より優れていることを示す。
関連論文リスト
- Data Mixture Inference: What do BPE Tokenizers Reveal about their Training Data? [112.0422370149713]
我々は、トレーニングデータの分布的構成を明らかにすることを目的として、データ混合推論と呼ぶタスクに取り組む。
従来見過ごされていた情報源であるバイトペアエンコーディング(BPE)トークン化器をベースとした,新たな攻撃手法を提案する。
我々は,自然言語,プログラミング言語,データソースの既知混合に基づいて訓練されたトークン化剤に対して,高い精度で混合比を回復することを示す。
論文 参考訳(メタデータ) (2024-07-23T16:13:22Z) - TransMI: A Framework to Create Strong Baselines from Multilingual Pretrained Language Models for Transliterated Data [50.40191599304911]
そこで我々は,Transliterate Transliteration-Merge (TransMI)を提案する。
結果は、モデルやタスクによって異なるが、3%から34%の改善が一貫したことを示している。
論文 参考訳(メタデータ) (2024-05-16T09:08:09Z) - EmoMix-3L: A Code-Mixed Dataset for Bangla-English-Hindi Emotion Detection [24.344204661349327]
コードミキシング(Code-mixing)は、2つ以上の言語がテキストや音声で混合されるときに発生する、よく研究された言語現象である。
EmoMix-3Lは、3つの異なる言語のコード混合データを含む、新しいマルチラベル感情検出データセットである。
論文 参考訳(メタデータ) (2024-05-11T05:58:55Z) - SentMix-3L: A Bangla-English-Hindi Code-Mixed Dataset for Sentiment
Analysis [26.11758147703999]
SentMix-3Lは3つの言語間のコード混合データを含む感情分析のための新しいデータセットである。
GPT-3.5は,SentMix-3L上でのトランスフォーマーモデルよりも優れていた。
論文 参考訳(メタデータ) (2023-10-27T09:59:24Z) - Mixed-Distil-BERT: Code-mixed Language Modeling for Bangla, English, and Hindi [0.0]
我々は、バングラ語、英語、ヒンディー語で事前訓練された多言語モデルTri-Distil-BERTと、コードミックスデータに基づいて微調整されたMixed-Distil-BERTを紹介する。
我々の2層事前学習アプローチは、多言語およびコード混在言語理解のための効率的な代替手段を提供する。
論文 参考訳(メタデータ) (2023-09-19T02:59:41Z) - Prompting Multilingual Large Language Models to Generate Code-Mixed
Texts: The Case of South East Asian Languages [47.78634360870564]
東南アジア7言語(SEA)のコードミキシングデータ生成のための多言語モデルの構築について検討する。
BLOOMZのような多言語学習モデルでは、異なる言語からフレーズや節でテキストを生成できないことが判明した。
ChatGPTは、コード混合テキストの生成において矛盾する機能を示しており、そのパフォーマンスはプロンプトテンプレートと言語ペアリングによって異なる。
論文 参考訳(メタデータ) (2023-03-23T18:16:30Z) - Transformer-based Model for Word Level Language Identification in
Code-mixed Kannada-English Texts [55.41644538483948]
コードミキシングしたカンナダ英語テキストにおける単語レベル言語識別のためのトランスフォーマーベースモデルを提案する。
The proposed model on the CoLI-Kenglish dataset achieves a weighted F1-score of 0.84 and a macro F1-score of 0.61。
論文 参考訳(メタデータ) (2022-11-26T02:39:19Z) - Neural Label Search for Zero-Shot Multi-Lingual Extractive Summarization [80.94424037751243]
ゼロショット多言語抽出テキスト要約では、通常、モデルは英語のデータセットに基づいて訓練され、他の言語の要約データセットに適用される。
本研究では,NLS(Neural Label Search for Summarization)を提案する。
我々はMLSUMとWikiLinguaのデータセット上で多言語ゼロショット要約実験を行い、人間と自動両方の評価を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-04-28T14:02:16Z) - L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and
BERT Language Models [1.14219428942199]
L3Cube-HingCorpusは,ローマ文字で最初の大規模実ヒンディー語混成データである。
GLUECoSベンチマークから,コード混合感情分析,POSタグ付け,NER,LIDなどの下流タスクに対するBERTモデルの有効性を示す。
論文 参考訳(メタデータ) (2022-04-18T16:49:59Z) - Offensive Language Identification in Low-resourced Code-mixed Dravidian
languages using Pseudo-labeling [0.16252563723817934]
我々は、タミル語、カナダ語、マラヤラム語のドラヴィダ語で、コードミックスされたソーシャルメディアコメント/ポストを分類する。
カスタムデータセットは、コードミキシングされたすべてのテキストをそれぞれのDravidian言語に翻訳することで構築される。
新たに構築されたデータセット上で、最近トレーニング済みの言語モデルをいくつか微調整する。
論文 参考訳(メタデータ) (2021-08-27T08:43:08Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。