論文の概要: A Twitter BERT Approach for Offensive Language Detection in Marathi
- arxiv url: http://arxiv.org/abs/2212.10039v1
- Date: Tue, 20 Dec 2022 07:22:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-21 15:22:30.888798
- Title: A Twitter BERT Approach for Offensive Language Detection in Marathi
- Title(参考訳): マラウイにおける攻撃言語検出のためのTwitter BERTアプローチ
- Authors: Tanmay Chavan, Shantanu Patankar, Aditya Kane, Omkar Gokhale, Raviraj
Joshi
- Abstract要約: 本稿では,低リソースな言語であるMarathiにおける攻撃的言語識別に関する研究について述べる。
本分類課題では,ソーシャルメディアデータセットで事前学習したBERTモデルに着目し,単言語モデルと多言語BERTモデルの比較を行った。
BERTモデルであるMahaTweetBERTは、組み合わせデータセット(HASOC 2021 + HASOC 2022 + MahaHate)で微調整されたマラタイのツイートで事前訓練され、HASOC 2022テストセットでF1スコア98.43で全てのモデルを上回っている。
- 参考スコア(独自算出の注目度): 0.7874708385247353
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated offensive language detection is essential in combating the spread
of hate speech, particularly in social media. This paper describes our work on
Offensive Language Identification in low resource Indic language Marathi. The
problem is formulated as a text classification task to identify a tweet as
offensive or non-offensive. We evaluate different mono-lingual and
multi-lingual BERT models on this classification task, focusing on BERT models
pre-trained with social media datasets. We compare the performance of MuRIL,
MahaTweetBERT, MahaTweetBERT-Hateful, and MahaBERT on the HASOC 2022 test set.
We also explore external data augmentation from other existing Marathi hate
speech corpus HASOC 2021 and L3Cube-MahaHate. The MahaTweetBERT, a BERT model,
pre-trained on Marathi tweets when fine-tuned on the combined dataset (HASOC
2021 + HASOC 2022 + MahaHate), outperforms all models with an F1 score of 98.43
on the HASOC 2022 test set. With this, we also provide a new state-of-the-art
result on HASOC 2022 / MOLD v2 test set.
- Abstract(参考訳): 自動攻撃言語検出は、特にソーシャルメディアにおけるヘイトスピーチの拡散に対処するのに不可欠である。
本稿では,低資源言語マラーティーにおける攻撃的言語識別に関する研究について述べる。
この問題は、ツイートを攻撃的あるいは非攻撃的と識別するためのテキスト分類タスクとして定式化されている。
本分類課題では,ソーシャルメディアデータセットで事前学習したBERTモデルに着目し,単言語モデルと多言語BERTモデルの比較を行った。
HASOC 2022 テストセットにおける MuRIL, MahaTweetBERT, MahaTweetBERT-Hateful, MahaBERT のパフォーマンスを比較した。
また,既存のマラウイヘイトスピーチコーパスであるHASOC 2021とL3Cube-MahaHateの外部データ拡張についても検討した。
BERTモデルであるMahaTweetBERTは、組み合わせデータセット(HASOC 2021 + HASOC 2022 + MahaHate)で微調整されたマラタイのツイートで事前訓練され、HASOC 2022テストセットでF1スコア98.43で全てのモデルを上回っている。
これにより、HASOC 2022 / MOLD v2テストセット上で、最先端の新たな結果も提供する。
関連論文リスト
- CoSTA: Code-Switched Speech Translation using Aligned Speech-Text Interleaving [61.73180469072787]
インド語から英語のテキストへのコード変更音声の音声翻訳(ST)の問題に焦点をあてる。
本稿では、事前訓練された自動音声認識(ASR)と機械翻訳(MT)モジュールを足場として、新しいエンドツーエンドモデルアーキテクチャCOSTAを提案する。
COSTAは、多くの競合するカスケードおよびエンドツーエンドのマルチモーダルベースラインを3.5BLEUポイントまで上回っている。
論文 参考訳(メタデータ) (2024-06-16T16:10:51Z) - Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages [0.6526824510982802]
この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:09Z) - Unify word-level and span-level tasks: NJUNLP's Participation for the
WMT2023 Quality Estimation Shared Task [59.46906545506715]
我々は、WMT 2023 Quality Estimation (QE)共有タスクにNJUNLPチームを紹介する。
私たちのチームは2つのサブタスクすべてで英語とドイツ語のペアの予測を提出しました。
我々のモデルは、単語レベルと細粒度エラースパン検出サブタスクの両方において、英語とドイツ語で最高の結果を得た。
論文 参考訳(メタデータ) (2023-09-23T01:52:14Z) - ComSL: A Composite Speech-Language Model for End-to-End Speech-to-Text
Translation [79.66359274050885]
公的な事前訓練された音声のみのモデルと言語のみのモデルからなる複合アーキテクチャ上に構築された音声言語モデルであるComSLを提案する。
提案手法は,エンドツーエンドの音声-テキスト翻訳タスクにおいて有効であることを示す。
論文 参考訳(メタデータ) (2023-05-24T07:42:15Z) - Speech-to-Speech Translation For A Real-world Unwritten Language [62.414304258701804]
本研究では、ある言語から別の言語に音声を翻訳する音声音声翻訳(S2ST)について研究する。
我々は、トレーニングデータ収集、モデル選択、ベンチマークデータセットのリリースからエンドツーエンドのソリューションを提示します。
論文 参考訳(メタデータ) (2022-11-11T20:21:38Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Mono vs Multilingual BERT for Hate Speech Detection and Text
Classification: A Case Study in Marathi [0.966840768820136]
マラーティー語に焦点をあて、ヘイトスピーチの検出、感情分析、マラティー語における単純なテキスト分類のためのデータセットのモデルを評価する。
我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。
単言語MahaBERTをベースとしたモデルでは,多言語からの文の埋め込みに比べて表現が豊富であることを示す。
論文 参考訳(メタデータ) (2022-04-19T05:07:58Z) - Hate and Offensive Speech Detection in Hindi and Marathi [0.0]
それでもヘイトと攻撃的な音声検出は、データの入手が不十分なため、課題に直面している。
本研究では,ヒンディー語文とマラタイ語文のヘイトと攻撃的な音声検出について考察する。
CNNやLSTM,多言語BERT,IndicBERT,モノリンガルRoBERTaといったBERTのバリエーションなど,さまざまなディープラーニングアーキテクチャについて検討する。
我々は,変換器をベースとしたモデルが,FastText埋め込みとともに基本モデルでも最高の性能を発揮することを示す。
論文 参考訳(メタデータ) (2021-10-23T11:57:36Z) - KBCNMUJAL@HASOC-Dravidian-CodeMix-FIRE2020: Using Machine Learning for
Detection of Hate Speech and Offensive Code-Mixed Social Media text [1.0499611180329804]
本論文では,欧州言語におけるHate Speech と Offensive Content Identification の共有タスク 2 タスクについて,KBCNMUJAL チームから提出されたシステムについて述べる。
2つのドラヴィディアン言語Vizのデータセット。
サイズ4000のマラヤラムとタミルは、それぞれHASOC主催者によって共有されました。
両言語で開発された最も優れた分類モデルは、テストデータセットに適用される。
論文 参考訳(メタデータ) (2021-02-19T11:08:02Z) - HASOCOne@FIRE-HASOC2020: Using BERT and Multilingual BERT models for
Hate Speech Detection [9.23545668304066]
ヘイトスピーチと攻撃的コンテンツを自動的に分類する手法を提案する。
FIRE 2019と2020の共有タスクから得られたデータセットを使用しました。
事前学習したBERTモデルと多言語BERTモデルが最良の結果となった。
論文 参考訳(メタデータ) (2021-01-22T08:55:32Z) - Kungfupanda at SemEval-2020 Task 12: BERT-Based Multi-Task Learning for
Offensive Language Detection [55.445023584632175]
我々は,マルチタスク学習とBERTモデルを組み合わせた攻撃的言語検出システムを構築した。
我々のモデルは、英語のサブタスクAで91.51%のF1スコアを獲得し、これは第1位に匹敵する。
論文 参考訳(メタデータ) (2020-04-28T11:27:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。