論文の概要: Cross-Linguistic Offensive Language Detection: BERT-Based Analysis of
Bengali, Assamese, & Bodo Conversational Hateful Content from Social Media
- arxiv url: http://arxiv.org/abs/2312.10528v1
- Date: Sat, 16 Dec 2023 19:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:07:47.895033
- Title: Cross-Linguistic Offensive Language Detection: BERT-Based Analysis of
Bengali, Assamese, & Bodo Conversational Hateful Content from Social Media
- Title(参考訳): 言語横断攻撃型言語検出: BERTによるベンガル語・アサメズ語・ボド語会話コンテンツの分析
- Authors: Jhuma Kabir Mim, Mourad Oussalah, Akash Singhal
- Abstract要約: 本稿では,HASOC-2023攻撃言語識別結果から得られた包括的結果と重要な成果について述べる。
主な重点はベンガル語、アサメ語、ボド語の言語領域におけるヘイトスピーチの綿密な検出である。
この作業では、XML-Roberta、L3-cube、IndicBERT、BenglaBERT、BanglaHateBERTといったBERTモデルを使用しました。
- 参考スコア(独自算出の注目度): 0.8287206589886881
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In today's age, social media reigns as the paramount communication platform,
providing individuals with the avenue to express their conjectures,
intellectual propositions, and reflections. Unfortunately, this freedom often
comes with a downside as it facilitates the widespread proliferation of hate
speech and offensive content, leaving a deleterious impact on our world. Thus,
it becomes essential to discern and eradicate such offensive material from the
realm of social media. This article delves into the comprehensive results and
key revelations from the HASOC-2023 offensive language identification result.
The primary emphasis is placed on the meticulous detection of hate speech
within the linguistic domains of Bengali, Assamese, and Bodo, forming the
framework for Task 4: Annihilate Hates. In this work, we used BERT models,
including XML-Roberta, L3-cube, IndicBERT, BenglaBERT, and BanglaHateBERT. The
research outcomes were promising and showed that XML-Roberta-lagre performed
better than monolingual models in most cases. Our team 'TeamBD' achieved rank
3rd for Task 4 - Assamese, & 5th for Bengali.
- Abstract(参考訳): 今日の時代には、ソーシャルメディアが最重要コミュニケーションプラットフォームとして支配され、予測、知的命題、リフレクションを表現するための道のりを個人に提供する。
残念ながら、この自由は、ヘイトスピーチと攻撃的なコンテンツの普及を助長し、我々の世界に有害な影響を残しているため、しばしばマイナス面が伴う。
そのため、こうした攻撃的な資料をソーシャルメディアの領域から識別・消去することが不可欠となる。
本論文は,hasoc-2023攻撃言語識別結果の包括的結果と鍵となる発見について述べる。
主な重点はベンガル語、アサメセ語、ボド語の言語領域におけるヘイトスピーチの綿密な検出であり、第4タスク:アニヒラート・ハットの枠組みを形成している。
この作業では、XML-Roberta、L3-cube、IndicBERT、BenglaBERT、BanglaHateBERTといったBERTモデルを使用しました。
研究結果は有望であり、ほとんどの場合、XML-Roberta-lagreは単言語モデルよりも優れた性能を示した。
我がチーム「TeamBD」は第4タスクで3位、ベンガルでは5位となった。
関連論文リスト
- Sentiment-enhanced Graph-based Sarcasm Explanation in Dialogue [67.09698638709065]
本稿では,SEntiment-enhanceD Graph を用いたマルチモーダルサルカズム記述フレームワーク EDGE を提案する。
特に,まずレキシコン誘導型発話感情推論モジュールを提案し,そこでは発話感情改善戦略を考案する。
次に,マルチモーダル感情分析モデル JCA を拡張し,映像音声クリップ毎に共同感情ラベルを導出することにより,JCA-SI (Joint Cross Attention-based Sentiment Inference) というモジュールを開発する。
論文 参考訳(メタデータ) (2024-02-06T03:14:46Z) - Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - Harnessing Pre-Trained Sentence Transformers for Offensive Language
Detection in Indian Languages [0.6526824510982802]
この研究はヘイトスピーチ検出の領域に踏み込み、ベンガル語、アサメセ語、グジャラート語という3つの低リソースのインドの言語に特に重点を置いている。
この課題は、ツイートが攻撃的コンテンツを含むか、非攻撃的コンテンツを含むかを識別することを目的としたテキスト分類タスクである。
我々は,事前学習したBERTモデルとSBERTモデルを微調整し,ヘイトスピーチの同定の有効性を評価する。
論文 参考訳(メタデータ) (2023-10-03T17:53:09Z) - Exploring Cross-Cultural Differences in English Hate Speech Annotations: From Dataset Construction to Analysis [44.17106903728264]
ほとんどのヘイトスピーチデータセットは、単一の言語における文化的多様性を無視している。
そこで本研究では,CRoss文化の英語Hate音声データセットであるCREHateを紹介する。
CREHateのポストの56.2%のみが全国でコンセンサスを達成しており、ペアのラベル差が最も高いのは26%である。
論文 参考訳(メタデータ) (2023-08-31T13:14:47Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - FBERT: A Neural Transformer for Identifying Offensive Content [67.12838911384024]
fBERTは、SOLIDで再訓練されたBERTモデルである。
複数の英文データセット上での攻撃的内容の同定におけるfBERTの性能を評価し、SOLIDからインスタンスを選択するためのしきい値をテストする。
fBERTモデルは、コミュニティで自由に利用できるようになる。
論文 参考訳(メタデータ) (2021-09-10T19:19:26Z) - DeepHateExplainer: Explainable Hate Speech Detection in Under-resourced
Bengali Language [1.2246649738388389]
ベンガル語からのヘイトスピーチ検出のための説明可能なアプローチを提案する。
我々のアプローチでは、ベンガルのテキストは、政治的、個人的、地政学的、宗教的憎悪に分類する前に、最初に包括的に前処理される。
機械学習(線形および木ベースのモデル)およびディープニューラルネットワーク(CNN、Bi-LSTM、Conv-LSTMなどの単語埋め込み)に対する評価は、それぞれ政治的、個人的、地政学的、宗教的憎悪に対して、F1スコアは84%、90%、88%、88%である。
論文 参考訳(メタデータ) (2020-12-28T16:46:03Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。