論文の概要: Bangla hate speech detection on social media using attention-based
recurrent neural network
- arxiv url: http://arxiv.org/abs/2203.16775v1
- Date: Thu, 31 Mar 2022 03:31:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 06:18:31.548896
- Title: Bangla hate speech detection on social media using attention-based
recurrent neural network
- Title(参考訳): 注意に基づくリカレントニューラルネットワークを用いたソーシャルメディア上のバングラヘイト音声検出
- Authors: Amit Kumar Das, Abdullah Al Asif, Anik Paul, and Md. Nur Hossain
- Abstract要約: この記事では、Facebookページ上のユーザのBengaliコメントを分類するために、NLPで人気のツールであるエンコーダデコーダベースの機械学習モデルを提案する。
7つの異なるカテゴリーのヘイトスピーチからなる7,425のBengaliコメントのデータセットを使用して、モデルをトレーニングし、評価した。
3つのエンコーダデコーダアルゴリズムのうち、アテンションベースのデコーダが最も精度が高い(77%)。
- 参考スコア(独自算出の注目度): 2.1349209400003932
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech has spread more rapidly through the daily use of technology and,
most notably, by sharing your opinions or feelings on social media in a
negative aspect. Although numerous works have been carried out in detecting
hate speeches in English, German, and other languages, very few works have been
carried out in the context of the Bengali language. In contrast, millions of
people communicate on social media in Bengali. The few existing works that have
been carried out need improvements in both accuracy and interpretability. This
article proposed encoder decoder based machine learning model, a popular tool
in NLP, to classify user's Bengali comments on Facebook pages. A dataset of
7,425 Bengali comments, consisting of seven distinct categories of hate
speeches, was used to train and evaluate our model. For extracting and encoding
local features from the comments, 1D convolutional layers were used. Finally,
the attention mechanism, LSTM, and GRU based decoders have been used for
predicting hate speech categories. Among the three encoder decoder algorithms,
the attention-based decoder obtained the best accuracy (77%).
- Abstract(参考訳): ヘイトスピーチは、テクノロジーの日常的利用を通じて急速に広まり、特にソーシャルメディア上でのあなたの意見や感情を否定的な側面で共有することで広まっている。
英語、ドイツ語、その他の言語のヘイトスピーチを検出するために多くの研究がなされているが、ベンガル語の文脈において非常に少ない研究がなされている。
対照的に、何百万人もの人々がベンガルのソーシャルメディアでコミュニケーションしている。
実施されている数少ない既存の作業は、正確性と解釈性の両方の改善が必要である。
この記事では、Facebookページ上のユーザのBengaliコメントを分類するために、NLPで人気のツールであるエンコーダデコーダベースの機械学習モデルを提案する。
7つの異なるカテゴリーのヘイトスピーチからなる7,425のBengaliコメントのデータセットを使用して、モデルのトレーニングと評価を行った。
コメントから局所的な特徴を抽出および符号化するために、1D畳み込み層が使用された。
最後に、ヘイトスピーチカテゴリの予測には、アテンションメカニズム、LSTM、GRUベースのデコーダが使用されている。
3つのエンコーダデコーダアルゴリズムのうち,注意に基づくデコーダが最も精度が高かった(77%)。
関連論文リスト
- SpeechAlign: Aligning Speech Generation to Human Preferences [51.684183257809075]
本稿では,言語モデルと人間の嗜好を一致させる反復的自己改善戦略であるSpeechAlignを紹介する。
我々は、SpeechAlignが分散ギャップを埋め、言語モデルの継続的自己改善を促進することができることを示す。
論文 参考訳(メタデータ) (2024-04-08T15:21:17Z) - Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Hate Speech and Offensive Language Detection in Bengali [5.765076125746209]
我々は、5Kの実際のツイートと5Kのロマンティックなベンガルツイートからなる10Kのベンガルポストの注釈付きデータセットを開発する。
このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。
また、分類性能を高めるための言語間移動機構についても検討する。
論文 参考訳(メタデータ) (2022-10-07T12:06:04Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Role of Artificial Intelligence in Detection of Hateful Speech for
Hinglish Data on Social Media [1.8899300124593648]
ヒンディー語と英語のコードミックスデータ(Hinglish)の流行は、世界中の都市人口のほとんどで増加しています。
ほとんどのソーシャルネットワークプラットフォームが展開するヘイトスピーチ検出アルゴリズムは、これらのコード混合言語に投稿された不快で虐待的なコンテンツをフィルタリングできない。
非構造化コードミックスHinglish言語の効率的な検出方法を提案する。
論文 参考訳(メタデータ) (2021-05-11T10:02:28Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Hate Speech detection in the Bengali language: A dataset and its
baseline evaluation [0.8793721044482612]
本稿では,クラウドソーシングによってタグ付けされ,専門家によって検証された3万のユーザコメントのデータセットを提案する。
コメントはすべてYouTubeとFacebookのコメントセクションから収集され、7つのカテゴリに分類される。
合計50人の注釈家が各コメントに3回注釈を付け、多数決が最終注釈として採決された。
論文 参考訳(メタデータ) (2020-12-17T15:53:54Z) - Mere account mein kitna balance hai? -- On building voice enabled
Banking Services for Multilingual Communities [47.955173277834795]
我々は,多言語社会のための音声対応型銀行サービスの構築に向けた最初の取り組みについて紹介する。
コードミキシング(Code Mixing)は、ある言語からの語彙項目が別の言語の発話に埋め込まれる現象である。
音声に基づく意図認識システムを構築するための様々な訓練戦略について検討する。
論文 参考訳(メタデータ) (2020-10-09T01:20:09Z) - NLP-CIC at SemEval-2020 Task 9: Analysing sentiment in code-switching
language using a simple deep-learning classifier [63.137661897716555]
コードスイッチングは、2つ以上の言語が同じメッセージで使用される現象である。
標準的な畳み込みニューラルネットワークモデルを用いて、スペイン語と英語の混在するツイートの感情を予測する。
論文 参考訳(メタデータ) (2020-09-07T19:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。