論文の概要: Probabilistic Impact Score Generation using Ktrain-BERT to Identify Hate
Words from Twitter Discussions
- arxiv url: http://arxiv.org/abs/2111.12939v1
- Date: Thu, 25 Nov 2021 06:35:49 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-04 21:13:43.204595
- Title: Probabilistic Impact Score Generation using Ktrain-BERT to Identify Hate
Words from Twitter Discussions
- Title(参考訳): Ktrain-BERTを用いた確率的インパクトスコア生成によるHate単語の識別
- Authors: Sourav Das, Prasanta Mandal, Sanjay Chatterji
- Abstract要約: 本稿では,Kerasをラップした軽量BERTモデルによるヘイトスピーチの同定実験を行った。
このタスクで使用されるデータセットは、英語のFIRE 2021からのHate Speech and Offensive Content Detection (HASOC 2021)データである。
検証精度は82.60%,F1スコアは82.68%であった。
- 参考スコア(独自算出の注目度): 0.5735035463793008
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Social media has seen a worrying rise in hate speech in recent times.
Branching to several distinct categories of cyberbullying, gender
discrimination, or racism, the combined label for such derogatory content can
be classified as toxic content in general. This paper presents experimentation
with a Keras wrapped lightweight BERT model to successfully identify hate
speech and predict probabilistic impact score for the same to extract the
hateful words within sentences. The dataset used for this task is the Hate
Speech and Offensive Content Detection (HASOC 2021) data from FIRE 2021 in
English. Our system obtained a validation accuracy of 82.60%, with a maximum
F1-Score of 82.68%. Subsequently, our predictive cases performed significantly
well in generating impact scores for successful identification of the hate
tweets as well as the hateful words from tweet pools.
- Abstract(参考訳): ソーシャルメディアは近年、ヘイトスピーチの急増を懸念している。
サイバーいじめ、ジェンダー差別、人種差別のいくつかの異なるカテゴリーに分けて、このような軽蔑的内容の複合ラベルは一般に有害な内容に分類される。
本稿では, 文中のヘイトフルな単語を抽出するために, ヘイトスピーチを識別し, 確率的影響スコアを予測できるケラス包み軽量bertモデルの実験を行った。
このタスクで使用されるデータセットは、英語のFIRE 2021からのHate Speech and Offensive Content Detection (HASOC 2021)データである。
検証精度は82.60%で,f1-scoreの最大値が82.68%であった。
その結果,ツイートプールからのヘイトフルな単語だけでなく,ヘイトツイートの識別に成功するためのインパクトスコアの生成に,予測事例は極めて良好であった。
関連論文リスト
- Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Overview of Abusive and Threatening Language Detection in Urdu at FIRE
2021 [50.591267188664666]
我々は、ウルドゥー語に対する虐待と脅しの2つの共通タスクを提示する。
本研究では, (i) 乱用と非乱用というラベル付きツイートを含む手動注釈付きデータセットと, (ii) 脅威と非脅威の2つを提示する。
両方のサブタスクに対して、m-Bertベースのトランスモデルは最高の性能を示した。
論文 参考訳(メタデータ) (2022-07-14T07:38:13Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Hate speech detection using static BERT embeddings [0.9176056742068814]
ヘイトスピーチは、特定のグループの特徴をターゲットとした虐待的スピーチを表現する主要な関心事として浮上している。
本稿では,単語埋め込みの置き換えや統合によるヘイトスピーチ検出の性能解析を行う。
細調整されたBERTと比較して、大幅に改善された指標は特異性である。
論文 参考訳(メタデータ) (2021-06-29T16:17:10Z) - An Information Retrieval Approach to Building Datasets for Hate Speech
Detection [3.587367153279349]
「一般的な慣行は、既知の憎しみの言葉を含むツイートを注釈するだけである。」
第二の課題は、ヘイトスピーチの定義が高度に変動し、主観的である傾向があることである。
我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。
論文 参考訳(メタデータ) (2021-06-17T19:25:39Z) - Leveraging Multilingual Transformers for Hate Speech Detection [11.306581296760864]
我々は,アートトランスフォーマー言語モデルを用いて,多言語環境でヘイトスピーチを識別する。
学習済みの多言語トランスフォーマーベースのテキストエンコーダをベースとして,複数の言語からヘイトスピーチを識別し,分類することができる。
論文 参考訳(メタデータ) (2021-01-08T20:23:50Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z) - Demoting Racial Bias in Hate Speech Detection [39.376886409461775]
現在のヘイトスピーチデータセットには、アノテーターの毒性に対する認識とアフリカ系アメリカ人英語(AAE)の信号との間に相関がある。
本稿では,このバイアスを軽減するために,敵対的訓練を用いて,有害な文章の検出を学習するヘイトスピーチ分類器を導入する。
ヘイトスピーチデータセットとAEデータセットの実験結果から,本手法はヘイトスピーチ分類の性能を最小限に抑えつつ,AAEテキストの偽陽性率を大幅に低減できる可能性が示唆された。
論文 参考訳(メタデータ) (2020-05-25T17:43:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。