論文の概要: Proactively Reducing the Hate Intensity of Online Posts via Hate Speech
Normalization
- arxiv url: http://arxiv.org/abs/2206.04007v1
- Date: Wed, 8 Jun 2022 16:43:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-09 13:59:02.998135
- Title: Proactively Reducing the Hate Intensity of Online Posts via Hate Speech
Normalization
- Title(参考訳): ヘイトスピーチ正規化によるオンライン投稿のヘイトインテンシティの積極的に低減
- Authors: Sarah Masud, Manjot Bedi, Mohammad Aflah Khan, Md Shad Akhtar, Tanmoy
Chakraborty
- Abstract要約: 本稿では,オンライン投稿によって提示される憎悪の強さを弱めることを目的とした,ヘイトスピーチ正規化という新たな課題を紹介する。
まず、原サンプルのヘイト強度を測定し、次に、その中のヘイトパンを識別し、最後に、ヘイトパンを言い換えることでヘイト強度を減少させる。
NACLは強度予測のスコア0.1365 RMSE、スパン識別のスコア0.622 F1-Score、82.27 BLEUと8である。
- 参考スコア(独自算出の注目度): 28.449696456073163
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Curbing online hate speech has become the need of the hour; however, a
blanket ban on such activities is infeasible for several geopolitical and
cultural reasons. To reduce the severity of the problem, in this paper, we
introduce a novel task, hate speech normalization, that aims to weaken the
intensity of hatred exhibited by an online post. The intention of hate speech
normalization is not to support hate but instead to provide the users with a
stepping stone towards non-hate while giving online platforms more time to
monitor any improvement in the user's behavior.
To this end, we manually curated a parallel corpus - hate texts and their
normalized counterparts (a normalized text is less hateful and more benign). We
introduce NACL, a simple yet efficient hate speech normalization model that
operates in three stages - first, it measures the hate intensity of the
original sample; second, it identifies the hate span(s) within it; and finally,
it reduces hate intensity by paraphrasing the hate spans. We perform extensive
experiments to measure the efficacy of NACL via three-way evaluation
(intrinsic, extrinsic, and human-study). We observe that NACL outperforms six
baselines - NACL yields a score of 0.1365 RMSE for the intensity prediction,
0.622 F1-score in the span identification, and 82.27 BLEU and 80.05 perplexity
for the normalized text generation. We further show the generalizability of
NACL across other platforms (Reddit, Facebook, Gab). An interactive prototype
of NACL was put together for the user study. Further, the tool is being
deployed in a real-world setting at Wipro AI as a part of its mission to tackle
harmful content on online platforms.
- Abstract(参考訳): オンラインヘイトスピーチのカービングは時間を要するようになったが、いくつかの地政学的、文化的な理由から、そのような行為を禁ずることは不可能である。
問題の深刻度を低減するため,本稿では,オンライン投稿によって提示される憎しみの強さを弱めることを目的とした,ヘイトスピーチ正規化という新たなタスクを導入する。
ヘイトスピーチの正規化を嫌う意図は、ヘイトをサポートしない代わりに、オンラインプラットフォームがユーザーの行動改善を監視する時間を与えながら、非ヘイトへの一歩を踏み出すことである。
この目的のために、私たちは並列コーパス(ヘイトテキストとその正規化したコーパス)を手作業でキュレートしました。
まず、サンプルのヘイト強度を計測し、次に、その中のヘイトスパンを識別し、最後にヘイトスパンをパラフレーズすることでヘイトインテンシティを低減します。
本研究では,3方向評価(内因性,外因性,人体研究)によるNACLの有効性の測定を行う。
NACLは、強度予測のためのスコア0.1365 RMSE、スパン識別におけるスコア0.622 F1、正規化テキスト生成のための82.27 BLEUと80.05 パープレキシティの6つのベースラインを上回っている。
さらに、他のプラットフォーム(Reddit、Facebook、Gab)におけるNACLの一般化可能性を示す。
naclのインタラクティブなプロトタイプがユーザスタディのために組み立てられた。
さらにこのツールは、オンラインプラットフォーム上の有害コンテンツに取り組むミッションの一環として、Wipro AIの現実世界に展開されている。
関連論文リスト
- Analysis and Detection of Multilingual Hate Speech Using Transformer
Based Deep Learning [7.332311991395427]
ヘイトスピーチの普及に伴い,NLPタスクとしての自動検出の需要が高まっている。
本研究では、Twitter、Facebook、WhatsApp、Instagramなどのソーシャルメディアにおけるヘイトスピーチを検出するために、トランスフォーマーベースのモデルを提案する。
金の標準データセットは、著名な研究者Zeerak Talat、Sara Tonelli、Melanie Siegel、Rezaul Karimから収集された。
ヘイトスピーチ検出のための提案されたモデルの成功率は、ベンガルデータセットの精度の高い既存のベースラインや最先端モデルよりも高く、英語では89%、ドイツ語では91%である。
論文 参考訳(メタデータ) (2024-01-19T20:40:23Z) - HCDIR: End-to-end Hate Context Detection, and Intensity Reduction model
for online comments [2.162419921663162]
ソーシャルメディア投稿において,Hate Context Detection と Hate Intensity Reduction のための新しいエンドツーエンドモデル HCDIR を提案する。
我々は、ヘイトフルコメントを検出するために、いくつかの事前訓練された言語モデルを微調整し、最も優れたヘイトフルコメント検出モデルを確認した。
論文 参考訳(メタデータ) (2023-12-20T17:05:46Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online
Posts using Large Language Models [4.9711707739781215]
本稿では,投稿前にもヘイトスピーチ内容の表現を示唆するアプローチについて検討する。
タスク記述、ヘイト定義、数発のデモ、思考の連鎖に基づく4つの異なるプロンプトを開発する。
GPT-3.5は,様々な種類のプロンプトに対して,ベースラインモデルやオープンソースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:18:29Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Unsupervised Domain Adaptation for Hate Speech Detection Using a Data
Augmentation Approach [6.497816402045099]
ヘイトスピーチ検出のためのラベル付きデータを拡張するための教師なし領域適応手法を提案する。
精度/リコール曲線の領域を最大42%改善し,278%改善した。
論文 参考訳(メタデータ) (2021-07-27T15:01:22Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。