論文の概要: HateModerate: Testing Hate Speech Detectors against Content Moderation Policies
- arxiv url: http://arxiv.org/abs/2307.12418v2
- Date: Tue, 19 Mar 2024 02:17:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 01:00:25.081529
- Title: HateModerate: Testing Hate Speech Detectors against Content Moderation Policies
- Title(参考訳): HateModerate: コンテンツモデレーションポリシーに対するHate Speech Detectorのテスト
- Authors: Jiangrui Zheng, Xueqing Liu, Guanqun Yang, Mirazul Haque, Xing Qian, Ravishka Rathnasuriya, Wei Yang, Girish Budhrani,
- Abstract要約: HateModerateは、コンテンツポリシーに対する自動コンテンツモデレーターの動作をテストするデータセットです。
我々は,HateModerateに対する最先端のヘイトスピーチ検出器の性能を検証した。
我々は,オリジナルテストデータに匹敵するスコアを持ちながら,コンテンツポリシーに対するモデル適合性の大幅な改善を観察する。
- 参考スコア(独自算出の注目度): 6.893854392439938
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To protect users from massive hateful content, existing works studied automated hate speech detection. Despite the existing efforts, one question remains: do automated hate speech detectors conform to social media content policies? A platform's content policies are a checklist of content moderated by the social media platform. Because content moderation rules are often uniquely defined, existing hate speech datasets cannot directly answer this question. This work seeks to answer this question by creating HateModerate, a dataset for testing the behaviors of automated content moderators against content policies. First, we engage 28 annotators and GPT in a six-step annotation process, resulting in a list of hateful and non-hateful test suites matching each of Facebook's 41 hate speech policies. Second, we test the performance of state-of-the-art hate speech detectors against HateModerate, revealing substantial failures these models have in their conformity to the policies. Third, using HateModerate, we augment the training data of a top-downloaded hate detector on HuggingFace. We observe significant improvement in the models' conformity to content policies while having comparable scores on the original test data. Our dataset and code can be found in the attachment.
- Abstract(参考訳): ヘイトフルコンテンツからユーザーを守るため、既存の研究はヘイトスピーチの自動検出を研究した。
ヘイトスピーチ検出の自動化はソーシャルメディアのコンテンツポリシーに準拠しているのだろうか?
プラットフォームの内容ポリシーは、ソーシャルメディアプラットフォームによって調整されたコンテンツのチェックリストである。
コンテンツモデレーションルールはしばしば一意に定義されているため、既存のヘイトスピーチデータセットはこの質問に答えることはできない。
この研究は、コンテンツポリシーに対する自動コンテンツモデレーターの振る舞いをテストするデータセットであるHateModerateを作成することで、この問題に答えようとしている。
まず、28のアノテータとGPTを6ステップのアノテーションプロセスで処理し、その結果、Facebookの41のヘイトスピーチポリシーのそれぞれにマッチする憎悪と非憎しみのないテストスイートのリストを作成します。
第2に、HateModerateに対して最先端のヘイトスピーチ検出器の性能を検証し、これらのモデルがポリシーに適合していることを示す。
第3に、HateModerateを使用して、HuggingFace上のトップダウンのヘイト検知器のトレーニングデータを増強します。
我々は,オリジナルテストデータに匹敵するスコアを持ちながら,コンテンツポリシーに対するモデル適合性の大幅な改善を観察する。
データセットとコードは添付ファイルにある。
関連論文リスト
- A Hate Speech Moderated Chat Application: Use Case for GDPR and DSA Compliance [0.0]
本研究は、コンテンツモデレーションプロセスに法的・倫理的推論を実装する新しい応用法を提案する。
GPT-3.5やSolid Pods,ルール言語Provaといった技術を使って,オンラインコミュニケーションの基本となる2つのユースケースを提示し,実装する。
この研究は、ヘイトスピーチの法的および倫理的定義の異なる範囲で推論するための新しいアプローチを提案し、ヘイトスピーチに適合するカウンターを計画する。
論文 参考訳(メタデータ) (2024-10-10T08:28:38Z) - Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - Into the LAIONs Den: Investigating Hate in Multimodal Datasets [67.21783778038645]
本稿では、LAION-400MとLAION-2Bの2つのデータセットの比較監査を通して、ヘイトフルコンテンツに対するデータセットのスケーリングの効果について検討する。
その結果、データセットのスケールによってヘイトコンテンツは12%近く増加し、質的にも定量的にも測定された。
また、画像のみに基づいて算出されたNot Safe For Work(NSFW)値に基づくデータセットの内容のフィルタリングは、アルトテキストにおける有害なコンテンツをすべて排除するものではないことがわかった。
論文 参考訳(メタデータ) (2023-11-06T19:00:05Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - A User-Driven Framework for Regulating and Auditing Social Media [94.70018274127231]
アルゴリズムフィルタリングは、フレキシブルでユーザ主導のベースラインに対して規制されるべきである。
プラットフォームフィルタのフィードには,それぞれのベースラインフィードと「類似した」情報コンテンツが含まれる必要がある。
プラットフォームがこの要件を尊重するかどうかをチェックする監査手順を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:53:34Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Unsupervised Domain Adaptation for Hate Speech Detection Using a Data
Augmentation Approach [6.497816402045099]
ヘイトスピーチ検出のためのラベル付きデータを拡張するための教師なし領域適応手法を提案する。
精度/リコール曲線の領域を最大42%改善し,278%改善した。
論文 参考訳(メタデータ) (2021-07-27T15:01:22Z) - An Information Retrieval Approach to Building Datasets for Hate Speech
Detection [3.587367153279349]
「一般的な慣行は、既知の憎しみの言葉を含むツイートを注釈するだけである。」
第二の課題は、ヘイトスピーチの定義が高度に変動し、主観的である傾向があることである。
我々の重要な洞察は、ヘイトスピーチの希少性と主観性が情報検索(IR)の関連性に類似していることである。
論文 参考訳(メタデータ) (2021-06-17T19:25:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。