論文の概要: Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch
- arxiv url: http://arxiv.org/abs/2506.07667v2
- Date: Tue, 10 Jun 2025 13:22:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 12:52:34.304517
- Title: Silencing Empowerment, Allowing Bigotry: Auditing the Moderation of Hate Speech on Twitch
- Title(参考訳): ウィキペディアにおけるヘイトスピーチのモデレーションを振り返る
- Authors: Prarabdh Shukla, Wei Yin Chong, Yash Patel, Brennan Schaffner, Danish Pruthi, Arjun Bhagoji,
- Abstract要約: Twitchの自動モデレーションツール(texttAutoMod$)の監査を実施し、ヘイトフルコンテンツのフラグ付けの有効性を調査します。
我々は、誤用、人種差別、能力主義、ホモフォビアを含むあからさまに憎しみのあるコンテンツをフラグ付けする$textttAutoMod$の精度を測定した。
実験の結果、いくつかのデータセットで最大94%のヘイトフルなメッセージが、モデレーション信号としてslursに依存していることが判明した。
- 参考スコア(独自算出の注目度): 10.557241243652058
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To meet the demands of content moderation, online platforms have resorted to automated systems. Newer forms of real-time engagement($\textit{e.g.}$, users commenting on live streams) on platforms like Twitch exert additional pressures on the latency expected of such moderation systems. Despite their prevalence, relatively little is known about the effectiveness of these systems. In this paper, we conduct an audit of Twitch's automated moderation tool ($\texttt{AutoMod}$) to investigate its effectiveness in flagging hateful content. For our audit, we create streaming accounts to act as siloed test beds, and interface with the live chat using Twitch's APIs to send over $107,000$ comments collated from $4$ datasets. We measure $\texttt{AutoMod}$'s accuracy in flagging blatantly hateful content containing misogyny, racism, ableism and homophobia. Our experiments reveal that a large fraction of hateful messages, up to $94\%$ on some datasets, $\textit{bypass moderation}$. Contextual addition of slurs to these messages results in $100\%$ removal, revealing $\texttt{AutoMod}$'s reliance on slurs as a moderation signal. We also find that contrary to Twitch's community guidelines, $\texttt{AutoMod}$ blocks up to $89.5\%$ of benign examples that use sensitive words in pedagogical or empowering contexts. Overall, our audit points to large gaps in $\texttt{AutoMod}$'s capabilities and underscores the importance for such systems to understand context effectively.
- Abstract(参考訳): コンテンツモデレーションの要求に応えるため、オンラインプラットフォームは自動化システムを採用してきた。
Twitchのようなプラットフォーム上でのリアルタイムエンゲージメント($\textit{e g }$, ライブストリームにコメントするユーザ)の新たな形式は、このようなモデレーションシステムの待ち時間にさらなるプレッシャーを与えている。
それらの普及にもかかわらず、これらのシステムの有効性についてはあまり知られていない。
本稿では、Twitchの自動モデレーションツール($\texttt{AutoMod}$)の監査を行い、ヘイトフルコンテンツのフラグ付けの有効性について検討する。
監査のために、私たちは、サイロ化されたテストベッドとして機能するストリーミングアカウントを作成し、TwitchのAPIを使用してライブチャットとインターフェースして、4ドルのデータセットから107,000ドル以上のコメントを送信する。
我々は、誤用、人種差別、能力主義、ホモフォビアを含むあからさまに憎しみのあるコンテンツにフラグを立てる際の$\texttt{AutoMod}$の精度を測る。
実験の結果、一部のデータセットで最大9,4\%のヘイトフルなメッセージが、$\textit{bypass moderation}$であることがわかった。
これらのメッセージにスラーをコンテキスト的に追加すると100\%$削除され、モデレーション信号としてslurに依存する$\texttt{AutoMod}$が明らかになる。
Twitchのコミュニティガイドラインに反する$\texttt{AutoMod}$ block to eight9.5\%$ of beignign examples that using sensitive words in pedagogical or empowering contexts。
全体として、監査は$\texttt{AutoMod}$の能力に大きなギャップを指摘し、そのようなシステムがコンテキストを効果的に理解することの重要性を強調します。
関連論文リスト
- Explainability and Hate Speech: Structured Explanations Make Social Media Moderators Faster [72.84926097773578]
実世界のモデレーターの速度に及ぼす説明の影響について検討する。
我々の実験では、一般的な説明は速度に影響せず、しばしば無視されるが、構造化された説明はモデレーターの意思決定時間を7.4%減少させる。
論文 参考訳(メタデータ) (2024-06-06T14:23:10Z) - Understanding writing style in social media with a supervised
contrastively pre-trained transformer [57.48690310135374]
オンラインソーシャルネットワークは、ヘイトスピーチから偽情報の拡散まで、有害な行動の場として機能している。
本稿では, 4.5 x 106テキストの公開資料から得られた大規模コーパスに基づいて学習したStyle Transformer for Authorship Representations (STAR)を紹介する。
512個のトークンからなる8つのドキュメントからなるサポートベースを使用して、著者を最大1616人の著者のセットから、少なくとも80%の精度で識別することができる。
論文 参考訳(メタデータ) (2023-10-17T09:01:17Z) - HateModerate: Testing Hate Speech Detectors against Content Moderation Policies [6.893854392439938]
HateModerateは、コンテンツポリシーに対する自動コンテンツモデレーターの動作をテストするデータセットです。
我々は,HateModerateに対する最先端のヘイトスピーチ検出器の性能を検証した。
我々は,オリジナルテストデータに匹敵するスコアを持ちながら,コンテンツポリシーに対するモデル適合性の大幅な改善を観察する。
論文 参考訳(メタデータ) (2023-07-23T20:08:38Z) - Russo-Ukrainian War: Prediction and explanation of Twitter suspension [47.61306219245444]
本研究は、Twitterのサスペンション機構と、これにつながる可能性のあるユーザアカウントの共有コンテンツと機能の分析に焦点を当てる。
Twitter APIを使って、980万人のユーザーから生まれた107.7万のツイートを含むデータセットを入手しました。
この結果から、Bitcoin詐欺、スパム、広告キャンペーンに対するロシアとウクライナの紛争に関するトレンドを生かした詐欺キャンペーンが明らかになった。
論文 参考訳(メタデータ) (2023-06-06T08:41:02Z) - Revisiting Hate Speech Benchmarks: From Data Curation to System
Deployment [26.504056750529124]
GOTHateは、Twitterからヘイトスピーチを検出するために約51万の投稿をクラウドソースした大規模クラウドソースデータセットである。
最近の10のベースラインでベンチマークを行い、内因性信号の追加がヘイトスピーチ検出タスクをどのように強化するかを検討する。
我々のHEN-mBERTは多言語混合実験モデルであり、潜在内因性信号で言語的部分空間を豊かにする。
論文 参考訳(メタデータ) (2023-06-01T19:36:52Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - bitsa_nlp@LT-EDI-ACL2022: Leveraging Pretrained Language Models for
Detecting Homophobia and Transphobia in Social Media Comments [0.9981479937152642]
ソーシャルメディアコメントにおけるホモフォビアとトランスフォビアを検出するためのLT-EDI共有タスクを提案する。
我々はmBERTのようなモノリンガル・マルチリンガル・トランスフォーマーモデルを用いて実験を行った。
私たちは、タミル語だけでなく、英語でYouTubeコメントの注意深い注釈付き実生活データセット上で、彼らのパフォーマンスを観察します。
論文 参考訳(メタデータ) (2022-03-27T10:15:34Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。