論文の概要: Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations
- arxiv url: http://arxiv.org/abs/2503.01623v1
- Date: Mon, 03 Mar 2025 14:56:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:17:08.174232
- Title: Lost in Moderation: How Commercial Content Moderation APIs Over- and Under-Moderate Group-Targeted Hate Speech and Linguistic Variations
- Title(参考訳): モデレーションの喪失: 商品コンテンツモデレーションAPIの過度および過度なグループターゲットのヘイトスピーチと言語変化
- Authors: David Hartmann, Amin Oueslati, Dimitri Staufer, Lena Pohlmann, Simon Munzert, Hendrik Heuer,
- Abstract要約: 商用コンテンツモデレーションAPIは、オンラインヘイトスピーチに対抗するスケーラブルなソリューションとして販売されている。
これらのAPIへの依存は、正当なスピーチをサイレンシングすることと、オンラインプラットフォームを有害なスピーチから守らないことの両方を危険にさらしている。
本稿では,ブラックボックスNLPシステムの監査のためのフレームワークを提案する。
- 参考スコア(独自算出の注目度): 5.277756703318046
- License:
- Abstract: Commercial content moderation APIs are marketed as scalable solutions to combat online hate speech. However, the reliance on these APIs risks both silencing legitimate speech, called over-moderation, and failing to protect online platforms from harmful speech, known as under-moderation. To assess such risks, this paper introduces a framework for auditing black-box NLP systems. Using the framework, we systematically evaluate five widely used commercial content moderation APIs. Analyzing five million queries based on four datasets, we find that APIs frequently rely on group identity terms, such as ``black'', to predict hate speech. While OpenAI's and Amazon's services perform slightly better, all providers under-moderate implicit hate speech, which uses codified messages, especially against LGBTQIA+ individuals. Simultaneously, they over-moderate counter-speech, reclaimed slurs and content related to Black, LGBTQIA+, Jewish, and Muslim people. We recommend that API providers offer better guidance on API implementation and threshold setting and more transparency on their APIs' limitations. Warning: This paper contains offensive and hateful terms and concepts. We have chosen to reproduce these terms for reasons of transparency.
- Abstract(参考訳): 商用コンテンツモデレーションAPIは、オンラインヘイトスピーチに対抗するスケーラブルなソリューションとして販売されている。
しかし、これらのAPIへの依存は、過剰モデレーション(over-moderation)と呼ばれる正当なスピーチをサイレンシングすることと、過モデレーション(low-moderation)として知られる有害なスピーチからオンラインプラットフォームを保護することの両方のリスクがある。
このようなリスクを評価するために,ブラックボックスNLPシステムの監査を行うフレームワークを提案する。
このフレームワークを用いて,広く使用されている5つの商用コンテンツモデレーションAPIを体系的に評価した。
4つのデータセットに基づいて500万のクエリを分析すると、APIはヘイトスピーチを予測するために '`black'' のようなグループアイデンティティ用語に依存することが多いことが分かる。
OpenAIとAmazonのサービスは若干改善されているが、すべてのプロバイダは、特にLGBTQIA+の個人に対して、コーデレートされたメッセージを使用する暗黙のヘイトスピーチを過小評価している。
同時に、彼らは、黒人、LGBTQIA+、ユダヤ人、ムスリムの人々に関連するスラリーや内容の再生、反音声の過度な修正を行った。
APIプロバイダは、APIの実装としきい値の設定に関するより良いガイダンスを提供し、APIの制限に対する透明性を高めることを推奨しています。
警告: この論文は攻撃的で憎悪な言葉と概念を含んでいる。
透明性の理由から、これらの用語を再現することにしました。
関連論文リスト
- Digital Guardians: Can GPT-4, Perspective API, and Moderation API reliably detect hate speech in reader comments of German online newspapers? [36.636686462749275]
GPT-4oはGoogleのパースペクティブAPIとOpenAIのモデレーションAPIと比較される。
GPT-4oでは、ゼロショット(Zero-Shot)、ワンショット(One-Shot)、フューショット(Few-Shot)の3つの異なるプロンプトが使用される。
論文 参考訳(メタデータ) (2025-01-02T13:48:56Z) - A Hate Speech Moderated Chat Application: Use Case for GDPR and DSA Compliance [0.0]
本研究は、コンテンツモデレーションプロセスに法的・倫理的推論を実装する新しい応用法を提案する。
GPT-3.5やSolid Pods,ルール言語Provaといった技術を使って,オンラインコミュニケーションの基本となる2つのユースケースを提示し,実装する。
この研究は、ヘイトスピーチの法的および倫理的定義の異なる範囲で推論するための新しいアプローチを提案し、ヘイトスピーチに適合するカウンターを計画する。
論文 参考訳(メタデータ) (2024-10-10T08:28:38Z) - Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management [71.99446449877038]
本研究では, 重度尺度, (ii) ターゲットの存在, (iii) 文脈尺度, (iv) 法的尺度の4つの側面を基礎として, より包括的手法であるDemarcation scoreing abusive speechを提案する。
本研究は,ネット上での虐待的スピーチを効果的に解決するための今後の戦略を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-27T21:45:33Z) - ViTHSD: Exploiting Hatred by Targets for Hate Speech Detection on Vietnamese Social Media Texts [0.0]
まず、ベトナムのソーシャルメディアテキストを対象としたヘイトスピーチ検出データセットViTHSDを紹介する。
データセットには10Kコメントが含まれており、各コメントには、クリーン、攻撃、ヘイトという3つのレベルがある特定のターゲットにラベルが付けられている。
データセットから得られたアノテーション間の合意は、コーエンのカッパ指数によって0.45であり、中程度のレベルとして示される。
論文 参考訳(メタデータ) (2024-04-30T04:16:55Z) - Towards Interpretable Hate Speech Detection using Large Language Model-extracted Rationales [15.458557611029518]
ソーシャルメディアプラットフォームは、ユーザーが対人的な議論を行い、意見を述べるための重要な場である。
ヘイトスピーチのインスタンスを自動的に識別し、フラグを付ける必要がある。
本稿では,現在最先端の大規模言語モデル (LLM) を用いて,入力テキストから有理形の特徴を抽出することを提案する。
論文 参考訳(メタデータ) (2024-03-19T03:22:35Z) - HateModerate: Testing Hate Speech Detectors against Content Moderation Policies [6.893854392439938]
HateModerateは、コンテンツポリシーに対する自動コンテンツモデレーターの動作をテストするデータセットです。
我々は,HateModerateに対する最先端のヘイトスピーチ検出器の性能を検証した。
我々は,オリジナルテストデータに匹敵するスコアを持ちながら,コンテンツポリシーに対するモデル適合性の大幅な改善を観察する。
論文 参考訳(メタデータ) (2023-07-23T20:08:38Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - A User-Driven Framework for Regulating and Auditing Social Media [94.70018274127231]
アルゴリズムフィルタリングは、フレキシブルでユーザ主導のベースラインに対して規制されるべきである。
プラットフォームフィルタのフィードには,それぞれのベースラインフィードと「類似した」情報コンテンツが含まれる必要がある。
プラットフォームがこの要件を尊重するかどうかをチェックする監査手順を提案する。
論文 参考訳(メタデータ) (2023-04-20T17:53:34Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。