論文の概要: IYKYK (But AI Doesn't): Automated Content Moderation Does Not Capture Communities' Heterogeneous Attitudes Towards Reclaimed Language
- arxiv url: http://arxiv.org/abs/2604.16654v2
- Date: Tue, 21 Apr 2026 17:02:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 14:04:47.799008
- Title: IYKYK (But AI Doesn't): Automated Content Moderation Does Not Capture Communities' Heterogeneous Attitudes Towards Reclaimed Language
- Title(参考訳): IYKYK (But AI does't): 自動コンテンツモデレーションはコミュニティの再生言語に対する不均一な態度を捉えない
- Authors: Christina Chance, Rebecca Pattichis, Arjun Subramonian, James He, Shruti Narayanan, Saadia Gabriel, Kai-Wei Chang,
- Abstract要約: 我々は, LGBTQIA+, Black, and female community around reclaimed slursにおいて, ソーシャルメディア利用者の態度を定量的に, 質的に検討する。
グループ内アノテータ間ではかなりの意見の相違が示され、低アノテータ間アノテータ合意が守られた。
アノテータの判断とパースペクティブAPIによる自動ヘイトスピーチアセスメントの整合性は低い。
- 参考スコア(独自算出の注目度): 45.4201325387611
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Reclaimed slur usage is a common and meaningful practice online for many marginalized communities. It serves as a source of solidarity, identity, and shared experience. However, contemporary automated and AI-based moderation tools for online content largely fail to distinguish between reclaimed and hateful uses of slurs, resulting in the suppression of marginalized voices. In this work, we use quantitative and qualitative methods to examine the attitudes of social media users in LGBTQIA+, Black, and women communities around reclaimed slurs targeting our focus groups including the f-word, n-word, and b-word. With social media users from these communities, we collect and analyze an annotated online slur usage corpus. The corpus includes annotators' perceptions of whether an online text containing a slur should be flagged as hate speech, as well as contextual features of the slur usage. Across all communities and annotation questions, we observe low inter-annotator agreement, indicating substantial disagreement among in-group annotators. This is compounded by the fact that, absent clear contextual signals of identity and intent, even in-group members may disagree on how to interpret reclaimed slur usage online. Semi-structured interviews with annotators suggest that differences in lived experience and personal history contribute to this variation as well. We find poor alignment between annotator judgments and automated hate speech assessments produced by Perspective API. We further observe that certain features of a text such as whether the slur usage was derogatory and if the slur was targeted at oneself are more associated with whether annotators report the text as hate speech. Together, these findings highlight the inherent subjectivity and contextual nature of how marginalized communities interpret slurs online.
- Abstract(参考訳): 干拓スラリーの使用は、多くの地域社会にとって、オンライン上でありふれた意味のある実践である。
連帯、アイデンティティ、共有エクスペリエンスの源泉として機能する。
しかし、オンラインコンテンツのための現代的自動化およびAIベースのモデレーションツールは、再利用とヘイトフルなスラリーの使用を区別することができない。
本研究は,f-word,n-word,b-wordを含む集中型グループを対象として,LGBTQIA+,Black,および女性コミュニティにおけるソーシャルメディア利用者の態度を定量的に定性的に分析する手法である。
これらのコミュニティのソーシャルメディア利用者は、注釈付きオンラインスラー利用コーパスを収集、分析する。
コーパスには、スラーを含むオンラインテキストがヘイトスピーチとしてフラグ付けされるべきかどうかについての注釈や、スラー使用の文脈的特徴が含まれている。
すべてのコミュニティとアノテーションに関する質問に対して,アノテータ間の合意の低さを観察し,グループ内のアノテータ間ではかなりの意見の相違が示唆された。
これは、アイデンティティと意図の明確な文脈的なシグナルが欠如しているにもかかわらず、グループ内のメンバーでさえ、オンラインで再利用されたスラリーの使用をどう解釈するかについて意見が一致しないという事実によって複雑化している。
半構造化されたアノテーターとのインタビューは、生きた経験と個人の歴史の違いが、この変化に寄与していることを示唆している。
アノテータの判断とパースペクティブAPIによる自動ヘイトスピーチアセスメントの整合性は低い。
さらに, テキストの特定の特徴として, スラーの使用が軽蔑的であったか, スラーが自分自身を対象としていたか, 注釈者がヘイトスピーチとしてテキストを報告しているかなど, 関連性が高いことが確認された。
これらの知見は、疎外化コミュニティがオンラインでどのようにスラリーを解釈するかという点において、固有の主観性と文脈の性質を浮き彫りにしたものである。
関連論文リスト
- Explain the Flag: Contextualizing Hate Speech Beyond Censorship [2.796818629124347]
本稿では,Large Language Models(LLMs)と新たに作成された3つの語彙を組み合わせたハイブリッドアプローチを提案する。
本システムでは,2つの相補的なパイプラインを通して,個人特性と直接グループ目標コンテンツに関連付けられた弁解表現を抽出する。
アウトプットは、なぜコンテンツがフラグ付けされているのかを明確にする根拠付きの説明に融合される。
論文 参考訳(メタデータ) (2026-04-16T13:06:28Z) - SLAyiNG: Towards Queer Language Processing [44.4984082814346]
SLAyiNGは、字幕、ソーシャルメディア投稿、ポッドキャストから派生した注釈付きキースラングを含む最初のデータセットである。
本稿では,スラング用語と定義の収集を含むデータキュレーションプロセスについて述べる。
予備的な結果として,人間のアノテータとOpenAIのモデルo3-miniのアノテータ間合意を計算する。
論文 参考訳(メタデータ) (2025-09-22T07:41:45Z) - Identity-related Speech Suppression in Generative AI Content Moderation [2.2020053359163305]
同一性に関連する音声は、他の音声よりも誤って抑圧される傾向にある。
その結果,不正確なフラグ付け行動の理由は,ステレオタイプやテキストアソシエーションに基づくアイデンティティによって異なることがわかった。
創造的なAIシステムは、創造的な作業にますます使われているので、これがアイデンティティ関連コンテンツの作成にどう影響するか、さらに注意を促します。
論文 参考訳(メタデータ) (2024-09-09T14:34:51Z) - Analyzing Norm Violations in Live-Stream Chat [49.120561596550395]
本研究は,ライブストリーミングプラットフォーム上での会話における規範違反を検出することを目的とした,最初のNLP研究である。
ライブストリームチャットにおける標準違反カテゴリを定義し、Twitchから4,583のコメントを注釈付けします。
以上の結果から,適切なコンテキスト情報がモデレーション性能を35%向上させる可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-18T05:58:27Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Enriching Abusive Language Detection with Community Context [0.3708656266586145]
叙述表現の使用は、良心的または活発な権限を与えることができる。
乱用検出のモデルは、これらの表現を軽蔑的で不注意に、疎外されたグループが持つ生産的な会話を検閲するものとして誤分類する。
本稿では,コミュニティの文脈が乱用言語検出における分類結果をどのように改善するかを強調した。
論文 参考訳(メタデータ) (2022-06-16T20:54:02Z) - Hate Speech and Counter Speech Detection: Conversational Context Does
Matter [7.333666276087548]
本稿では,オンラインヘイトとカウンタースピーチのアノテーションと検出における会話コンテキストの役割について検討する。
私たちはRedditのコメントに3段階の分類タスク(ヘイトスピーチ、カウンタースピーチ、中立性)のためのコンテキスト対応データセットを作成しました。
論文 参考訳(メタデータ) (2022-06-13T19:05:44Z) - Beyond Plain Toxic: Detection of Inappropriate Statements on Flammable
Topics for the Russian Language [76.58220021791955]
本稿では,不合理性という二項的概念と,センシティブなトピックの多項的概念に基づいてラベル付けされた2つのテキストコレクションについて述べる。
不適切な概念を客観するために、クラウドソーシングではデータ駆動方式で定義する。
論文 参考訳(メタデータ) (2022-03-04T15:59:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。