論文の概要: Generative AI may backfire for counterspeech
- arxiv url: http://arxiv.org/abs/2411.14986v2
- Date: Mon, 25 Nov 2024 11:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-26 14:21:59.717087
- Title: Generative AI may backfire for counterspeech
- Title(参考訳): 人工知能が反音声のバックファイアを発生させるかもしれない
- Authors: Dominik Bär, Abdurahman Maarouf, Stefan Feuerriegel,
- Abstract要約: 我々は、最先端AIが生み出す文脈化された逆音声が、オンラインヘイトスピーチを抑制するのに有効であるかどうかを分析する。
その結果,非コンテクスチュアライズされた対応音声は,オンラインヘイトスピーチを著しく減少させることがわかった。
しかし、LLMsによって生成される文脈化された反音声は効果が無く、バックファイアさえも生じうる。
- 参考スコア(独自算出の注目度): 20.57872238271025
- License:
- Abstract: Online hate speech poses a serious threat to individual well-being and societal cohesion. A promising solution to curb online hate speech is counterspeech. Counterspeech is aimed at encouraging users to reconsider hateful posts by direct replies. However, current methods lack scalability due to the need for human intervention or fail to adapt to the specific context of the post. A potential remedy is the use of generative AI, specifically large language models (LLMs), to write tailored counterspeech messages. In this paper, we analyze whether contextualized counterspeech generated by state-of-the-art LLMs is effective in curbing online hate speech. To do so, we conducted a large-scale, pre-registered field experiment (N=2,664) on the social media platform Twitter/X. Our experiment followed a 2x2 between-subjects design and, additionally, a control condition with no counterspeech. On the one hand, users posting hateful content on Twitter/X were randomly assigned to receive either (a) contextualized counterspeech or (b) non-contextualized counterspeech. Here, the former is generated through LLMs, while the latter relies on predefined, generic messages. On the other hand, we tested two counterspeech strategies: (a) promoting empathy and (b) warning about the consequences of online misbehavior. We then measured whether users deleted their initial hateful posts and whether their behavior changed after the counterspeech intervention (e.g., whether users adopted a less toxic language). We find that non-contextualized counterspeech employing a warning-of-consequence strategy significantly reduces online hate speech. However, contextualized counterspeech generated by LLMs proves ineffective and may even backfire.
- Abstract(参考訳): オンラインヘイトスピーチは、個人の幸福と社会的結束に深刻な脅威をもたらす。
オンラインヘイトスピーチを抑えるための有望な解決策は、逆言だ。
Counterspeechは、ユーザーが嫌悪な投稿を直接返信することで再考することを奨励することを目的としている。
しかしながら、現在のメソッドには、人間の介入が必要なり、ポストの特定のコンテキストに適応できなかったりするため、スケーラビリティが欠如している。
潜在的な治療法は、生成的AI、特に大きな言語モデル(LLM)を使用して、カスタマイズされた対音声メッセージを記述することである。
本稿では,現状のLLMが生み出す文脈的逆音声が,オンラインヘイトスピーチの抑制に有効であるかどうかを解析する。
そこで我々は,ソーシャルメディアプラットフォーム Twitter/X 上で,大規模で事前登録されたフィールド実験 (N=2,664) を行った。
実験では,2x2の物体間設計と,反音声のない制御条件を追従した。
一方、Twitter/Xにヘイトフルなコンテンツを投稿しているユーザーは、ランダムにどちらかを受け取るように割り当てられた。
(a)文脈化された対訳、または
(b)非コンテクチュアライズされた反音声
前者はLSMで生成され、後者は定義済みのジェネリックメッセージに依存している。
一方、我々は2つの対音声戦略を検証した。
(a)共感・共感の促進
(b)オンラインの不正行為の結果について警告する。
次に、ユーザーが初期憎しみのある投稿を削除したか、反音声介入後に行動が変わったか(たとえば、ユーザーがあまり有害でない言語を採用したかどうか)を測定した。
その結果,非コンテクスチュアライズされた対応音声は,オンラインヘイトスピーチを著しく減少させることがわかった。
しかし、LLMが生成する文脈化された逆音声は効果が無く、バックファイアさえも生じうる。
関連論文リスト
- Decoding Hate: Exploring Language Models' Reactions to Hate Speech [2.433983268807517]
本稿では,7つの最先端の大規模言語モデルの音声を嫌う反応について検討する。
我々は、これらのモデルが生み出す反応のスペクトルを明らかにし、ヘイトスピーチ入力を処理する能力を明らかにする。
また,LLMによるヘイトスピーチ生成を緩和するための戦略についても論じる。
論文 参考訳(メタデータ) (2024-10-01T15:16:20Z) - Demarked: A Strategy for Enhanced Abusive Speech Moderation through Counterspeech, Detoxification, and Message Management [71.99446449877038]
本研究では, 重度尺度, (ii) ターゲットの存在, (iii) 文脈尺度, (iv) 法的尺度の4つの側面を基礎として, より包括的手法であるDemarcation scoreing abusive speechを提案する。
本研究は,ネット上での虐待的スピーチを効果的に解決するための今後の戦略を明らかにすることを目的としている。
論文 参考訳(メタデータ) (2024-06-27T21:45:33Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - Hostile Counterspeech Drives Users From Hate Subreddits [1.5035331281822]
我々は、Redditにおけるヘイトサブレディット内の新参者に対する反音声の効果を分析した。
非敵対的なカウンタースピーチは、ユーザーがこれらの憎悪のサブレディットから完全に切り離すのを防ぐのに効果がない。
単一の敵対的な反論は、将来のエンゲージメントの可能性を大幅に減らす。
論文 参考訳(メタデータ) (2024-05-28T17:12:41Z) - NLP Systems That Can't Tell Use from Mention Censor Counterspeech, but Teaching the Distinction Helps [43.40965978436158]
問題のある内容に反論する対訳は、しばしば有害な言語に言及するが、それ自体は有害ではない。
最近の言語モデルでさえ、言及と使用の区別に失敗していることを示す。
この失敗は、誤報とヘイトスピーチ検出という2つの重要な下流タスクに伝播する。
論文 参考訳(メタデータ) (2024-04-02T05:36:41Z) - DisCGen: A Framework for Discourse-Informed Counterspeech Generation [34.75404551612012]
本稿では,言論理論に基づく枠組みを提案し,反声と憎しみのあるコメントを結びつける推論リンクについて検討する。
本稿では,Reddit から現在地にある反音声のデータセットを収集するプロセスを提案する。
提案するデータセットとフレームワークを用いて,大規模言語モデルを用いて,談話理論に基づいて文脈的に接地した対音声を生成することができることを示す。
論文 参考訳(メタデータ) (2023-11-29T23:20:17Z) - Beyond Denouncing Hate: Strategies for Countering Implied Biases and
Stereotypes in Language [18.560379338032558]
我々は、心理学と哲学文学から、ヘイトフル言語の基礎となるステレオタイプ的含意に挑戦するために、6つの心理的にインスパイアされた戦略を構築する。
提案手法では,機械が生成する対音声はより具体的でない戦略を用いるのに対し,人間による対音声はインプリッドステレオタイプに特有な戦略を用いる。
以上の結果から,音声の反音声発生におけるステレオタイプ的含意の考慮の重要性が示唆された。
論文 参考訳(メタデータ) (2023-10-31T21:33:46Z) - ContextSpeech: Expressive and Efficient Text-to-Speech for Paragraph
Reading [65.88161811719353]
本研究は、軽量で効果的なテキスト音声合成システムであるContextSpeechを開発する。
まず,グローバルテキストと音声コンテキストを文エンコーディングに組み込むメモリキャッシュ再帰機構を設計する。
我々は,グローバルな文脈拡張の範囲を広げるため,階層的に構造化されたテキストセマンティクスを構築した。
実験の結果,ContextSpeechは段落読解における音質と韻律を競争モデル効率で著しく改善することがわかった。
論文 参考訳(メタデータ) (2023-07-03T06:55:03Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Online Hate Speech: An NLP Perspective [34.19875714256597]
オンラインヘイトフル行動の傘語であるオンライン毒性は、オンラインヘイトスピーチのような形で現れている。
ソーシャルメディアを通じた大量コミュニケーションの増加は、オンラインヘイトスピーチの有害な結果をさらに悪化させる。
本稿では、ヘイトスピーチにおけるNLP対応手法に関する総合的な概念的枠組みと、オンラインヘイトスピーチ対策におけるNLPの現在の動向に関する徹底的な調査について述べる。
論文 参考訳(メタデータ) (2021-09-07T08:48:13Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。