論文の概要: Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering
- arxiv url: http://arxiv.org/abs/2410.03466v1
- Date: Fri, 4 Oct 2024 14:31:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 21:59:46.092502
- Title: Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering
- Title(参考訳): 安全か? ヘイトスピーチカウンターリングにおけるLLMの断面積強度に及ぼすガードレールの影響
- Authors: Helena Bonaldi, Greta Damo, Nicolás Benjamín Ocampo, Elena Cabrio, Serena Villata, Marco Guerini,
- Abstract要約: 我々は、よりコジェントな応答を生成するために、対音声生成の2つの側面に焦点を当てる。
まず、安全ガードレールの存在が世代の品質を損なうかどうかを検証する。
第二に、ヘイトスピーチの特定の要素を攻撃することが、オンラインヘイトと戦うためのより効果的な議論戦略をもたらすかどうかを評価する。
- 参考スコア(独自算出の注目度): 22.594296353433855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The potential effectiveness of counterspeech as a hate speech mitigation strategy is attracting increasing interest in the NLG research community, particularly towards the task of automatically producing it. However, automatically generated responses often lack the argumentative richness which characterises expert-produced counterspeech. In this work, we focus on two aspects of counterspeech generation to produce more cogent responses. First, by investigating the tension between helpfulness and harmlessness of LLMs, we test whether the presence of safety guardrails hinders the quality of the generations. Secondly, we assess whether attacking a specific component of the hate speech results in a more effective argumentative strategy to fight online hate. By conducting an extensive human and automatic evaluation, we show how the presence of safety guardrails can be detrimental also to a task that inherently aims at fostering positive social interactions. Moreover, our results show that attacking a specific component of the hate speech, and in particular its implicit negative stereotype and its hateful parts, leads to higher-quality generations.
- Abstract(参考訳): ヘイトスピーチ緩和戦略としての反音声の有効性は、NLG研究コミュニティ、特にそれを自動生成するタスクへの関心が高まりつつある。
しかし、自動生成された応答は、専門家が生成した反音声を特徴付ける議論的な豊かさを欠くことが多い。
本研究では,よりコジェントな応答を生成するために,対音声生成の2つの側面に焦点を当てる。
まず, 安全ガードレールの存在が世代品質を損なうかどうかを検証した。
第二に、ヘイトスピーチの特定の要素を攻撃することが、オンラインヘイトと戦うためのより効果的な議論戦略をもたらすかどうかを評価する。
広範囲な人的・自動的な評価を行うことにより、安全ガードレールの存在がいかに有害であるかを、本質的に肯定的な社会的相互作用を育むことを目的とした課題に示す。
さらに, ヘイトスピーチの特定の構成要素, 特に暗黙の否定的ステレオタイプとそのヘイトフルな部分に対する攻撃は, 高品質な世代を生み出すことが示唆された。
関連論文リスト
- Generative AI may backfire for counterspeech [20.57872238271025]
我々は、最先端AIが生み出す文脈化された逆音声が、オンラインヘイトスピーチを抑制するのに有効であるかどうかを分析する。
その結果,非コンテクスチュアライズされた対応音声は,オンラインヘイトスピーチを著しく減少させることがわかった。
しかし、LLMsによって生成される文脈化された反音声は効果が無く、バックファイアさえも生じうる。
論文 参考訳(メタデータ) (2024-11-22T14:47:00Z) - Assessing the Human Likeness of AI-Generated Counterspeech [10.434435022492723]
Counterspeechは、悪質なコンテンツやヘイトフルコンテンツに対する反則と挑戦に対するターゲット的反応である。
従来の研究では、自動生成音声に対する様々な戦略が提案されている。
本稿では,AI生成音声の人間的類似性,有効性に影響を与える重要な要因について検討する。
論文 参考訳(メタデータ) (2024-10-14T18:48:47Z) - Decoding Hate: Exploring Language Models' Reactions to Hate Speech [2.433983268807517]
本稿では,7つの最先端の大規模言語モデルの音声を嫌う反応について検討する。
我々は、これらのモデルが生み出す反応のスペクトルを明らかにし、ヘイトスピーチ入力を処理する能力を明らかにする。
また,LLMによるヘイトスピーチ生成を緩和するための戦略についても論じる。
論文 参考訳(メタデータ) (2024-10-01T15:16:20Z) - SWE2: SubWord Enriched and Significant Word Emphasized Framework for Hate Speech Detection [3.0460060805145517]
本稿では,メッセージの内容のみに依存し,ヘイトスピーチを自動的に識別するSWE2という新しいヘイトスピーチ検出フレームワークを提案する。
実験結果から,提案モデルでは0.975の精度と0.953のマクロF1が達成され,最先端の7つのベースラインを上回った。
論文 参考訳(メタデータ) (2024-09-25T07:05:44Z) - Outcome-Constrained Large Language Models for Countering Hate Speech [10.434435022492723]
本研究は,会話結果に制約された反音声を生成する手法を開発することを目的とする。
我々は,大言語モデル(LLM)を用いて,テキスト生成プロセスに2つの望ましい会話結果を導入する実験を行った。
評価結果から,提案手法が望まれる結果に対して効果的に対応できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:44:06Z) - RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models [62.72318564072706]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。
その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。
そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文 参考訳(メタデータ) (2023-11-16T07:48:45Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Measuring Equality in Machine Learning Security Defenses: A Case Study
in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。
提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。
本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文 参考訳(メタデータ) (2023-02-17T16:19:26Z) - Characterizing the adversarial vulnerability of speech self-supervised
learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。
実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文 参考訳(メタデータ) (2021-11-08T08:44:04Z) - Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。
しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。
我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文 参考訳(メタデータ) (2021-06-17T14:23:54Z) - Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。
本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。
実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文 参考訳(メタデータ) (2021-06-01T07:10:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。