Fugu-MT 論文翻訳(概要): Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering

論文の概要: Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering

arxiv url: http://arxiv.org/abs/2410.03466v1
Date: Fri, 4 Oct 2024 14:31:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 21:59:46.092502
Title: Is Safer Better? The Impact of Guardrails on the Argumentative Strength of LLMs in Hate Speech Countering
Title（参考訳）: 安全か? ヘイトスピーチカウンターリングにおけるLLMの断面積強度に及ぼすガードレールの影響
Authors: Helena Bonaldi, Greta Damo, Nicolás Benjamín Ocampo, Elena Cabrio, Serena Villata, Marco Guerini,
Abstract要約: 我々は、よりコジェントな応答を生成するために、対音声生成の2つの側面に焦点を当てる。まず、安全ガードレールの存在が世代の品質を損なうかどうかを検証する。第二に、ヘイトスピーチの特定の要素を攻撃することが、オンラインヘイトと戦うためのより効果的な議論戦略をもたらすかどうかを評価する。
参考スコア（独自算出の注目度）: 22.594296353433855
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The potential effectiveness of counterspeech as a hate speech mitigation strategy is attracting increasing interest in the NLG research community, particularly towards the task of automatically producing it. However, automatically generated responses often lack the argumentative richness which characterises expert-produced counterspeech. In this work, we focus on two aspects of counterspeech generation to produce more cogent responses. First, by investigating the tension between helpfulness and harmlessness of LLMs, we test whether the presence of safety guardrails hinders the quality of the generations. Secondly, we assess whether attacking a specific component of the hate speech results in a more effective argumentative strategy to fight online hate. By conducting an extensive human and automatic evaluation, we show how the presence of safety guardrails can be detrimental also to a task that inherently aims at fostering positive social interactions. Moreover, our results show that attacking a specific component of the hate speech, and in particular its implicit negative stereotype and its hateful parts, leads to higher-quality generations.
Abstract（参考訳）: ヘイトスピーチ緩和戦略としての反音声の有効性は、NLG研究コミュニティ、特にそれを自動生成するタスクへの関心が高まりつつある。しかし、自動生成された応答は、専門家が生成した反音声を特徴付ける議論的な豊かさを欠くことが多い。本研究では,よりコジェントな応答を生成するために,対音声生成の2つの側面に焦点を当てる。まず, 安全ガードレールの存在が世代品質を損なうかどうかを検証した。第二に、ヘイトスピーチの特定の要素を攻撃することが、オンラインヘイトと戦うためのより効果的な議論戦略をもたらすかどうかを評価する。広範囲な人的・自動的な評価を行うことにより、安全ガードレールの存在がいかに有害であるかを、本質的に肯定的な社会的相互作用を育むことを目的とした課題に示す。さらに, ヘイトスピーチの特定の構成要素, 特に暗黙の否定的ステレオタイプとそのヘイトフルな部分に対する攻撃は, 高品質な世代を生み出すことが示唆された。

関連論文リスト

Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。有害なクエリを良心的な推論タスクに再構成する。 RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文参考訳（メタデータ） (2025-02-16T09:27:44Z)
HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns [29.913089752247362]
大規模言語モデル(LLM)は、ヘイトスピーチの生成における誤用に対する懸念が高まっている。我々は,LLM生成ヘイトスピーチ上でのヘイトスピーチ検出をベンチマークするフレームワークであるHateBenchを提案する。以上の結果から,検知器はLLM生成ヘイトスピーチの同定に一般的に有効であるが,その性能はLLMの新バージョンで低下することがわかった。
論文参考訳（メタデータ） (2025-01-28T07:00:45Z)
Echoes of Discord: Forecasting Hater Reactions to Counterspeech [10.658005418397748]
本研究は, ハザードの観点から, 反音声の影響を解析する。我々は2段階反応予測器と3段階分類モデルという2つの戦略を採用している。実験結果から,3段階の分類モデルの方が2段階の反応予測よりも優れていることが示された。
論文参考訳（メタデータ） (2025-01-27T17:33:38Z)
Generative AI may backfire for counterspeech [20.57872238271025]
我々は、最先端AIが生み出す文脈化された逆音声が、オンラインヘイトスピーチを抑制するのに有効であるかどうかを分析する。その結果,非コンテクスチュアライズされた対応音声は,オンラインヘイトスピーチを著しく減少させることがわかった。しかし、LLMsによって生成される文脈化された反音声は効果が無く、バックファイアさえも生じうる。
論文参考訳（メタデータ） (2024-11-22T14:47:00Z)
Assessing the Human Likeness of AI-Generated Counterspeech [10.434435022492723]
Counterspeechは、悪質なコンテンツやヘイトフルコンテンツに対する反則と挑戦に対するターゲット的反応である。従来の研究では、自動生成音声に対する様々な戦略が提案されている。本稿では,AI生成音声の人間的類似性,有効性に影響を与える重要な要因について検討する。
論文参考訳（メタデータ） (2024-10-14T18:48:47Z)
Decoding Hate: Exploring Language Models' Reactions to Hate Speech [2.433983268807517]
本稿では,7つの最先端の大規模言語モデルの音声を嫌う反応について検討する。我々は、これらのモデルが生み出す反応のスペクトルを明らかにし、ヘイトスピーチ入力を処理する能力を明らかにする。また,LLMによるヘイトスピーチ生成を緩和するための戦略についても論じる。
論文参考訳（メタデータ） (2024-10-01T15:16:20Z)
SWE2: SubWord Enriched and Significant Word Emphasized Framework for Hate Speech Detection [3.0460060805145517]
本稿では,メッセージの内容のみに依存し,ヘイトスピーチを自動的に識別するSWE2という新しいヘイトスピーチ検出フレームワークを提案する。実験結果から,提案モデルでは0.975の精度と0.953のマクロF1が達成され,最先端の7つのベースラインを上回った。
論文参考訳（メタデータ） (2024-09-25T07:05:44Z)
Outcome-Constrained Large Language Models for Countering Hate Speech [10.434435022492723]
本研究は,会話結果に制約された反音声を生成する手法を開発することを目的とする。我々は,大言語モデル(LLM)を用いて,テキスト生成プロセスに2つの望ましい会話結果を導入する実験を行った。評価結果から,提案手法が望まれる結果に対して効果的に対応できることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:44:06Z)
RLHFPoison: Reward Poisoning Attack for Reinforcement Learning with Human Feedback in Large Language Models [62.72318564072706]
Reinforcement Learning with Human Feedback (RLHF) は、Large Language Models (LLM) を人間の好みに合わせるために設計された方法論である。その利点にもかかわらず、RLHFはテキストのランク付けに人間のアノテーションに依存している。そこで我々は,ある悪意ある行動に到達するために,候補の選好ランク選択に対する中毒攻撃手法であるRancPoisonを提案する。
論文参考訳（メタデータ） (2023-11-16T07:48:45Z)
CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文参考訳（メタデータ） (2023-03-02T17:30:43Z)
Measuring Equality in Machine Learning Security Defenses: A Case Study in Speech Recognition [56.69875958980474]
この研究は、学習したシステムを守るためのアプローチと、異なるサブ人口間でのセキュリティ防衛がパフォーマンス上の不平等をもたらす方法を検討する。提案された多くの手法は、虚偽の拒絶やロバストネストレーニングの不平等といった直接的な害を引き起こす可能性がある。本稿では, ランダム化スムースメントとニューラルリジェクションの2つの防御法の比較を行い, マイノリティ集団のサンプリング機構により, ランダム化スムースメントがより公平であることを見出した。
論文参考訳（メタデータ） (2023-02-17T16:19:26Z)
Characterizing the adversarial vulnerability of speech self-supervised learning [95.03389072594243]
我々は,ゼロ知識とリミテッド知識の両方の敵からの攻撃の下で,そのようなパラダイムの敵対的脆弱性を調査するための最初の試みを行う。実験結果から, SUPERB が提案するパラダイムは, 限られた知識を持つ敵に対して脆弱であることが示唆された。
論文参考訳（メタデータ） (2021-11-08T08:44:04Z)
Adversarial Visual Robustness by Causal Intervention [56.766342028800445]
敵の訓練は、敵の例に対する事実上最も有望な防御である。しかし、その受動性は必然的に未知の攻撃者への免疫を妨げる。我々は、敵対的脆弱性の因果的視点を提供する: 原因は、学習に普遍的に存在する共同創設者である。
論文参考訳（メタデータ） (2021-06-17T14:23:54Z)
Improving the Adversarial Robustness for Speaker Verification by Self-Supervised Learning [95.60856995067083]
この研究は、特定の攻撃アルゴリズムを知らずにASVの敵防衛を行う最初の試みの一つである。本研究の目的は,1) 対向摂動浄化と2) 対向摂動検出の2つの視点から対向防御を行うことである。実験の結果, 検出モジュールは, 約80%の精度で対向検体を検出することにより, ASVを効果的に遮蔽することがわかった。
論文参考訳（メタデータ） (2021-06-01T07:10:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。