論文の概要: Consolidating Strategies for Countering Hate Speech Using Persuasive
Dialogues
- arxiv url: http://arxiv.org/abs/2401.07810v1
- Date: Mon, 15 Jan 2024 16:31:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:38:30.628812
- Title: Consolidating Strategies for Countering Hate Speech Using Persuasive
Dialogues
- Title(参考訳): 説得対話を用いたヘイトスピーチ対策戦略の統合化
- Authors: Sougata Saha and Rohini Srihari
- Abstract要約: オンライン会話におけるヘイトフルコメントに対する反論を生み出すためのコントロール可能な戦略について検討する。
自動評価と人的評価を用いて、流動的で議論的で論理的に健全な議論を生成する特徴の最適な組み合わせを決定する。
我々は,このような特徴を持つテキストを自動的に注釈付けするための計算モデルと,既存のヘイトスピーチコーパスの銀標準アノテートバージョンを共有した。
- 参考スコア(独自算出の注目度): 3.8979646385036175
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hateful comments are prevalent on social media platforms. Although tools for
automatically detecting, flagging, and blocking such false, offensive, and
harmful content online have lately matured, such reactive and brute force
methods alone provide short-term and superficial remedies while the
perpetrators persist. With the public availability of large language models
which can generate articulate synthetic and engaging content at scale, there
are concerns about the rapid growth of dissemination of such malicious content
on the web. There is now a need to focus on deeper, long-term solutions that
involve engaging with the human perpetrator behind the source of the content to
change their viewpoint or at least bring down the rhetoric using persuasive
means. To do that, we propose defining and experimenting with controllable
strategies for generating counter-arguments to hateful comments in online
conversations. We experiment with controlling response generation using
features based on (i) argument structure and reasoning-based Walton argument
schemes, (ii) counter-argument speech acts, and (iii) human
characteristics-based qualities such as Big-5 personality traits and human
values. Using automatic and human evaluations, we determine the best
combination of features that generate fluent, argumentative, and logically
sound arguments for countering hate. We further share the developed
computational models for automatically annotating text with such features, and
a silver-standard annotated version of an existing hate speech dialog corpora.
- Abstract(参考訳): ソーシャルメディアプラットフォームでは、好意的なコメントが一般的だ。
オンライン上で偽の、攻撃的で有害なコンテンツを自動検出、フラグ付け、ブロックするツールは近年成熟しているが、このような反応性と残酷な力の方法は、加害者が持続する間、短期的および表面的な治療を提供する。
音声合成・エンゲージメントコンテンツを大規模に生成できる大規模言語モデルの公開により、このような悪意のあるコンテンツをWeb上で急速に普及させることが懸念される。
今では、コンテンツのソースの背後にいる人間の加害者と関わり合い、彼らの視点を変えたり、少なくとも説得力のある手段で修辞を倒したりする、より深く長期的なソリューションに焦点を合わせる必要がある。
そこで本研究では,オンライン会話における嫌悪コメントに対する反論を生成するための制御可能な戦略を定義し,実験する。
特徴量に基づく応答生成制御実験を行った。
(i)議論構造と推論に基づくウォルトン議論スキーム
(ii)反論言論行為、及び
(iii)big-5パーソナリティ特性や人格などの人格に基づく性質。
自動評価と人的評価を用いて,憎悪に対処するために,流動的で議論的,論理的に健全な議論を生成する特徴の組み合わせを決定する。
さらに,このような特徴を持つテキストの自動アノテートのための計算モデルと,既存のヘイトスピーチコーパスの銀標準アノテート版を共有する。
関連論文リスト
- Assessing the Human Likeness of AI-Generated Counterspeech [10.434435022492723]
Counterspeechは、悪質なコンテンツやヘイトフルコンテンツに対する反則と挑戦に対するターゲット的反応である。
従来の研究では、自動生成音声に対する様々な戦略が提案されている。
本稿では,AI生成音声の人間的類似性,有効性に影響を与える重要な要因について検討する。
論文 参考訳(メタデータ) (2024-10-14T18:48:47Z) - LLM-based Rewriting of Inappropriate Argumentation using Reinforcement Learning from Machine Feedback [16.57980268646285]
本稿では,議論における不適切な言語を計算的に緩和する方法について検討する。
コンテンツ保存と適切性のバランスをとるための強化学習に基づく書き直し手法を提案する。
絶対的および相対的評価研究において,報酬関数の重み付け方式について検討した。
論文 参考訳(メタデータ) (2024-06-05T15:18:08Z) - Understanding Counterspeech for Online Harm Mitigation [12.104301755723542]
Counterspeechは、憎悪の犯人に挑戦し、虐待の標的への支援を示すことによって、憎悪の言葉に対する直接の反論を提供する。
コンテンツモデレーションやデプラットフォームといった、より論争的な手段に代わる、有望な代替手段を提供する。
本稿では,社会科学における反音声研究を体系的にレビューし,自動対音声生成における方法論と知見をコンピュータ科学の取り組みと比較する。
論文 参考訳(メタデータ) (2023-07-01T20:54:01Z) - Which Argumentative Aspects of Hate Speech in Social Media can be
reliably identified? [2.7647400328727256]
議論のどの側面が言語モデルに確実に識別され、統合されるのかは、不明である。
いくつかのコンポーネントが合理的な信頼性で識別可能であることを示す。
より確実に再現できるカテゴリの適応を提案する。
論文 参考訳(メタデータ) (2023-06-05T15:50:57Z) - Controllable Mixed-Initiative Dialogue Generation through Prompting [50.03458333265885]
混合開始対話タスクには、情報の繰り返し交換と会話制御が含まれる。
エージェントは、ポリシープランナーが定める特定の対話意図や戦略に従う応答を生成することにより、コントロールを得る。
標準的なアプローチは、これらの意図に基づいて生成条件を実行するために、訓練済みの言語モデルを微調整している。
代わりに、条件生成の微調整に代えて、大きな言語モデルをドロップインで置き換えるように促します。
論文 参考訳(メタデータ) (2023-05-06T23:11:25Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Countering Malicious Content Moderation Evasion in Online Social
Networks: Simulation and Detection of Word Camouflage [64.78260098263489]
ツイストとカモフラージュキーワードは、プラットフォームコンテンツモデレーションシステムを回避する最もよく使われるテクニックである。
本稿では,コンテンツ回避の新たな手法をシミュレートし,検出する多言語ツールを開発することにより,悪意ある情報に対する対処に大きく貢献する。
論文 参考訳(メタデータ) (2022-12-27T16:08:49Z) - Parsimonious Argument Annotations for Hate Speech Counter-narratives [4.825848785596437]
本稿では、ヘイトスピーチツイートのHatevalコーパス(Basile et al.)を充実させ、自動対ナラティブ生成を容易にする。
我々はまた、Wagemannsに基づく議論的な情報付きツイートを注釈付けし、特定のグループに対するヘイトスピーチに対して、説得力があり効果的な反ナラティブを構築するのに役立つと信じている。
予備的な結果は、自動アノテータが人間のアノテータに近づき、議論のいくつかの側面を検知する一方で、他のアノテータは低レベルまたは中程度のアノテータ間合意にしか到達しないことを示している。
論文 参考訳(メタデータ) (2022-08-01T18:58:32Z) - Persua: A Visual Interactive System to Enhance the Persuasiveness of
Arguments in Online Discussion [52.49981085431061]
説得力のある議論を書く能力を高めることは、オンラインコミュニケーションの有効性と文明性に寄与する。
オンライン議論における議論の説得力向上を支援するツールの設計目標を4つ導き出した。
Persuaは対話型ビジュアルシステムであり、議論の説得力を高めるための説得戦略の例に基づくガイダンスを提供する。
論文 参考訳(メタデータ) (2022-04-16T08:07:53Z) - Aspect-Controlled Neural Argument Generation [65.91772010586605]
我々は、与えられたトピック、スタンス、アスペクトの文レベル引数を生成するために、きめ細かいレベルで制御できる引数生成のための言語モデルを訓練する。
評価の結果,我々の生成モデルは高品質なアスペクト特異的な議論を生成できることがわかった。
これらの議論は、データ拡張による姿勢検出モデルの性能向上と、逆問題の生成に使用できる。
論文 参考訳(メタデータ) (2020-04-30T20:17:22Z) - You Impress Me: Dialogue Generation via Mutual Persona Perception [62.89449096369027]
認知科学の研究は、理解が高品質なチャット会話に不可欠なシグナルであることを示唆している。
そこで我々は,P2 Botを提案する。このP2 Botは,理解を明示的にモデル化することを目的とした送信機受信者ベースのフレームワークである。
論文 参考訳(メタデータ) (2020-04-11T12:51:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。