論文の概要: LLM generated responses to mitigate the impact of hate speech
- arxiv url: http://arxiv.org/abs/2311.16905v2
- Date: Wed, 02 Oct 2024 21:29:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-05 03:34:33.611671
- Title: LLM generated responses to mitigate the impact of hate speech
- Title(参考訳): LLMはヘイトスピーチの影響を軽減するために反応を発生させる
- Authors: Jakub Podolak, Szymon Łukasik, Paweł Balawender, Jan Ossowski, Jan Piotrowski, Katarzyna Bąkowicz, Piotr Sankowski,
- Abstract要約: 本稿では,自動モデレーションシステムの設計について概説し,ユーザエンゲージメントを測定するための簡易な指標を提案する。
談話モデレーションのための生成AIの展開における倫理的考察と課題について論じる。
- 参考スコア(独自算出の注目度): 1.774563970628096
- License:
- Abstract: In this study, we explore the use of Large Language Models (LLMs) to counteract hate speech. We conducted the first real-life A/B test assessing the effectiveness of LLM-generated counter-speech. During the experiment, we posted 753 automatically generated responses aimed at reducing user engagement under tweets that contained hate speech toward Ukrainian refugees in Poland. Our work shows that interventions with LLM-generated responses significantly decrease user engagement, particularly for original tweets with at least ten views, reducing it by over 20%. This paper outlines the design of our automatic moderation system, proposes a simple metric for measuring user engagement and details the methodology of conducting such an experiment. We discuss the ethical considerations and challenges in deploying generative AI for discourse moderation.
- Abstract(参考訳): 本研究では,ヘイトスピーチに対するLarge Language Models (LLMs) の利用について検討する。
LLMによる対音声合成の有効性を評価するための,最初の実生A/B試験を行った。
実験では、ポーランドのウクライナ難民に対するヘイトスピーチを含むツイートでユーザーエンゲージメントを減らし、753の回答を自動生成しました。
LLM生成応答に対する介入はユーザーのエンゲージメントを著しく低下させ、特に10ビュー以上のオリジナルツイートでは20%以上減少させる。
本稿では,自動モデレーションシステムの設計について概説し,ユーザエンゲージメントを測定するための簡易な指標を提案する。
談話モデレーションのための生成AIの展開における倫理的考察と課題について論じる。
関連論文リスト
- Outcome-Constrained Large Language Models for Countering Hate Speech [10.434435022492723]
ヘイトスピーチへの挑戦や対応は、ヘイトスピーチのネガティブな影響を緩和し、生産的なオンラインコミュニケーションを促進する代替手段として見なされてきた。
既存の研究は、礼儀正しさ、情報的、意図駆動といった特定の言語的特性を持つ対音声の生成に焦点を当てている。
まず,大きな言語モデル(LLM)を用いて,潜在的な会話結果に制約された反音声を生成する手法について検討する。
論文 参考訳(メタデータ) (2024-03-25T19:44:06Z) - Decoding the Silent Majority: Inducing Belief Augmented Social Graph
with Large Language Model for Response Forecasting [74.68371461260946]
SocialSenseは、既存のソーシャルネットワーク上に信念中心のグラフを誘導するフレームワークであり、グラフベースの伝播によって社会的ダイナミクスを捉える。
本手法は,ゼロショット設定と教師あり設定の両方に対する実験的な評価において,既存の最先端技術を超えている。
論文 参考訳(メタデータ) (2023-10-20T06:17:02Z) - Leveraging Implicit Feedback from Deployment Data in Dialogue [83.02878726357523]
本研究では,ユーザ間の自然な対話とデプロイモデルから学習することで,社会的会話エージェントの改善について検討する。
我々は、ユーザ応答長、感情、未来の人間の発話の反応などの信号を、収集された対話エピソードで活用する。
論文 参考訳(メタデータ) (2023-07-26T11:34:53Z) - Demonstrations of the Potential of AI-based Political Issue Polling [0.0]
そこで我々は,ChatGPTから人間ライクなサーベイ応答を抽出するための迅速なエンジニアリング手法を開発した。
我々は大規模な実験を行い、人間の調査よりもはるかに低コストで何千ものシミュレーションされた応答を問い合わせる。
ChatGPTは,様々な政策問題について,世論の平均レベルと分布の両方を予測するのに有効である。
しかし、人口レベルでの違いを予想することは成功していない。
論文 参考訳(メタデータ) (2023-07-10T12:17:15Z) - SQuARe: A Large-Scale Dataset of Sensitive Questions and Acceptable
Responses Created Through Human-Machine Collaboration [75.62448812759968]
このデータセットは、韓国の大規模データセットで、49kの機密性があり、42kの許容範囲と46kの非許容応答がある。
データセットは、実際のニュースの見出しに基づいて、HyperCLOVAを人道的に活用して構築された。
論文 参考訳(メタデータ) (2023-05-28T11:51:20Z) - Measuring the Effect of Influential Messages on Varying Personas [67.1149173905004]
我々は、ニュースメッセージを見る際にペルソナが持つ可能性のある応答を推定するために、ニュースメディア向けのペルソナに対するレスポンス予測という新しいタスクを提示する。
提案課題は,モデルにパーソナライズを導入するだけでなく,各応答の感情極性と強度も予測する。
これにより、ペルソナの精神状態に関するより正確で包括的な推測が可能になる。
論文 参考訳(メタデータ) (2023-05-25T21:01:00Z) - AutoReply: Detecting Nonsense in Dialogue Introspectively with
Discriminative Replies [71.62832112141913]
対話モデルは、不適切なメッセージを示す応答の確率を計算し、内観的に自分のメッセージの誤りを検出することができることを示す。
まず、手作りの返信は外交と同じくらい複雑なアプリケーションにおけるナンセンスを検出するタスクに有効であることを示す。
AutoReplyの生成した応答は手作りの応答よりも優れており、慎重に調整された大規模な教師付きモデルと同等に動作することがわかった。
論文 参考訳(メタデータ) (2022-11-22T22:31:34Z) - Assessing the impact of contextual information in hate speech detection [0.48369513656026514]
我々は,Twitter上のメディアからのニュース投稿に対するユーザの反応に基づいた,文脈的ヘイトスピーチ検出のための新しいコーパスを提供する。
このコーパスはリオプラテンセ方言のスペイン語で収集され、新型コロナウイルスのパンデミックに関連するヘイトスピーチに焦点を当てている。
論文 参考訳(メタデータ) (2022-10-02T09:04:47Z) - "Stop Asian Hate!" : Refining Detection of Anti-Asian Hate Speech During
the COVID-19 Pandemic [2.5227595609842206]
新型コロナウイルス(COVID-19)のパンデミックは、アジアでのキセノフォビアと偏見の急増を加速させた。
我々は2つの実験的なアプローチを用いてTwitterのツイートのコーパスを作成して注釈付けし、反アジア人虐待とヘイトスピーチを探索する。
論文 参考訳(メタデータ) (2021-12-04T06:55:19Z) - News consumption and social media regulations policy [70.31753171707005]
我々は、ニュース消費とコンテンツ規制の間の相互作用を評価するために、反対のモデレーション手法であるTwitterとGabを強制した2つのソーシャルメディアを分析した。
以上の結果から,Twitterが追求するモデレーションの存在は,疑わしいコンテンツを著しく減少させることがわかった。
Gabに対する明確な規制の欠如は、ユーザが両方のタイプのコンテンツを扱う傾向を生じさせ、ディスカウント/エンドレスメントの振る舞いを考慮に入れた疑わしいコンテンツに対してわずかに好みを示す。
論文 参考訳(メタデータ) (2021-06-07T19:26:32Z) - Generating Counter Narratives against Online Hate Speech: Data and
Strategies [21.098614110697184]
本稿では,憎悪に対する回答を効果的に収集する方法について検討する。
銀データ生成には GPT-2 などの大規模教師なし言語モデルを用いる。
最高のアノテーション戦略/神経アーキテクチャは、専門家のバリデーション/ポスト編集の前にデータフィルタリングに使用できる。
論文 参考訳(メタデータ) (2020-04-08T19:35:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。