論文の概要: Analyzing the Influence of Language Model-Generated Responses in
Mitigating Hate Speech on Social Media Directed at Ukrainian Refugees in
Poland
- arxiv url: http://arxiv.org/abs/2311.16905v1
- Date: Tue, 28 Nov 2023 16:08:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-29 17:37:04.094437
- Title: Analyzing the Influence of Language Model-Generated Responses in
Mitigating Hate Speech on Social Media Directed at Ukrainian Refugees in
Poland
- Title(参考訳): ポーランドのウクライナ難民向けソーシャルメディアにおけるヘイトスピーチ緩和における言語モデル生成反応の影響分析
- Authors: Jakub Podolak, Szymon {\L}ukasik, Pawe{\l} Balawender, Jan Ossowski,
Katarzyna B\k{a}kowicz, Piotr Sankowski
- Abstract要約: 本研究では,Large Language Models (LLM) によるソーシャルメディア上でのヘイトスピーチ対策の可能性を検討する。
目的は、ポーランドのウクライナ難民に向けられたヘイトスピーチの伝播を最小限にすることであった。
その結果, LLM生成応答を有害なツイートに対する応答として展開することで, ユーザのエンゲージメントを効果的に低下させることがわかった。
- 参考スコア(独自算出の注目度): 2.5571889630399474
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In the context of escalating hate speech and polarization on social media,
this study investigates the potential of employing responses generated by Large
Language Models (LLM), complemented with pertinent verified knowledge links, to
counteract such trends. Through extensive A/B testing involving the posting of
753 automatically generated responses, the goal was to minimize the propagation
of hate speech directed at Ukrainian refugees in Poland.
The results indicate that deploying LLM-generated responses as replies to
harmful tweets effectively diminishes user engagement, as measured by
likes/impressions. When we respond to an original tweet, i.e., which is not a
reply, we reduce the engagement of users by over 20\% without increasing the
number of impressions. On the other hand, our responses increase the ratio of
the number of replies to a harmful tweet to impressions, especially if the
harmful tweet is not original. Additionally, the study examines how generated
responses influence the overall sentiment of tweets in the discussion,
revealing that our intervention does not significantly alter the mean
sentiment.
This paper suggests the implementation of an automatic moderation system to
combat hate speech on social media and provides an in-depth analysis of the A/B
experiment, covering methodology, data collection, and statistical outcomes.
Ethical considerations and challenges are also discussed, offering guidance for
the development of discourse moderation systems leveraging the capabilities of
generative AI.
- Abstract(参考訳): 本研究では,ソーシャルメディア上でのヘイトスピーチと分極化のエスカレートの文脈において,大規模言語モデル(llm)が生成する応答を関連する検証済み知識リンクで補完し,その傾向に対抗する可能性について検討する。
753の回答を自動生成する大規模なa/bテストを通じて、目的はポーランドのウクライナ難民に向けられたヘイトスピーチの拡散を最小限に抑えることであった。
その結果, LLM生成応答を有害なツイートに対する応答として展開することで, ユーザのエンゲージメントを効果的に低下させることがわかった。
オリジナルのツイート、すなわち、返信ではない返信に返信すると、インプレッションの数を増やすことなく、ユーザのエンゲージメントを20%以上削減します。
一方、我々の回答は、特に有害なツイートがオリジナルでない場合には、有害なツイートに対する返信数の割合をインプレッションに比例する。
さらに、この研究は、ツイート全体の感情に反応がどう影響するかを調査し、我々の介入が平均的な感情に大きな影響を与えないことを明らかにした。
本稿では,ソーシャルメディア上でヘイトスピーチと戦う自動モデレーションシステムの実装を提案し,A/B実験の詳細な分析,方法論,データ収集,統計的結果について述べる。
倫理的考察や課題についても論じ、生成型AIの能力を活用した談話モデレーションシステムの開発のためのガイダンスを提供する。
関連論文リスト
- Generative AI may backfire for counterspeech [20.57872238271025]
我々は、最先端AIが生み出す文脈化された逆音声が、オンラインヘイトスピーチを抑制するのに有効であるかどうかを分析する。
その結果,非コンテクスチュアライズされた対応音声は,オンラインヘイトスピーチを著しく減少させることがわかった。
しかし、LLMsによって生成される文脈化された反音声は効果が無く、バックファイアさえも生じうる。
論文 参考訳(メタデータ) (2024-11-22T14:47:00Z) - Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。
行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文 参考訳(メタデータ) (2024-06-24T16:31:11Z) - "I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。
その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。
以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2024-05-01T16:43:55Z) - Don't Say No: Jailbreaking LLM by Suppressing Refusal [13.666830169722576]
本研究では,バニラ目標損失が最適でない理由を最初に明らかにし,損失目標を探索・拡張し,DSN(Don't Say No)攻撃を導入する。
Refusalキーワードマッチングのような既存の評価では、多くの偽陽性および偽陰性インスタンスが明らかである。
この課題を克服するために,自然言語推論(NLI)の矛盾評価と2つの外部LCM評価器を新たに組み込んだアンサンブル評価パイプラインを提案する。
論文 参考訳(メタデータ) (2024-04-25T07:15:23Z) - Outcome-Constrained Large Language Models for Countering Hate Speech [10.434435022492723]
本研究は,会話結果に制約された反音声を生成する手法を開発することを目的とする。
我々は,大言語モデル(LLM)を用いて,テキスト生成プロセスに2つの望ましい会話結果を導入する実験を行った。
評価結果から,提案手法が望まれる結果に対して効果的に対応できることが示唆された。
論文 参考訳(メタデータ) (2024-03-25T19:44:06Z) - Intent-conditioned and Non-toxic Counterspeech Generation using Multi-Task Instruction Tuning with RLAIF [14.2594830589926]
オンラインヘイトスピーチに対する反応として定義されているCounterspeechは、非センセーショナルソリューションとしてますます利用されている。
ヘイトフルステートメントにおける社会的バイアスの背景にある実践的意味をモデル化し,反音声生成を促進させる新しいフレームワークであるCoARLを紹介した。
CoARLの最初の2つのフェーズは、連続的なマルチインストラクションチューニング、インテント、反応、攻撃的ステートメントの害を理解するためのモデルを教えること、そしてインテント条件付き逆音声を生成するためのタスク固有の低ランクアダプタ重みを学習することである。
論文 参考訳(メタデータ) (2024-03-15T08:03:49Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online
Posts using Large Language Models [4.9711707739781215]
本稿では,投稿前にもヘイトスピーチ内容の表現を示唆するアプローチについて検討する。
タスク記述、ヘイト定義、数発のデモ、思考の連鎖に基づく4つの異なるプロンプトを開発する。
GPT-3.5は,様々な種類のプロンプトに対して,ベースラインモデルやオープンソースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:18:29Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z) - Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。
我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文 参考訳(メタデータ) (2023-05-30T15:25:45Z) - Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。
ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文 参考訳(メタデータ) (2021-11-09T13:00:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。