Fugu-MT 論文翻訳(概要): Analyzing the Influence of Language Model-Generated Responses in Mitigating Hate Speech on Social Media Directed at Ukrainian Refugees in Poland

論文の概要: Analyzing the Influence of Language Model-Generated Responses in Mitigating Hate Speech on Social Media Directed at Ukrainian Refugees in Poland

arxiv url: http://arxiv.org/abs/2311.16905v1
Date: Tue, 28 Nov 2023 16:08:42 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-29 17:37:04.094437
Title: Analyzing the Influence of Language Model-Generated Responses in Mitigating Hate Speech on Social Media Directed at Ukrainian Refugees in Poland
Title（参考訳）: ポーランドのウクライナ難民向けソーシャルメディアにおけるヘイトスピーチ緩和における言語モデル生成反応の影響分析
Authors: Jakub Podolak, Szymon {\L}ukasik, Pawe{\l} Balawender, Jan Ossowski, Katarzyna B\k{a}kowicz, Piotr Sankowski
Abstract要約: 本研究では,Large Language Models (LLM) によるソーシャルメディア上でのヘイトスピーチ対策の可能性を検討する。目的は、ポーランドのウクライナ難民に向けられたヘイトスピーチの伝播を最小限にすることであった。その結果, LLM生成応答を有害なツイートに対する応答として展開することで, ユーザのエンゲージメントを効果的に低下させることがわかった。
参考スコア（独自算出の注目度）: 2.5571889630399474
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In the context of escalating hate speech and polarization on social media, this study investigates the potential of employing responses generated by Large Language Models (LLM), complemented with pertinent verified knowledge links, to counteract such trends. Through extensive A/B testing involving the posting of 753 automatically generated responses, the goal was to minimize the propagation of hate speech directed at Ukrainian refugees in Poland. The results indicate that deploying LLM-generated responses as replies to harmful tweets effectively diminishes user engagement, as measured by likes/impressions. When we respond to an original tweet, i.e., which is not a reply, we reduce the engagement of users by over 20\% without increasing the number of impressions. On the other hand, our responses increase the ratio of the number of replies to a harmful tweet to impressions, especially if the harmful tweet is not original. Additionally, the study examines how generated responses influence the overall sentiment of tweets in the discussion, revealing that our intervention does not significantly alter the mean sentiment. This paper suggests the implementation of an automatic moderation system to combat hate speech on social media and provides an in-depth analysis of the A/B experiment, covering methodology, data collection, and statistical outcomes. Ethical considerations and challenges are also discussed, offering guidance for the development of discourse moderation systems leveraging the capabilities of generative AI.
Abstract（参考訳）: 本研究では,ソーシャルメディア上でのヘイトスピーチと分極化のエスカレートの文脈において,大規模言語モデル(llm)が生成する応答を関連する検証済み知識リンクで補完し,その傾向に対抗する可能性について検討する。 753の回答を自動生成する大規模なa/bテストを通じて、目的はポーランドのウクライナ難民に向けられたヘイトスピーチの拡散を最小限に抑えることであった。その結果, LLM生成応答を有害なツイートに対する応答として展開することで, ユーザのエンゲージメントを効果的に低下させることがわかった。オリジナルのツイート、すなわち、返信ではない返信に返信すると、インプレッションの数を増やすことなく、ユーザのエンゲージメントを20%以上削減します。一方、我々の回答は、特に有害なツイートがオリジナルでない場合には、有害なツイートに対する返信数の割合をインプレッションに比例する。さらに、この研究は、ツイート全体の感情に反応がどう影響するかを調査し、我々の介入が平均的な感情に大きな影響を与えないことを明らかにした。本稿では,ソーシャルメディア上でヘイトスピーチと戦う自動モデレーションシステムの実装を提案し,A/B実験の詳細な分析,方法論,データ収集,統計的結果について述べる。倫理的考察や課題についても論じ、生成型AIの能力を活用した談話モデレーションシステムの開発のためのガイダンスを提供する。

関連論文リスト

Can LLMs Simulate Social Media Engagement? A Study on Action-Guided Response Generation [51.44040615856536]
本稿では、行動誘導応答生成によるソーシャルメディアのエンゲージメントをシミュレートする大規模言語モデルの能力について分析する。 GPT-4o-mini,O1-mini,DeepSeek-R1をソーシャルメディアエンゲージメントシミュレーションで評価した。
論文参考訳（メタデータ） (2025-02-17T17:43:08Z)
HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns [29.913089752247362]
大規模言語モデル(LLM)は、ヘイトスピーチの生成における誤用に対する懸念が高まっている。我々は,LLM生成ヘイトスピーチ上でのヘイトスピーチ検出をベンチマークするフレームワークであるHateBenchを提案する。以上の結果から,検知器はLLM生成ヘイトスピーチの同定に一般的に有効であるが,その性能はLLMの新バージョンで低下することがわかった。
論文参考訳（メタデータ） (2025-01-28T07:00:45Z)
Generative AI may backfire for counterspeech [20.57872238271025]
我々は、最先端AIが生み出す文脈化された逆音声が、オンラインヘイトスピーチを抑制するのに有効であるかどうかを分析する。その結果,非コンテクスチュアライズされた対応音声は,オンラインヘイトスピーチを著しく減少させることがわかった。しかし、LLMsによって生成される文脈化された反音声は効果が無く、バックファイアさえも生じうる。
論文参考訳（メタデータ） (2024-11-22T14:47:00Z)
Modulating Language Model Experiences through Frictions [56.17593192325438]
言語モデルの過度な消費は、短期において未確認エラーを伝播し、長期的な批判的思考のために人間の能力を損なうリスクを出力する。行動科学の介入にインスパイアされた言語モデル体験のための選択的摩擦を提案し,誤用を抑える。
論文参考訳（メタデータ） (2024-06-24T16:31:11Z)
"I'm Not Sure, But...": Examining the Impact of Large Language Models' Uncertainty Expression on User Reliance and Trust [51.542856739181474]
不確実性の自然言語表現の違いが、参加者の信頼、信頼、全体的なタスクパフォーマンスにどのように影響するかを示す。その結果, 一人称表情は, 参加者のシステムに対する信頼度を低下させ, 参加者の正確性を高めつつ, システムの回答に同調する傾向にあることがわかった。以上の結果から,不確実性の自然言語表現の使用は,LLMの過度な依存を軽減するための効果的なアプローチである可能性が示唆された。
論文参考訳（メタデータ） (2024-05-01T16:43:55Z)
Don't Say No: Jailbreaking LLM by Suppressing Refusal [13.666830169722576]
本研究では,バニラ目標損失が最適でない理由を最初に明らかにし,損失目標を探索・拡張し,DSN(Don't Say No)攻撃を導入する。 Refusalキーワードマッチングのような既存の評価では、多くの偽陽性および偽陰性インスタンスが明らかである。この課題を克服するために,自然言語推論(NLI)の矛盾評価と2つの外部LCM評価器を新たに組み込んだアンサンブル評価パイプラインを提案する。
論文参考訳（メタデータ） (2024-04-25T07:15:23Z)
Outcome-Constrained Large Language Models for Countering Hate Speech [10.434435022492723]
本研究は,会話結果に制約された反音声を生成する手法を開発することを目的とする。我々は,大言語モデル(LLM)を用いて,テキスト生成プロセスに2つの望ましい会話結果を導入する実験を行った。評価結果から,提案手法が望まれる結果に対して効果的に対応できることが示唆された。
論文参考訳（メタデータ） (2024-03-25T19:44:06Z)
Intent-conditioned and Non-toxic Counterspeech Generation using Multi-Task Instruction Tuning with RLAIF [14.2594830589926]
オンラインヘイトスピーチに対する反応として定義されているCounterspeechは、非センセーショナルソリューションとしてますます利用されている。ヘイトフルステートメントにおける社会的バイアスの背景にある実践的意味をモデル化し,反音声生成を促進させる新しいフレームワークであるCoARLを紹介した。 CoARLの最初の2つのフェーズは、連続的なマルチインストラクションチューニング、インテント、反応、攻撃的ステートメントの害を理解するためのモデルを教えること、そしてインテント条件付き逆音声を生成するためのタスク固有の低ランクアダプタ重みを学習することである。
論文参考訳（メタデータ） (2024-03-15T08:03:49Z)
Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文参考訳（メタデータ） (2024-03-01T03:29:54Z)
HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online Posts using Large Language Models [4.9711707739781215]
本稿では,投稿前にもヘイトスピーチ内容の表現を示唆するアプローチについて検討する。タスク記述、ヘイト定義、数発のデモ、思考の連鎖に基づく4つの異なるプロンプトを開発する。 GPT-3.5は,様々な種類のプロンプトに対して,ベースラインモデルやオープンソースモデルよりも優れていることがわかった。
論文参考訳（メタデータ） (2023-10-21T12:18:29Z)
Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文参考訳（メタデータ） (2023-09-20T09:23:46Z)
Encouraging Divergent Thinking in Large Language Models through Multi-Agent Debate [85.3444184685235]
複数のエージェントが"tit for tat"の状態で議論を表現するマルチエージェント議論(MAD)フレームワークを提案し、審査員が議論プロセスを管理して最終解を得る。我々のフレームワークは、深い熟考を必要とするタスクに役立ちそうなLSMにおける散発的思考を奨励する。
論文参考訳（メタデータ） (2023-05-30T15:25:45Z)
Membership Inference Attacks Against Self-supervised Speech Models [62.73937175625953]
連続音声における自己教師付き学習(SSL)が注目されている。ブラックボックスアクセス下でのMIA(Commanship Inference Attacks)を用いたSSL音声モデルに対する最初のプライバシ分析を行う。
論文参考訳（メタデータ） (2021-11-09T13:00:24Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。