論文の概要: Decoding Hate: Exploring Language Models' Reactions to Hate Speech
- arxiv url: http://arxiv.org/abs/2410.00775v1
- Date: Tue, 1 Oct 2024 15:16:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-05 04:05:38.972199
- Title: Decoding Hate: Exploring Language Models' Reactions to Hate Speech
- Title(参考訳): ヘイトをデコードする: ヘイトスピーチに対する言語モデルの反応を探る
- Authors: Paloma Piot, Javier Parapar,
- Abstract要約: 本稿では,7つの最先端の大規模言語モデルの音声を嫌う反応について検討する。
我々は、これらのモデルが生み出す反応のスペクトルを明らかにし、ヘイトスピーチ入力を処理する能力を明らかにする。
また,LLMによるヘイトスピーチ生成を緩和するための戦略についても論じる。
- 参考スコア(独自算出の注目度): 2.433983268807517
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech is a harmful form of online expression, often manifesting as derogatory posts. It is a significant risk in digital environments. With the rise of Large Language Models (LLMs), there is concern about their potential to replicate hate speech patterns, given their training on vast amounts of unmoderated internet data. Understanding how LLMs respond to hate speech is crucial for their responsible deployment. However, the behaviour of LLMs towards hate speech has been limited compared. This paper investigates the reactions of seven state-of-the-art LLMs (LLaMA 2, Vicuna, LLaMA 3, Mistral, GPT-3.5, GPT-4, and Gemini Pro) to hate speech. Through qualitative analysis, we aim to reveal the spectrum of responses these models produce, highlighting their capacity to handle hate speech inputs. We also discuss strategies to mitigate hate speech generation by LLMs, particularly through fine-tuning and guideline guardrailing. Finally, we explore the models' responses to hate speech framed in politically correct language.
- Abstract(参考訳): ヘイトスピーチは、しばしば軽蔑的なポストとして表される、オンライン表現の有害な形態である。
これはデジタル環境において重大なリスクである。
LLM(Large Language Models)の台頭に伴い、大量の未修正インターネットデータをトレーニングしていることから、ヘイトスピーチパターンを再現する可能性に懸念が持たれている。
LLMがヘイトスピーチにどのように反応するかを理解することは、デプロイメントの責任を負う上で重要です。
しかし,LLMのヘイトスピーチに対する行動は限定的に比較されている。
本稿では,7つの最先端LPM(LLaMA 2, Vicuna, LLaMA 3, Mistral, GPT-3.5, GPT-4, Gemini Pro)のヘイトスピーチに対する反応について検討する。
質的な分析を通じて、これらのモデルが生み出す反応のスペクトルを明らかにし、ヘイトスピーチ入力を処理する能力を明らかにすることを目的とする。
また,LLMによるヘイトスピーチ生成を緩和するための戦略についても論じる。
最後に、政治的に正しい言語でフレーム化されたヘイトスピーチに対するモデルの反応について検討する。
関連論文リスト
- HateBench: Benchmarking Hate Speech Detectors on LLM-Generated Content and Hate Campaigns [29.913089752247362]
大規模言語モデル(LLM)は、ヘイトスピーチの生成における誤用に対する懸念が高まっている。
我々は,LLM生成ヘイトスピーチ上でのヘイトスピーチ検出をベンチマークするフレームワークであるHateBenchを提案する。
以上の結果から,検知器はLLM生成ヘイトスピーチの同定に一般的に有効であるが,その性能はLLMの新バージョンで低下することがわかった。
論文 参考訳(メタデータ) (2025-01-28T07:00:45Z) - Long-Form Speech Generation with Spoken Language Models [64.29591880693468]
SpeechSSMは、テキスト中間子なしで1つの復号セッションで長い形式の音声を学習し、サンプリングする。
新しい埋め込みベースとLLM-judgedメトリクス、長さと時間による品質測定、長文音声処理と生成のための新しいベンチマークであるLibriSpeech-Long。
論文 参考訳(メタデータ) (2024-12-24T18:56:46Z) - Generative AI may backfire for counterspeech [20.57872238271025]
我々は、最先端AIが生み出す文脈化された逆音声が、オンラインヘイトスピーチを抑制するのに有効であるかどうかを分析する。
その結果,非コンテクスチュアライズされた対応音声は,オンラインヘイトスピーチを著しく減少させることがわかった。
しかし、LLMsによって生成される文脈化された反音声は効果が無く、バックファイアさえも生じうる。
論文 参考訳(メタデータ) (2024-11-22T14:47:00Z) - An Investigation of Large Language Models for Real-World Hate Speech
Detection [46.15140831710683]
既存の手法の大きな制限は、ヘイトスピーチ検出がコンテキストの問題である点である。
近年,大規模言語モデル (LLM) はいくつかの自然言語処理において最先端の性能を示した。
本研究は, ヘイトスピーチの文脈を効果的に把握する上で, 巧妙な推論プロンプトが有効であることを明らかにする。
論文 参考訳(メタデータ) (2024-01-07T00:39:33Z) - HateRephrase: Zero- and Few-Shot Reduction of Hate Intensity in Online
Posts using Large Language Models [4.9711707739781215]
本稿では,投稿前にもヘイトスピーチ内容の表現を示唆するアプローチについて検討する。
タスク記述、ヘイト定義、数発のデモ、思考の連鎖に基づく4つの異なるプロンプトを開発する。
GPT-3.5は,様々な種類のプロンプトに対して,ベースラインモデルやオープンソースモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-10-21T12:18:29Z) - CoSyn: Detecting Implicit Hate Speech in Online Conversations Using a
Context Synergized Hyperbolic Network [52.85130555886915]
CoSynは、オンライン会話における暗黙のヘイトスピーチを検出するために、ユーザと会話のコンテキストを明示的に組み込んだ、コンテキスト中心のニューラルネットワークである。
我々は、CoSynが、1.24%から57.8%の範囲で絶対的に改善された暗黙のヘイトスピーチを検出することで、我々のベースラインを全て上回っていることを示す。
論文 参考訳(メタデータ) (2023-03-02T17:30:43Z) - Addressing the Challenges of Cross-Lingual Hate Speech Detection [115.1352779982269]
本稿では,低リソース言語におけるヘイトスピーチ検出を支援するために,言語間移動学習に着目した。
言語間単語の埋め込みを利用して、ソース言語上でニューラルネットワークシステムをトレーニングし、ターゲット言語に適用します。
本研究では,ヘイトスピーチデータセットのラベル不均衡の問題について検討する。なぜなら,ヘイトサンプルと比較して非ヘイトサンプルの比率が高いことがモデル性能の低下につながることが多いからだ。
論文 参考訳(メタデータ) (2022-01-15T20:48:14Z) - Detection of Hate Speech using BERT and Hate Speech Word Embedding with
Deep Model [0.5801044612920815]
本稿では,双方向LSTMに基づくディープモデルにドメイン固有の単語を埋め込み,ヘイトスピーチを自動的に検出・分類する可能性について検討する。
実験の結果、Bidirectional LSTMベースのディープモデルによるドメイン固有単語の埋め込みは93%のf1スコアを獲得し、BERTは96%のf1スコアを達成した。
論文 参考訳(メタデータ) (2021-11-02T11:42:54Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - Countering Online Hate Speech: An NLP Perspective [34.19875714256597]
オンラインヘイトフル行動の傘語であるオンライン毒性は、オンラインヘイトスピーチのような形で現れている。
ソーシャルメディアを通じた大量コミュニケーションの増加は、オンラインヘイトスピーチの有害な結果をさらに悪化させる。
本稿では、ヘイトスピーチにおけるNLP対応手法に関する総合的な概念的枠組みと、オンラインヘイトスピーチ対策におけるNLPの現在の動向に関する徹底的な調査について述べる。
論文 参考訳(メタデータ) (2021-09-07T08:48:13Z) - Racism is a Virus: Anti-Asian Hate and Counterspeech in Social Media
during the COVID-19 Crisis [51.39895377836919]
新型コロナウイルスは、アジアのコミュニティをターゲットにしたソーシャルメディア上で人種差別や憎悪を引き起こしている。
我々は、Twitterのレンズを通して、反アジアヘイトスピーチの進化と普及について研究する。
私たちは、14ヶ月にわたる反アジア的憎悪と反音声のデータセットとして最大となるCOVID-HATEを作成します。
論文 参考訳(メタデータ) (2020-05-25T21:58:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。