論文の概要: Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets
- arxiv url: http://arxiv.org/abs/2410.07991v4
- Date: Thu, 19 Dec 2024 15:16:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-20 13:28:23.027809
- Title: Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets
- Title(参考訳): ヘイトスピーチアノテーションにおける人間とLDMのバイアス--アノテーションとターゲットの社会デモグラフィーによる分析
- Authors: Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci,
- Abstract要約: 我々は、アノテータとターゲットの両方の社会デマトグラフィー情報を豊富なデータセットで活用する。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付ける広範囲なバイアスの存在が明らかになった。
私たちの研究は、ヘイトスピーチアノテーションにおける人間のバイアスに関する新しい、そして、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
- 参考スコア(独自算出の注目度): 0.6918368994425961
- License:
- Abstract: The rise of online platforms exacerbated the spread of hate speech, demanding scalable and effective detection. However, the accuracy of hate speech detection systems heavily relies on human-labeled data, which is inherently susceptible to biases. While previous work has examined the issue, the interplay between the characteristics of the annotator and those of the target of the hate are still unexplored. We fill this gap by leveraging an extensive dataset with rich socio-demographic information of both annotators and targets, uncovering how human biases manifest in relation to the target's attributes. Our analysis surfaces the presence of widespread biases, which we quantitatively describe and characterize based on their intensity and prevalence, revealing marked differences. Furthermore, we compare human biases with those exhibited by persona-based LLMs. Our findings indicate that while persona-based LLMs do exhibit biases, these differ significantly from those of human annotators. Overall, our work offers new and nuanced results on human biases in hate speech annotations, as well as fresh insights into the design of AI-driven hate speech detection systems.
- Abstract(参考訳): オンラインプラットフォームの台頭はヘイトスピーチの普及を加速させ、スケーラブルで効果的な検出を要求した。
しかし、ヘイトスピーチ検出システムの精度は、本質的にバイアスの影響を受けやすい人間のラベル付きデータに大きく依存している。
以前の研究でこの問題を調べたが、アノテータの特徴とヘイトの対象との相互作用はまだ解明されていない。
このギャップを埋めるために、アノテータとターゲットの両方の社会デコグラフィー情報を豊富なデータセットで活用し、ターゲットの属性に関連する人間のバイアスがどのように現れるかを明らかにする。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付けする広範なバイアスの存在が明らかとなった。
さらに,ヒトの偏見とペルソナをベースとしたLLMで示される偏見を比較検討した。
以上の結果から, ペルソナ系LPMは偏見を呈するが, ヒトのアノテータとは大きく異なることが示唆された。
全体として、私たちの研究はヘイトスピーチアノテーションにおける人間のバイアスに関する新しいニュアンスな結果を提供し、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
関連論文リスト
- A Target-Aware Analysis of Data Augmentation for Hate Speech Detection [3.858155067958448]
ヘイトスピーチは、ソーシャルネットワークの普及によって引き起こされる主要な脅威の1つだ。
本稿では,既存のデータを生成言語モデルで拡張し,ターゲットの不均衡を低減する可能性を検討する。
起源、宗教、障害などのヘイトカテゴリーでは、トレーニングのための強化データを用いたヘイトスピーチ分類は、拡張ベースラインが存在しない場合、10%以上のF1が向上する。
論文 参考訳(メタデータ) (2024-10-10T15:46:27Z) - Causal Micro-Narratives [62.47217054314046]
テキストから因果マイクロナラティブを分類する新しい手法を提案する。
これらの物語は、対象対象の因果関係と/または効果の文レベルの説明である。
論文 参考訳(メタデータ) (2024-10-07T17:55:10Z) - Spoken Stereoset: On Evaluating Social Bias Toward Speaker in Speech Large Language Models [50.40276881893513]
本研究では,音声大言語モデル(SLLM)における社会的バイアスの評価を目的としたデータセットであるSpken Stereosetを紹介する。
多様な人口集団の発話に対して異なるモデルがどのように反応するかを調べることで、これらのバイアスを特定することを目指している。
これらの結果から,ほとんどのモデルではバイアスが最小であるが,ステレオタイプや反ステレオタイプ傾向がわずかにみられた。
論文 参考訳(メタデータ) (2024-08-14T16:55:06Z) - HateDebias: On the Diversity and Variability of Hate Speech Debiasing [14.225997610785354]
我々はHateDebiasという名のベンチマークを提案し、連続的かつ変化する環境下でのヘイトスピーチ検出のモデル能力を分析する。
具体的には、バイアスの多様性を満たすために、さまざまな種類のバイアスを持つ既存のヘイトスピーチ検出データセットを収集します。
我々は,HateDebiasの性能を1種類のバイアスで学習したモデルの検出精度を評価する。
論文 参考訳(メタデータ) (2024-06-07T12:18:02Z) - Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering
Dehumanizing Language [11.946719280041789]
本稿では, GPT-4, GPT-3.5, LLAMA-2を含む最先端NLPモデルの性能評価を行った。
以上の結果から,これらのモデルが潜在的な可能性を示し,より広範なヘイトスピーチと非人間化言語を区別する精度が70%に達する一方で,バイアスも示していることがわかった。
論文 参考訳(メタデータ) (2024-02-21T13:57:36Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z) - Deep Learning for Hate Speech Detection: A Comparative Study [54.42226495344908]
ここでは, ディープ・ヘイト・音声検出法と浅いヘイト・音声検出法を大規模に比較した。
私たちの目標は、この地域の進歩を照らし、現在の最先端の強みと弱点を特定することです。
そこで我々は,ヘイトスピーチ検出の実践的利用に関するガイダンスの提供,最先端の定量化,今後の研究方向の特定を目的としている。
論文 参考訳(メタデータ) (2022-02-19T03:48:20Z) - Latent Hatred: A Benchmark for Understanding Implicit Hate Speech [22.420275418616242]
この研究は、暗黙のヘイトスピーチの理論的に正当化された分類法と、各メッセージにきめ細かいラベルを付けたベンチマークコーパスを導入している。
本稿では、同時代のベースラインを用いて、暗黙のヘイトスピーチを検出し、説明するためにデータセットを体系的に分析する。
論文 参考訳(メタデータ) (2021-09-11T16:52:56Z) - Statistical Analysis of Perspective Scores on Hate Speech Detection [7.447951461558536]
最先端のヘイトスピーチ分類器は、トレーニングデータと同じ特徴分布を持つデータ上でテストする場合のみ効率的である。
このような低レベルの特徴に依存する多様なデータ分布は、データの自然なバイアスによる欠如の主な原因である。
異なるヘイトスピーチデータセットは、パースペクティブスコアを抽出するという点では、非常によく似ている。
論文 参考訳(メタデータ) (2021-06-22T17:17:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。