論文の概要: Hateful Person or Hateful Model? Investigating the Role of Personas in Hate Speech Detection by Large Language Models
- arxiv url: http://arxiv.org/abs/2506.08593v1
- Date: Tue, 10 Jun 2025 09:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.066103
- Title: Hateful Person or Hateful Model? Investigating the Role of Personas in Hate Speech Detection by Large Language Models
- Title(参考訳): 憎しみのある人か憎しみのある人か : 大規模言語モデルによるヘイトスピーチ検出におけるペルソナの役割を探る
- Authors: Shuzhou Yuan, Ercong Nie, Mario Tawfelis, Helmut Schmid, Hinrich Schütze, Michael Färber,
- Abstract要約: 本稿では,ヘイトスピーチ分類におけるペルソナプロンプトの役割に関する総合的研究について紹介する。
人間による注釈調査では、MBTIの寸法がラベル付け行動に大きく影響していることが確認されている。
分析の結果,人間関係の相違,対人関係の相違,対人関係の偏り,対人関係の偏りなどが明らかとなった。
- 参考スコア(独自算出の注目度): 47.110656690979695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection is a socially sensitive and inherently subjective task, with judgments often varying based on personal traits. While prior work has examined how socio-demographic factors influence annotation, the impact of personality traits on Large Language Models (LLMs) remains largely unexplored. In this paper, we present the first comprehensive study on the role of persona prompts in hate speech classification, focusing on MBTI-based traits. A human annotation survey confirms that MBTI dimensions significantly affect labeling behavior. Extending this to LLMs, we prompt four open-source models with MBTI personas and evaluate their outputs across three hate speech datasets. Our analysis uncovers substantial persona-driven variation, including inconsistencies with ground truth, inter-persona disagreement, and logit-level biases. These findings highlight the need to carefully define persona prompts in LLM-based annotation workflows, with implications for fairness and alignment with human values.
- Abstract(参考訳): ヘイトスピーチ検出は社会的に敏感で、本質的に主観的な課題であり、個人的特性に基づいて判断が変わることが多い。
従来の研究は、社会デマトグラフィー要因がアノテーションにどのように影響するかを検証してきたが、人格特性がLarge Language Models(LLMs)に与える影響は未解明のままである。
本稿では,MBTIに基づく特徴に着目したヘイトスピーチ分類におけるペルソナプロンプトの役割について,包括的研究を行った。
人間による注釈調査では、MBTIの寸法がラベル付け行動に大きく影響していることが確認されている。
これをLLMに拡張し,MBTIペルソナを用いた4つのオープンソースモデルを提案し,その出力を3つのヘイトスピーチデータセットで評価する。
分析の結果,人間関係の相違,対人関係の相違,対人関係の偏り,対人関係の偏見など,人格関係のかなりの変動が明らかになった。
これらの知見は、LLMベースのアノテーションワークフローにおいてペルソナプロンプトを慎重に定義することの必要性を強調し、公平さと人間の価値との整合性を示唆している。
関連論文リスト
- Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets [0.6918368994425961]
我々は、アノテータとターゲットの両方の社会デマトグラフィー情報を豊富なデータセットで活用する。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付ける広範囲なバイアスの存在が明らかになった。
私たちの研究は、ヘイトスピーチアノテーションにおける人間のバイアスに関する新しい、そして、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T14:48:57Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。