論文の概要: Hateful Person or Hateful Model? Investigating the Role of Personas in Hate Speech Detection by Large Language Models
- arxiv url: http://arxiv.org/abs/2506.08593v1
- Date: Tue, 10 Jun 2025 09:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-11 15:11:42.066103
- Title: Hateful Person or Hateful Model? Investigating the Role of Personas in Hate Speech Detection by Large Language Models
- Title(参考訳): 憎しみのある人か憎しみのある人か : 大規模言語モデルによるヘイトスピーチ検出におけるペルソナの役割を探る
- Authors: Shuzhou Yuan, Ercong Nie, Mario Tawfelis, Helmut Schmid, Hinrich Schütze, Michael Färber,
- Abstract要約: 本稿では,ヘイトスピーチ分類におけるペルソナプロンプトの役割に関する総合的研究について紹介する。
人間による注釈調査では、MBTIの寸法がラベル付け行動に大きく影響していることが確認されている。
分析の結果,人間関係の相違,対人関係の相違,対人関係の偏り,対人関係の偏りなどが明らかとなった。
- 参考スコア(独自算出の注目度): 47.110656690979695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Hate speech detection is a socially sensitive and inherently subjective task, with judgments often varying based on personal traits. While prior work has examined how socio-demographic factors influence annotation, the impact of personality traits on Large Language Models (LLMs) remains largely unexplored. In this paper, we present the first comprehensive study on the role of persona prompts in hate speech classification, focusing on MBTI-based traits. A human annotation survey confirms that MBTI dimensions significantly affect labeling behavior. Extending this to LLMs, we prompt four open-source models with MBTI personas and evaluate their outputs across three hate speech datasets. Our analysis uncovers substantial persona-driven variation, including inconsistencies with ground truth, inter-persona disagreement, and logit-level biases. These findings highlight the need to carefully define persona prompts in LLM-based annotation workflows, with implications for fairness and alignment with human values.
- Abstract(参考訳): ヘイトスピーチ検出は社会的に敏感で、本質的に主観的な課題であり、個人的特性に基づいて判断が変わることが多い。
従来の研究は、社会デマトグラフィー要因がアノテーションにどのように影響するかを検証してきたが、人格特性がLarge Language Models(LLMs)に与える影響は未解明のままである。
本稿では,MBTIに基づく特徴に着目したヘイトスピーチ分類におけるペルソナプロンプトの役割について,包括的研究を行った。
人間による注釈調査では、MBTIの寸法がラベル付け行動に大きく影響していることが確認されている。
これをLLMに拡張し,MBTIペルソナを用いた4つのオープンソースモデルを提案し,その出力を3つのヘイトスピーチデータセットで評価する。
分析の結果,人間関係の相違,対人関係の相違,対人関係の偏り,対人関係の偏見など,人格関係のかなりの変動が明らかになった。
これらの知見は、LLMベースのアノテーションワークフローにおいてペルソナプロンプトを慎重に定義することの必要性を強調し、公平さと人間の価値との整合性を示唆している。
関連論文リスト
- Personalisation or Prejudice? Addressing Geographic Bias in Hate Speech Detection using Debias Tuning in Large Language Models [2.1656586298989793]
LLM(Commercial Large Language Models)は最近、パーソナライズされた応答を提供するためにメモリ機能を組み込んだ。
本稿では,異なる個人化シナリオにおいて,その振る舞いを理解するために,最先端のLCMについて検討する。
我々は、各モデルに対して、国固有のペルソナを仮定し、ヘイトスピーチ検出に異なる言語を使用するよう促す。
以上の結果から, 文脈のパーソナライゼーションがLSMの反応に大きく影響していることが判明した。
論文 参考訳(メタデータ) (2025-05-04T21:22:20Z) - Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets [0.6918368994425961]
我々は、アノテータとターゲットの両方の社会デマトグラフィー情報を豊富なデータセットで活用する。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付ける広範囲なバイアスの存在が明らかになった。
私たちの研究は、ヘイトスピーチアノテーションにおける人間のバイアスに関する新しい、そして、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T14:48:57Z) - Secret Keepers: The Impact of LLMs on Linguistic Markers of Personal Traits [6.886654996060662]
本研究では,Large Language Models (LLMs) が,人口動態や心理的特徴の言語マーカーに与える影響について検討する。
筆者らの個人的特徴に対する言語パターンの予測能力は, LLMの使用によってわずかに低下するが, 顕著な変化は稀である。
論文 参考訳(メタデータ) (2024-03-30T06:49:17Z) - LLMvsSmall Model? Large Language Model Based Text Augmentation Enhanced
Personality Detection Model [58.887561071010985]
パーソナリティ検出は、ソーシャルメディア投稿に根ざした性格特性を検出することを目的としている。
既存のほとんどのメソッドは、事前訓練された言語モデルを微調整することで、ポスト機能を直接学習する。
本稿では,大規模言語モデル (LLM) に基づくテキスト拡張強化人格検出モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T12:10:18Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Editing Personality for Large Language Models [73.59001811199823]
本稿では,Large Language Models (LLMs) の性格特性の編集に焦点をあてた革新的なタスクを紹介する。
このタスクに対処する新しいベンチマークデータセットであるPersonalityEditを構築します。
論文 参考訳(メタデータ) (2023-10-03T16:02:36Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z) - PersonaLLM: Investigating the Ability of Large Language Models to Express Personality Traits [30.770525830385637]
本研究では,ビッグファイブ・パーソナリティ・モデルに基づく大規模言語モデル(LLM)の行動について検討する。
その結果, LLMペルソナの自己申告したBFIスコアは, 指定した性格タイプと一致していることがわかった。
人間の評価は、人間は最大80%の精度でいくつかの性格特性を知覚できることを示している。
論文 参考訳(メタデータ) (2023-05-04T04:58:00Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。