論文の概要: Algorithmic Fairness in NLP: Persona-Infused LLMs for Human-Centric Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2510.19331v1
- Date: Wed, 22 Oct 2025 07:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.327247
- Title: Algorithmic Fairness in NLP: Persona-Infused LLMs for Human-Centric Hate Speech Detection
- Title(参考訳): NLPにおけるアルゴリズムフェアネス:人間中心のHate音声検出のためのペルソナ注入LDM
- Authors: Ewelina Gajewska, Arda Derbent, Jaroslaw A Chudziak, Katarzyna Budzynska,
- Abstract要約: 本研究では,多言語モデル(Persona-LLM)とアノテータペルソナのパーソナライズが,ヘイトスピーチに対する感受性にどのように影響するかを検討する。
我々は,Google の Gemini と OpenAI の GPT-4.1-mini モデルと 2 つのペルソナプロンプト手法を採用している。
社会デマトグラフィーの属性をLLMに組み込むことで、ヘイトスピーチの自動検出におけるバイアスに対処できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate how personalising Large Language Models (Persona-LLMs) with annotator personas affects their sensitivity to hate speech, particularly regarding biases linked to shared or differing identities between annotators and targets. To this end, we employ Google's Gemini and OpenAI's GPT-4.1-mini models and two persona-prompting methods: shallow persona prompting and a deeply contextualised persona development based on Retrieval-Augmented Generation (RAG) to incorporate richer persona profiles. We analyse the impact of using in-group and out-group annotator personas on the models' detection performance and fairness across diverse social groups. This work bridges psychological insights on group identity with advanced NLP techniques, demonstrating that incorporating socio-demographic attributes into LLMs can address bias in automated hate speech detection. Our results highlight both the potential and limitations of persona-based approaches in reducing bias, offering valuable insights for developing more equitable hate speech detection systems.
- Abstract(参考訳): 本稿では,多言語モデル (Persona-LLMs) とアノテータ・ペルソナ・LLMs) のパーソナライズがヘイトスピーチに対する感受性にどのように影響するかを検討する。
この目的のために、我々はGoogleのGeminiとOpenAIのGPT-4.1-miniモデルと2つのペルソナプロンプト手法、すなわち浅いペルソナプロンプトと、よりリッチなペルソナプロファイルを組み込むためにRetrieval-Augmented Generation (RAG)に基づく深く文脈化されたペルソナ開発を採用する。
グループ内およびグループ外アノテータ・ペルソナの使用が、様々な社会集団におけるモデルの検出性能と公正性に与える影響を分析した。
この研究は、グループアイデンティティに関する心理学的洞察を高度なNLP技術で橋渡しし、社会デコグラフィー属性をLLMに組み込むことで、自動ヘイトスピーチ検出におけるバイアスに対処できることを示した。
以上の結果から,より公平なヘイトスピーチ検出システムを開発する上で,ペルソナに基づくバイアス低減手法の可能性と限界の両方を強調した。
関連論文リスト
- Hateful Person or Hateful Model? Investigating the Role of Personas in Hate Speech Detection by Large Language Models [47.110656690979695]
本稿では,ヘイトスピーチ分類におけるペルソナプロンプトの役割に関する総合的研究について紹介する。
人間による注釈調査では、MBTIの寸法がラベル付け行動に大きく影響していることが確認されている。
分析の結果,人間関係の相違,対人関係の相違,対人関係の偏り,対人関係の偏りなどが明らかとなった。
論文 参考訳(メタデータ) (2025-06-10T09:02:55Z) - Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets [0.6918368994425961]
我々は、アノテータとターゲットの両方の社会デマトグラフィー情報を豊富なデータセットで活用する。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付ける広範囲なバイアスの存在が明らかになった。
私たちの研究は、ヘイトスピーチアノテーションにおける人間のバイアスに関する新しい、そして、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T14:48:57Z) - Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-08T21:03:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。