論文の概要: Algorithmic Fairness in NLP: Persona-Infused LLMs for Human-Centric Hate Speech Detection
- arxiv url: http://arxiv.org/abs/2510.19331v1
- Date: Wed, 22 Oct 2025 07:48:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:15.327247
- Title: Algorithmic Fairness in NLP: Persona-Infused LLMs for Human-Centric Hate Speech Detection
- Title(参考訳): NLPにおけるアルゴリズムフェアネス:人間中心のHate音声検出のためのペルソナ注入LDM
- Authors: Ewelina Gajewska, Arda Derbent, Jaroslaw A Chudziak, Katarzyna Budzynska,
- Abstract要約: 本研究では,多言語モデル(Persona-LLM)とアノテータペルソナのパーソナライズが,ヘイトスピーチに対する感受性にどのように影響するかを検討する。
我々は,Google の Gemini と OpenAI の GPT-4.1-mini モデルと 2 つのペルソナプロンプト手法を採用している。
社会デマトグラフィーの属性をLLMに組み込むことで、ヘイトスピーチの自動検出におけるバイアスに対処できることを示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate how personalising Large Language Models (Persona-LLMs) with annotator personas affects their sensitivity to hate speech, particularly regarding biases linked to shared or differing identities between annotators and targets. To this end, we employ Google's Gemini and OpenAI's GPT-4.1-mini models and two persona-prompting methods: shallow persona prompting and a deeply contextualised persona development based on Retrieval-Augmented Generation (RAG) to incorporate richer persona profiles. We analyse the impact of using in-group and out-group annotator personas on the models' detection performance and fairness across diverse social groups. This work bridges psychological insights on group identity with advanced NLP techniques, demonstrating that incorporating socio-demographic attributes into LLMs can address bias in automated hate speech detection. Our results highlight both the potential and limitations of persona-based approaches in reducing bias, offering valuable insights for developing more equitable hate speech detection systems.
- Abstract(参考訳): 本稿では,多言語モデル (Persona-LLMs) とアノテータ・ペルソナ・LLMs) のパーソナライズがヘイトスピーチに対する感受性にどのように影響するかを検討する。
この目的のために、我々はGoogleのGeminiとOpenAIのGPT-4.1-miniモデルと2つのペルソナプロンプト手法、すなわち浅いペルソナプロンプトと、よりリッチなペルソナプロファイルを組み込むためにRetrieval-Augmented Generation (RAG)に基づく深く文脈化されたペルソナ開発を採用する。
グループ内およびグループ外アノテータ・ペルソナの使用が、様々な社会集団におけるモデルの検出性能と公正性に与える影響を分析した。
この研究は、グループアイデンティティに関する心理学的洞察を高度なNLP技術で橋渡しし、社会デコグラフィー属性をLLMに組み込むことで、自動ヘイトスピーチ検出におけるバイアスに対処できることを示した。
以上の結果から,より公平なヘイトスピーチ検出システムを開発する上で,ペルソナに基づくバイアス低減手法の可能性と限界の両方を強調した。
関連論文リスト
- Interpretable Debiasing of Vision-Language Models for Social Fairness [55.85977929985967]
本稿では,視覚・言語モデルに社会的属性ニューロンを局在させる,解釈可能なモデルに依存しないバイアス緩和フレームワークDeBiasLensを紹介する。
社会属性ラベルを含まない顔画像やキャプションデータセットでSAEを訓練し、特定の人口動態に高い応答性を持つニューロンを明らかにする。
我々の研究は、未来の監査ツールの基礎を築き、新興の現実世界のAIシステムにおける社会的公正性を優先します。
論文 参考訳(メタデータ) (2026-02-27T13:37:11Z) - Us-vs-Them bias in Large Language Models [0.569978892646475]
基礎的大言語モデル間で、一貫した内集団陽性および外集団陰性な関連を見いだす。
調査対象者は,保守的ペルソナは対人関係が強く,リベラルなペルソナは対人関係が強かった。
論文 参考訳(メタデータ) (2025-12-03T07:11:22Z) - Hateful Person or Hateful Model? Investigating the Role of Personas in Hate Speech Detection by Large Language Models [47.110656690979695]
本稿では,ヘイトスピーチ分類におけるペルソナプロンプトの役割に関する総合的研究について紹介する。
人間による注釈調査では、MBTIの寸法がラベル付け行動に大きく影響していることが確認されている。
分析の結果,人間関係の相違,対人関係の相違,対人関係の偏り,対人関係の偏りなどが明らかとなった。
論文 参考訳(メタデータ) (2025-06-10T09:02:55Z) - Assessing the Human Likeness of AI-Generated Counterspeech [10.434435022492723]
本稿では,AI生成音声の人間的類似性について検討する。
LLMベースの生成戦略の実装と評価を行う。
言語的特徴、丁寧さ、特異性の違いを明らかにする。
論文 参考訳(メタデータ) (2024-10-14T18:48:47Z) - Human and LLM Biases in Hate Speech Annotations: A Socio-Demographic Analysis of Annotators and Targets [0.6918368994425961]
我々は、アノテータとターゲットの両方の社会デマトグラフィー情報を豊富なデータセットで活用する。
分析の結果,その強度と有病率に基づいて定量的に記述し,特徴付ける広範囲なバイアスの存在が明らかになった。
私たちの研究は、ヘイトスピーチアノテーションにおける人間のバイアスに関する新しい、そして、AI駆動のヘイトスピーチ検出システムの設計に関する新たな洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T14:48:57Z) - Beyond Hate Speech: NLP's Challenges and Opportunities in Uncovering Dehumanizing Language [9.06965602117689]
非人間化(De Humanization)、すなわち個人や集団に人的品質を否定することは、特に有害なヘイトスピーチである。
一般ヘイトスピーチの検出におけるNLPの進歩にもかかわらず、非人間化言語を特定するアプローチは限定的である。
我々は,非人間化検出のための4つの言語モデル(LLM)を体系的に評価した。
論文 参考訳(メタデータ) (2024-02-21T13:57:36Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - PsyCoT: Psychological Questionnaire as Powerful Chain-of-Thought for
Personality Detection [50.66968526809069]
PsyCoTと呼ばれる新しい人格検出手法を提案する。これは、個人がマルチターン対話方式で心理的質問を完遂する方法を模倣するものである。
実験の結果,PsyCoTは人格検出におけるGPT-3.5の性能とロバスト性を大幅に向上させることがわかった。
論文 参考訳(メタデータ) (2023-10-31T08:23:33Z) - Are Personalized Stochastic Parrots More Dangerous? Evaluating Persona
Biases in Dialogue Systems [103.416202777731]
我々は、対話モデルが採用するペルソナに付随する有害な行動の感度であると定義する「ペルソナバイアス」について検討する。
我々は,人格バイアスを有害な表現と有害な合意のバイアスに分類し,攻撃性,有害継続性,関連性,ステレオタイプ合意,および有害合意の5つの側面において,人格バイアスを測定する包括的な評価枠組みを確立する。
論文 参考訳(メタデータ) (2023-10-08T21:03:18Z) - Revealing Persona Biases in Dialogue Systems [64.96908171646808]
対話システムにおけるペルソナバイアスに関する最初の大規模研究について述べる。
我々は、異なる社会階級、性的指向、人種、性別のペルソナの分析を行う。
BlenderおよびDialoGPT対話システムの研究では、ペルソナの選択が生成された応答の害の程度に影響を与える可能性があることを示しています。
論文 参考訳(メタデータ) (2021-04-18T05:44:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。