論文の概要: From Self to Other: Evaluating Demographic Perspective-Taking in LLM Hate Speech Annotation
- arxiv url: http://arxiv.org/abs/2606.06266v1
- Date: Thu, 04 Jun 2026 15:09:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-05 22:39:44.887171
- Title: From Self to Other: Evaluating Demographic Perspective-Taking in LLM Hate Speech Annotation
- Title(参考訳): 自己から他へ:LLMヘイト音声アノテーションにおけるデモグラフィックパースペクティブ・テイキングの評価
- Authors: Paloma Piot, Javier Parapar,
- Abstract要約: パーソナ条件付き大規模言語モデル(特定の階層的アイデンティティーを採用するよう促されるモデル)は、スケールにおける様々な視点をシミュレートする方法として提案されている。
人間の社会的判断の3つの側面として, (i) 異なる集団のペルソナが人間的な方法(グループ間不一致)に異同するか否か, (ii) コンテンツが自身のアイデンティティ(グループ内での感受性)をターゲットとした場合に, より敏感になるかどうか, (iii) 他集団の反応を正確に予測できるかどうか (viarious prediction) を評価した。
以上の結果から, モデルが3次元全てを連続的に捉えることはなく, 性能はモデル依存であり, 確実に出現しないことが明らかとなった。
- 参考スコア(独自算出の注目度): 5.762370982168011
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Hate speech detection is inherently subjective: people from different demographic groups perceive the same content very differently. Collecting enough annotations from multiple demographic groups is costly and difficult to scale. Persona-conditioned Large Language Models (models prompted to adopt a specific demographic identity) have been proposed as a way to simulate diverse perspectives at scale. But do they actually reflect how different groups disagree? We evaluate three aspects of human social judgement: (i) whether personas from different groups disagree in human-like ways (inter-group disagreement), (ii) whether they become more sensitive when content targets their own identity (in-group sensitivity), and (iii) whether they can accurately predict how another group would react (vicarious prediction). Our results show that no model consistently captures all three dimensions, and performance is highly model-dependent and does not emerge reliably from minimal identity prompts alone. However, vicarious prompting with Llama 3.1 yields the highest cross-group agreement in most demographic axes and provides the closest overall approximation to human disagreement patterns, indicating that this configuration may provide a more reliable setting for automatic annotation aligned with human judgements.
- Abstract(参考訳): ヘイトスピーチの検出は本質的に主観的であり、異なる人口集団の人々は、同じコンテンツを非常に異なる形で知覚する。
複数のグループから十分なアノテーションを収集することは、コストがかかり、スケールが難しい。
人格条件付き大規模言語モデル(特定の階層的アイデンティティーを採用するよう促されたモデル)は、スケールにおける様々な視点をシミュレートする方法として提案されている。
しかし、どのように異なるグループが意見の相違を反映しているのか?
我々は、人間の社会的判断の3つの側面を評価する。
一 異なる集団の人格が人間的な方法で意見が一致しないか否か(グループ間意見の不一致)
(二)コンテンツが自身のアイデンティティ(グループ内での感受性)を狙うと、より敏感になるか否か、及び
三 他の集団がどう反応するかを正確に予測できるかどうか(活気ある予測)。
以上の結果から,モデルが3次元全てを連続的に捉えることはなく,性能はモデル依存的であり,最小限のアイデンティティプロンプトのみから確実に現れるものではないことが示唆された。
しかし、ラマ3.1による活気あるプロンプトは、ほとんどの人口統計学的軸で最も高いクロスグループ合意をもたらし、人間の不一致パターンに最も近い全体的な近似を与え、この構成が人間の判断に沿った自動アノテーションのためのより信頼性の高い設定を提供する可能性があることを示唆している。
関連論文リスト
- Stable Behavior, Limited Variation: Persona Validity in LLM Agents for Urban Sentiment Perception [4.732324753420076]
我々は、ジェンダー、経済的地位、政治的指向、性格にまたがる要因的なペルソナを用いて、都市景観画像の評価を行う。
その結果、ペルソナを共有するエージェント間で強い収束を示し、安定かつ再現可能な行動を示す。
エージェントはまた、人間のアノテーションに共通する中間的な感情カテゴリーを崩壊させる極度のバイアスを示す。
論文 参考訳(メタデータ) (2026-04-30T15:59:11Z) - Persona Prompting as a Lens on LLM Social Reasoning [5.001433675691563]
ヘイトスピーチ検出のような社会的に敏感なタスクでは、LLM(Large Language Models)による説明の質が不可欠である。
パーソナプロンプト(PP)は、ユーザ固有の生成に向けてモデルを操る手段として、ますます用いられるようになっているが、モデル理性に対する効果はいまだに未解明である。
論文 参考訳(メタデータ) (2026-01-28T16:41:17Z) - Measuring Social Bias in Vision-Language Models with Face-Only Counterfactuals from Real Photos [79.03150233804458]
現実のイメージは人種と性別を混在させ、背景や衣服などの関連要因や属性を隠蔽する。
テキストのみの対実的評価パラダイムを提案する。
我々は、人種や性別に関連する顔属性のみを編集し、他の視覚的要素を全て固定することで、反事実的変異を生成する。
論文 参考訳(メタデータ) (2026-01-11T14:35:06Z) - Us-vs-Them bias in Large Language Models [0.569978892646475]
基礎的大言語モデル間で、一貫した内集団陽性および外集団陰性な関連を見いだす。
調査対象者は,保守的ペルソナは対人関係が強く,リベラルなペルソナは対人関係が強かった。
論文 参考訳(メタデータ) (2025-12-03T07:11:22Z) - Revisiting LLM Value Probing Strategies: Are They Robust and Expressive? [81.49470136653665]
広範に利用されている3つの探索戦略における値表現の頑健さと表現性を評価する。
人口統計学的文脈は自由テキスト生成にはほとんど影響を与えず、モデルの値は値に基づく行動の好みと弱い相関しか示さない。
論文 参考訳(メタデータ) (2025-07-17T18:56:41Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Social Bias Probing: Fairness Benchmarking for Language Models [38.180696489079985]
本稿では,社会的偏見を考慮した言語モデル構築のための新しい枠組みを提案する。
既存のフェアネスコレクションの制限に対処するために設計された大規模なベンチマークであるSoFaをキュレートする。
我々は、言語モデル内のバイアスが認識されるよりもニュアンスが高いことを示し、これまで認識されていたよりもより広く符号化されたバイアスの範囲を示している。
論文 参考訳(メタデータ) (2023-11-15T16:35:59Z) - Fair Abstractive Summarization of Diverse Perspectives [103.08300574459783]
公平な要約は、特定のグループを過小評価することなく、多様な視点を包括的にカバーしなければなりません。
はじめに、抽象的な要約における公正性は、いかなる集団の視点にも過小評価されないものとして、正式に定義する。
本研究では,対象視点と対象視点の差を測定することで,基準のない4つの自動計測手法を提案する。
論文 参考訳(メタデータ) (2023-11-14T03:38:55Z) - On the steerability of large language models toward data-driven personas [98.9138902560793]
大規模言語モデル(LLM)は、特定のグループや集団の意見が不足している偏りのある応答を生成することが知られている。
本稿では, LLM を用いて特定の視点の制御可能な生成を実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2023-11-08T19:01:13Z) - When the Majority is Wrong: Modeling Annotator Disagreement for Subjective Tasks [45.14664901245331]
ヘイトスピーチの検出における重要な問題は、ある声明が人口集団に対して攻撃的であるかどうかを決定することである。
我々は、潜在的に攻撃的なテキストに基づいて、個々のアノテータ評価を予測するモデルを構築した。
その結果、アノテータの評価は、その人口統計情報とオンラインコンテンツに関する意見を用いて予測できることがわかった。
論文 参考訳(メタデータ) (2023-05-11T07:55:20Z) - Mitigating Face Recognition Bias via Group Adaptive Classifier [53.15616844833305]
この研究は、全てのグループの顔がより平等に表現できる公正な顔表現を学ぶことを目的としている。
我々の研究は、競争精度を維持しながら、人口集団間での顔認識バイアスを軽減することができる。
論文 参考訳(メタデータ) (2020-06-13T06:43:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。