論文の概要: Simulating Identity, Propagating Bias: Abstraction and Stereotypes in LLM-Generated Text
- arxiv url: http://arxiv.org/abs/2509.08484v1
- Date: Wed, 10 Sep 2025 10:49:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-11 15:16:52.394134
- Title: Simulating Identity, Propagating Bias: Abstraction and Stereotypes in LLM-Generated Text
- Title(参考訳): LLMテキストにおけるアイデンティティのシミュレート, バイアスの伝播:抽象とステレオタイプ
- Authors: Pia Sommerauer, Giulia Rambelli, Tommaso Caselli,
- Abstract要約: ソシオデミノグラフィーのカテゴリーとステレオタイプ的・非ステレオタイプ的属性をリンクする短いテキストを生成する際に,ペルソナ・プロンプトが言語的抽象化のレベルを異にするかどうかを検討する。
本研究は, ソシオデミノグラフィーグループを代表するペルソナの生態に対する批判と, ステレオタイプの普及リスクへの懸念を提起するものである。
- 参考スコア(独自算出の注目度): 8.988787218035414
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Persona-prompting is a growing strategy to steer LLMs toward simulating particular perspectives or linguistic styles through the lens of a specified identity. While this method is often used to personalize outputs, its impact on how LLMs represent social groups remains underexplored. In this paper, we investigate whether persona-prompting leads to different levels of linguistic abstraction - an established marker of stereotyping - when generating short texts linking socio-demographic categories with stereotypical or non-stereotypical attributes. Drawing on the Linguistic Expectancy Bias framework, we analyze outputs from six open-weight LLMs under three prompting conditions, comparing 11 persona-driven responses to those of a generic AI assistant. To support this analysis, we introduce Self-Stereo, a new dataset of self-reported stereotypes from Reddit. We measure abstraction through three metrics: concreteness, specificity, and negation. Our results highlight the limits of persona-prompting in modulating abstraction in language, confirming criticisms about the ecology of personas as representative of socio-demographic groups and raising concerns about the risk of propagating stereotypes even when seemingly evoking the voice of a marginalized group.
- Abstract(参考訳): ペルソナ・プロンプティング(Persona-prompting)は、特定のアイデンティティのレンズを通して特定の視点や言語スタイルをシミュレートするためのLSMを操る戦略である。
この手法はアウトプットのパーソナライズによく用いられるが、LLMが社会集団をどう表現するかに対する影響は未解明のままである。
本稿では,ペルソナ・プロンプトが,ステレオタイプ的・非ステレオタイプ的属性と社会デミノグラフィ的カテゴリをリンクする短いテキストを生成する際に,言語的抽象化のレベル(ステレオタイピングの確立されたマーカー)が異なるかを検討する。
言語予測バイアス(Linguistic expectancy Bias)フレームワークをベースとした,6つのオープンウェイトLDMからのアウトプットを3つの刺激条件下で解析し,汎用AIアシスタントと11人のペルソナ駆動応答を比較した。
この分析をサポートするために、Redditから自己報告されたステレオタイプのデータセットであるSelf-Stereoを紹介した。
具体性、特異性、否定の3つの指標を通して抽象度を測定します。
本研究は, 言語における抽象の調節におけるペルソナ・プロンプトの限界, ソシオデミノグラフィー・グループの代表としてのペルソナの生態に対する批判, 疎外されたグループの声を誘発しているように見える場合でも, ステレオタイプを伝播するリスクについて懸念を提起するものである。
関連論文リスト
- The Prompt Makes the Person(a): A Systematic Evaluation of Sociodemographic Persona Prompting for Large Language Models [3.2919397230854983]
我々は、異なるペルソナがいかに大きな言語モデルに影響を及ぼすかを示す。
以上の結果から, LLMは非二項性, ヒスパニック性, 中東性などの辺縁化集団のシミュレートに苦慮していることが明らかとなった。
具体的には、インタビュースタイルのフォーマットと名前ベースのプライミングのプロンプトは、ステレオタイピングを減らし、アライメントを改善するのに役立ちます。
論文 参考訳(メタデータ) (2025-07-21T21:23:29Z) - Reading Between the Prompts: How Stereotypes Shape LLM's Implicit Personalization [6.781972039785424]
LLM(Generative Large Language Models)は、会話における微妙な手がかりからユーザの人口統計情報を推測する。
この結果から,LLMのユーザアイデンティティの表現方法に対する透明性の向上とコントロールの必要性が浮き彫りになった。
論文 参考訳(メタデータ) (2025-05-22T09:48:51Z) - Beyond Profile: From Surface-Level Facts to Deep Persona Simulation in LLMs [50.0874045899661]
本稿では,文字のテキストワークに現れる言語パターンと独特の思考パターンの両方を再現するモデルである characterBot を紹介する。
著名な中国の作家ル・ジュンをケーススタディとして、17冊のエッセイ集から派生した4つの訓練課題を提案する。
これには、外部の言語構造と知識を習得することに焦点を当てた事前訓練タスクと、3つの微調整タスクが含まれる。
言語的正確性と意見理解の3つのタスクにおいて、キャラクタボットを評価し、適応されたメトリクスのベースラインを著しく上回ることを示す。
論文 参考訳(メタデータ) (2025-02-18T16:11:54Z) - Large Language Models Reflect the Ideology of their Creators [71.65505524599888]
大規模言語モデル(LLM)は、自然言語を生成するために大量のデータに基づいて訓練される。
本稿では, LLMのイデオロギー的姿勢が創造者の世界観を反映していることを示す。
論文 参考訳(メタデータ) (2024-10-24T04:02:30Z) - Hate Personified: Investigating the role of LLMs in content moderation [64.26243779985393]
ヘイト検出などの主観的タスクでは,人々が嫌悪感を知覚する場合には,多様なグループを表現できるLarge Language Model(LLM)の能力は不明確である。
追加の文脈をプロンプトに含めることで、LLMの地理的プライミングに対する感受性、ペルソナ属性、数値情報を分析し、様々なグループのニーズがどの程度反映されているかを評価する。
論文 参考訳(メタデータ) (2024-10-03T16:43:17Z) - Inclusivity in Large Language Models: Personality Traits and Gender Bias in Scientific Abstracts [49.97673761305336]
我々は,3つの大きな言語モデル (LLM) を,人間の物語スタイルと潜在的な性別バイアスに適合させることで評価した。
以上の結果から,これらのモデルは一般的にヒトの投稿内容によく似たテキストを生成するが,スタイル的特徴の変化は有意な性差を示すことが示唆された。
論文 参考訳(メタデータ) (2024-06-27T19:26:11Z) - White Men Lead, Black Women Help? Benchmarking and Mitigating Language Agency Social Biases in LLMs [58.27353205269664]
社会的バイアスは、Large Language Model(LLM)生成コンテンツにおいて言語エージェンシーに現れる。
LLMのバイアスを包括的に評価するLanguage Agency Bias Evaluationベンチマークを導入する。
LABEを用いて,近年の3つのLLM(ChatGPT,Llama3,Mistral)における言語エージェントの社会的バイアスを明らかにした。
論文 参考訳(メタデータ) (2024-04-16T12:27:54Z) - Sociodemographic Prompting is Not Yet an Effective Approach for Simulating Subjective Judgments with LLMs [13.744746481528711]
大規模言語モデル(LLM)は、様々な文脈で人間の反応をシミュレートするために広く使われている。
我々は,2つの主観的判断課題(丁寧さと攻撃性)において,人口差を理解する能力について,9つの人気のLCMを評価した。
ゼロショット設定では、両方のタスクのほとんどのモデルの予測は、アジアやブラックの参加者よりもホワイトの参加者のラベルとより密接に一致している。
論文 参考訳(メタデータ) (2023-11-16T10:02:24Z) - Queer People are People First: Deconstructing Sexual Identity
Stereotypes in Large Language Models [3.974379576408554]
大規模言語モデル(LLM)は、主に最小処理のWebテキストに基づいて訓練される。
LLMはLGBTQIA+コミュニティのような、疎外されたグループに対して必然的にステレオタイプを永続させることができる。
論文 参考訳(メタデータ) (2023-06-30T19:39:01Z) - Marked Personas: Using Natural Language Prompts to Measure Stereotypes
in Language Models [33.157279170602784]
大規模言語モデル(LLM)におけるステレオタイプを測定するプロンプトベースの手法であるMarked Personasを提案する。
GPT-3.5 と GPT-4 が生成する描写は、同じプロンプトを用いた人間による描写よりも、人種的ステレオタイプの割合が高いことが判明した。
交叉レンズは、トロピズムやマイノリティ化された女性のセクシュアル化など、疎遠化されたグループの描写を支配しているトロープを露呈する。
論文 参考訳(メタデータ) (2023-05-29T16:29:22Z) - Simple Linguistic Inferences of Large Language Models (LLMs): Blind Spots and Blinds [59.71218039095155]
我々は,ほとんどの人間が自明に感じる単純な推論タスクにおいて,言語理解能力を評価する。
我々は, (i) 文法的に特定された含意, (ii) 不確実性のある明らかな副詞を持つ前提, (iii) 単調性含意を目標とする。
モデルはこれらの評価セットに対して中程度から低い性能を示す。
論文 参考訳(メタデータ) (2023-05-24T06:41:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。