論文の概要: Persona Prompting as a Lens on LLM Social Reasoning
- arxiv url: http://arxiv.org/abs/2601.20757v1
- Date: Wed, 28 Jan 2026 16:41:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:07.02311
- Title: Persona Prompting as a Lens on LLM Social Reasoning
- Title(参考訳): LLMソーシャル推論におけるレンズとしてのペルソナプロンプト
- Authors: Jing Yang, Moritz Hechtbauer, Elisabeth Khalilov, Evelyn Luise Brinkmann, Vera Schmitt, Nils Feldhus,
- Abstract要約: ヘイトスピーチ検出のような社会的に敏感なタスクでは、LLM(Large Language Models)による説明の質が不可欠である。
パーソナプロンプト(PP)は、ユーザ固有の生成に向けてモデルを操る手段として、ますます用いられるようになっているが、モデル理性に対する効果はいまだに未解明である。
- 参考スコア(独自算出の注目度): 5.001433675691563
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For socially sensitive tasks like hate speech detection, the quality of explanations from Large Language Models (LLMs) is crucial for factors like user trust and model alignment. While Persona prompting (PP) is increasingly used as a way to steer model towards user-specific generation, its effect on model rationales remains underexplored. We investigate how LLM-generated rationales vary when conditioned on different simulated demographic personas. Using datasets annotated with word-level rationales, we measure agreement with human annotations from different demographic groups, and assess the impact of PP on model bias and human alignment. Our evaluation across three LLMs results reveals three key findings: (1) PP improving classification on the most subjective task (hate speech) but degrading rationale quality. (2) Simulated personas fail to align with their real-world demographic counterparts, and high inter-persona agreement shows models are resistant to significant steering. (3) Models exhibit consistent demographic biases and a strong tendency to over-flag content as harmful, regardless of PP. Our findings reveal a critical trade-off: while PP can improve classification in socially-sensitive tasks, it often comes at the cost of rationale quality and fails to mitigate underlying biases, urging caution in its application.
- Abstract(参考訳): ヘイトスピーチ検出のような社会的に敏感なタスクでは、ユーザ信頼やモデルアライメントといった要因に対して、LLM(Large Language Models)による説明の質が不可欠である。
パーソナプロンプト(PP)は、ユーザ固有の生成に向けてモデルを操る手段として、ますます用いられるようになっているが、モデル理性に対する効果はいまだに未解明である。
人口動態の異なる人格を条件に, LLM生成の合理性がどう変化するかを検討する。
単語レベルの有理量でアノテートされたデータセットを用いて、異なる人口集団の人的アノテーションとの一致を測定し、PPがモデルバイアスや人的アライメントに与える影響を評価する。
1)主観的タスク(ヘイトスピーチ)の分類を改善しつつ,合理的な品質を低下させる。
2)シミュレートされたペルソナは実世界の人口動態と一致せず,高いパーソナ合意は,モデルが大きなステアリングに抵抗していることを示している。
3) モデルでは, PPにかかわらず, 人口統計バイアスが一貫した傾向を示し, オーバーフラッグ内容が有害である傾向が強い。
PPは社会的に敏感なタスクの分類を改善することができるが、しばしば合理的な品質を犠牲にし、根底にあるバイアスを軽減するのに失敗し、その適用に注意を喚起する。
関連論文リスト
- Us-vs-Them bias in Large Language Models [0.569978892646475]
基礎的大言語モデル間で、一貫した内集団陽性および外集団陰性な関連を見いだす。
調査対象者は,保守的ペルソナは対人関係が強く,リベラルなペルソナは対人関係が強かった。
論文 参考訳(メタデータ) (2025-12-03T07:11:22Z) - Self-Rationalization in the Wild: A Large Scale Out-of-Distribution Evaluation on NLI-related tasks [59.47851630504264]
自由文の説明は表現力があり理解しやすいが、多くのデータセットには注釈付き説明データがない。
我々は、T5-LargeモデルとOLMo-7Bモデルを微調整し、微調整データ品質、微調整サンプル数、少数ショット選択方法の影響を評価した。
モデルは、自然言語推論(NLI)、ファクトチェック、抽象的な要約における幻覚検出の3つのタスクにまたがる19の多様なOODデータセットで評価される。
論文 参考訳(メタデータ) (2025-02-07T10:01:32Z) - Modeling Human Subjectivity in LLMs Using Explicit and Implicit Human Factors in Personas [14.650234624251716]
大規模言語モデル (LLMs) は、人間中心の社会科学タスクでますます使われている。
これらのタスクは非常に主観的であり、環境、態度、信念、生きた経験など人間的要因に依存している。
我々は,LLMを人間的なペルソナで促進する役割について検討し,モデルに特定の人間であるかのように答えるよう求めた。
論文 参考訳(メタデータ) (2024-06-20T16:24:07Z) - Large Language Models Show Human-like Social Desirability Biases in Survey Responses [12.767606361552684]
人格評価が推定された場合,Large Language Models (LLMs) が特徴次元の望ましい端に向かってスコアを歪めていることを示す。
このバイアスは、GPT-4/3.5、Claude 3、Llama 3、PaLM-2を含む全ての試験モデルに存在する。
すべての質問のリバースコーディングはバイアスレベルを低下させるが、それらを取り除くことはできず、この効果はアクセプションバイアスによるものではないことを示唆している。
論文 参考訳(メタデータ) (2024-05-09T19:02:53Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Sensitivity, Performance, Robustness: Deconstructing the Effect of
Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。
ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文 参考訳(メタデータ) (2023-09-13T15:42:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。