論文の概要: Assessing the Reliability of Persona-Conditioned LLMs as Synthetic Survey Respondents
- arxiv url: http://arxiv.org/abs/2602.18462v1
- Date: Fri, 06 Feb 2026 15:13:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-02 07:21:25.586144
- Title: Assessing the Reliability of Persona-Conditioned LLMs as Synthetic Survey Respondents
- Title(参考訳): パーソナ・コンディションLLMの信頼性に関する総合調査
- Authors: Erika Elizabeth Taday Morocho, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci,
- Abstract要約: 我々は、ペルソナ条件のシミュレーションの影響を評価するために、米国のマイクロデータの大規模なデータセットを使用します。
その結果,ペルソナ・プロンプトはサーベイアライメントにおいて明確な総合的改善を得られず,多くの場合,性能が著しく低下することがわかった。
本研究は,現在のペルソナ・シミュレーション・プラクティスの重大な影響を浮き彫りにするものである。
- 参考スコア(独自算出の注目度): 0.4277616907160855
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Using persona-conditioned LLMs as synthetic survey respondents has become a common practice in computational social science and agent-based simulations. Yet, it remains unclear whether multi-attribute persona prompting improves LLM reliability or instead introduces distortions. Here we contribute to this assessment by leveraging a large dataset of U.S. microdata from the World Values Survey. Concretely, we evaluate two open-weight chat models and a random-guesser baseline across more than 70K respondent-item instances. We find that persona prompting does not yield a clear aggregate improvement in survey alignment and, in many cases, significantly degrades performance. Persona effects are highly heterogeneous as most items exhibit minimal change, while a small subset of questions and underrepresented subgroups experience disproportionate distortions. Our findings highlight a key adverse impact of current persona-based simulation practices: demographic conditioning can redistribute error in ways that undermine subgroup fidelity and risk misleading downstream analyses.
- Abstract(参考訳): 人格条件付きLLMを総合調査の回答者として活用することは,計算社会科学やエージェント・ベース・シミュレーションにおいて一般的な実践となっている。
しかし、マルチ属性ペルソナがLDMの信頼性を向上させるか、代わりに歪みを導入するかは、まだ不明である。
ここでは、世界価値調査の米国マイクロデータの大規模なデータセットを活用することで、この評価に貢献する。
具体的には、2つのオープンウェイトチャットモデルと、70K以上の応答イテムインスタンスにまたがるランダムゲッサーベースラインを評価する。
その結果,ペルソナ・プロンプトはサーベイアライメントにおいて明確な総合的改善を得られず,多くの場合,性能が著しく低下することがわかった。
ペルソナ効果は、ほとんどの項目が最小限の変化を示すため非常に異種であり、質問の小さなサブセットと表現されていないサブグループは不均質な歪みを経験する。
本研究は,現在行われているペルソナに基づくシミュレーション手法の悪影響を浮き彫りにするものである。
関連論文リスト
- Overstating Attitudes, Ignoring Networks: LLM Biases in Simulating Misinformation Susceptibility [7.616305266104683]
大規模言語モデル (LLM) は、計算社会科学における人間の判断のためのプロキシとして、ますます使われている。
LLMを模擬した調査の回答者が、誤情報信念と共有の人間のパターンを再現できるかどうかを検証した。
論文 参考訳(メタデータ) (2026-02-04T15:48:05Z) - Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-26T09:50:42Z) - LLMs Learn to Deceive Unintentionally: Emergent Misalignment in Dishonesty from Misaligned Samples to Biased Human-AI Interactions [60.48458130500911]
本研究は, 緊急不整合が, 安全行動を超えて, より広範な不正行為や詐欺のスペクトルにまで及ぼせるかどうかを, 高リスクシナリオ下で検討する。
さまざまな領域にまたがるミスアライメントの完了について、LLMをオープンソースにしました。
標準下流タスクに1%のミスアライメントデータを導入するだけで、正直な振る舞いを20%以上減らすのに十分であることがわかった。
論文 参考訳(メタデータ) (2025-10-09T13:35:19Z) - Prompts to Proxies: Emulating Human Preferences via a Compact LLM Ensemble [46.82793004650415]
大規模言語モデル(LLM)は、様々なタスクにまたがる人間のような応答をエミュレートする可能性を実証している。
本研究では,LLMをエージェントプロキシとして扱う新しいアライメントフレームワークを提案する。
我々は、構造化されたプロンプトエンジニアリング、エントロピーに基づくサンプリング、回帰に基づく選択を用いて、LLMエージェントを代表的行動パターンに向けて操るシステムであるP2Pを紹介する。
論文 参考訳(メタデータ) (2025-09-14T15:08:45Z) - Population-Aligned Persona Generation for LLM-based Social Simulation [58.84363795421489]
本稿では,社会シミュレーションのための高品質な集団対応ペルソナ集合を合成するための体系的枠組みを提案する。
我々のアプローチは、長期のソーシャルメディアデータから物語的ペルソナを生成するために、大きな言語モデルを活用することから始まる。
特定のシミュレーションコンテキストのニーズに対処するために,対象のサブポピュレーションに対してグローバルに整合したペルソナを適応させるタスク固有モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-12T10:43:47Z) - Prompt Perturbations Reveal Human-Like Biases in Large Language Model Survey Responses [2.3112192919085826]
大規模言語モデル (LLMs) は、社会科学調査において、人間の被験者のプロキシとしてますます使われている。
既知のヒトのような反応バイアスに対する信頼性と感受性は理解されていない。
本研究は, 標準調査文脈におけるLCMの応答ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-09T18:01:50Z) - Leveraging Interview-Informed LLMs to Model Survey Responses: Comparative Insights from AI-Generated and Human Data [4.774576759157642]
混合手法の研究は量的および質的なデータを統合するが、それらの異なる構造を整合させる際の課題に直面している。
本研究では,大規模言語モデル(LLM)が人間の調査応答を確実に予測できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-28T05:57:26Z) - Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction [5.774786149181393]
大規模言語モデル(LLM)における人口統計特性と即時変動が潜在世論マッピングに与える影響を解析する。
LLMが生成したデータは、実世界の人間の反応で観測された分散を再現できないことがわかった。
政治分野では、ペルソナ・ツー・パーティのマッピングは限定的な分化を示しており、結果として、調査データに見られる意見の微妙な分布に欠ける合成データとなる。
論文 参考訳(メタデータ) (2025-02-22T16:25:33Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - ReEval: Automatic Hallucination Evaluation for Retrieval-Augmented Large Language Models via Transferable Adversarial Attacks [91.55895047448249]
本稿では,LLMベースのフレームワークであるReEvalについて述べる。
本稿では、ChatGPTを用いてReEvalを実装し、2つの人気のあるオープンドメインQAデータセットのバリエーションを評価する。
我々の生成したデータは人間可読であり、大きな言語モデルで幻覚を引き起こすのに役立ちます。
論文 参考訳(メタデータ) (2023-10-19T06:37:32Z) - Stateful Offline Contextual Policy Evaluation and Learning [88.9134799076718]
我々は、シーケンシャルデータから、政治以外の評価と学習について研究する。
動的パーソナライズされた価格設定などの問題の因果構造を形式化する。
本報告では,本クラスにおけるアウト・オブ・サンプル・ポリシーの性能改善について述べる。
論文 参考訳(メタデータ) (2021-10-19T16:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。