論文の概要: When Can Digital Personas Reliably Approximate Human Survey Findings?
- arxiv url: http://arxiv.org/abs/2605.10659v1
- Date: Mon, 11 May 2026 14:41:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:50.906335
- Title: When Can Digital Personas Reliably Approximate Human Survey Findings?
- Title(参考訳): デジタル・パーソナリティはいつ人間の調査を確実に行うことができるのか?
- Authors: Mumin Jia, Yilin Chen, Divya Sharma, Jairo Diaz-Rodriguez,
- Abstract要約: 大規模言語モデル(LLM)を利用したデジタルペルソナは、人間の調査回答者の代用としてますます提案されている。
人間の調査結果を確実に近似できる時期は、まだ不明である。
我々は、回答者の背景変数と2023年以前の調査履歴からペルソナを構築し、同じ回答者の保留後の回答に対してテストする。
- 参考スコア(独自算出の注目度): 0.8411771830145969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Digital personas powered by Large Language Models (LLMs) are increasingly proposed as substitutes for human survey respondents, yet it remains unclear when they can reliably approximate human survey findings. We answer this question using the LISS panel, constructing personas from respondents' background variables and pre-2023 survey histories, then testing them against the same respondents' held-out post-cutoff answers. Across four persona architectures, three LLMs, and two prediction tasks, we assess performance at the question, respondent, distributional, equity, and clustering levels. Digital personas improve alignment with human response distributions, especially in domains tied to stable attributes and values, but remain limited for individual prediction and fail to recover multivariate respondent structure. Retrieval-augmented architectures provide the clearest gains, but performance depends more on human response structure than on model choice: personas perform best for low-variability questions and common respondent patterns, and worst for subjective, heterogeneous, or rare responses. Our results provide practical guidance on when digital personas could be appropriate for survey research and when human validation remains necessary.
- Abstract(参考訳): 大規模言語モデル(LLM)を利用したデジタルペルソナは、人間の調査回答者の代替案としてますます提案されているが、人間の調査結果を確実に近似できるかどうかは不明である。
LISSパネルを用いて回答し、回答者の背景変数と2023年以前の調査履歴からペルソナを構築し、同じ回答者の遮断後回答に対してテストする。
4つのペルソナアーキテクチャ、3つのLCM、2つの予測タスク、質問、応答性、分散性、エクイティ、クラスタリングレベルのパフォーマンスを評価する。
デジタルペルソナは人間の応答分布、特に安定した属性と値に結びついている領域での整合性を改善するが、個々の予測には制限され、多変量応答構造を回復できない。
検索可能な拡張されたアーキテクチャは、最も明確な利益をもたらすが、パフォーマンスはモデル選択よりも人間の反応構造に依存している。
本研究は,デジタルペルソナが調査に適するか,人間による検証が必要かについて,実践的なガイダンスを提供する。
関連論文リスト
- Rectification Difficulty and Optimal Sample Allocation in LLM-Augmented Surveys [0.0]
大規模言語モデルは低コストで総合的なサーベイ応答を生成することができるが、その精度は質問によって予測不可能に変化する。
各タスクに安価なLCM予測が利用できる場合, 評価タスク全体にわたって, ヒトの定型予算を割り当てる設計問題について検討する。
まず、予測パワー推論に基づいて、推定器のばらつきがヒトのサンプルサイズでどれだけ早く減少するかを判断する、疑問特異的な補正の難しさを特徴付ける。
第2に,LLMの信頼性が低いタスクに対して,より人間的なラベルを指示するクローズドフォームの最適アロケーションルールを導出する。
論文 参考訳(メタデータ) (2026-04-19T05:45:37Z) - Assessing the Reliability of Persona-Conditioned LLMs as Synthetic Survey Respondents [0.4277616907160855]
我々は、ペルソナ条件のシミュレーションの影響を評価するために、米国のマイクロデータの大規模なデータセットを使用します。
その結果,ペルソナ・プロンプトはサーベイアライメントにおいて明確な総合的改善を得られず,多くの場合,性能が著しく低下することがわかった。
本研究は,現在のペルソナ・シミュレーション・プラクティスの重大な影響を浮き彫りにするものである。
論文 参考訳(メタデータ) (2026-02-06T15:13:59Z) - Pathways of Thoughts: Multi-Directional Thinking for Long-form Personalized Question Answering [57.12316804290369]
ユーザ固有の情報ニーズに質問応答システムを適用するためには,パーソナライゼーションが不可欠である。
本稿では,タスク固有の微調整を必要とせず,任意の大規模言語モデル (LLM) に適用可能な推論段階の方法として,思考の経路 (PoT) を提案する。
PoTは競争ベースラインを一貫して上回り、13.1%の相対的な改善を達成している。
論文 参考訳(メタデータ) (2025-09-23T14:44:46Z) - Prompt Perturbations Reveal Human-Like Biases in Large Language Model Survey Responses [2.3112192919085826]
大規模言語モデル (LLMs) は、社会科学調査において、人間の被験者のプロキシとしてますます使われている。
既知のヒトのような反応バイアスに対する信頼性と感受性は理解されていない。
本研究は, 標準調査文脈におけるLCMの応答ロバスト性について検討する。
論文 参考訳(メタデータ) (2025-07-09T18:01:50Z) - Leveraging Interview-Informed LLMs to Model Survey Responses: Comparative Insights from AI-Generated and Human Data [4.774576759157642]
混合手法の研究は量的および質的なデータを統合するが、それらの異なる構造を整合させる際の課題に直面している。
本研究では,大規模言語モデル(LLM)が人間の調査応答を確実に予測できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-28T05:57:26Z) - Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations [49.908708778200115]
我々は,調査応答分布をシミュレートする大規模言語モデル (LLM) を最初に開発した。
テストベッドとして、我々は2つの世界文化調査の国レベルの結果を使用します。
予測された応答分布と実際の応答分布のばらつきを最小限に抑えるために, ファースト・ツーケン確率に基づく微調整法を提案する。
論文 参考訳(メタデータ) (2025-02-10T21:59:27Z) - LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。
また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。
PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文 参考訳(メタデータ) (2024-12-04T09:39:56Z) - Quriosity: Analyzing Human Questioning Behavior and Causal Inquiry through Curiosity-Driven Queries [92.1651731484397]
本稿では,3つの情報源から自然発生の13.5Kの質問を集めたQuriosityを紹介する。
分析の結果,データセットに因果的疑問(最大42%)が存在することが明らかとなった。
論文 参考訳(メタデータ) (2024-05-30T17:55:28Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - ExpertQA: Expert-Curated Questions and Attributed Answers [51.68314045809179]
我々は,様々な属性と事実の軸に沿って,いくつかの代表システムからの応答を人為的に評価する。
我々は32分野にわたる484人の被験者から専門家による質問を収集し、同じ専門家に自身の質問に対する反応を評価する。
分析の結果は,32分野にまたがる2177の質問と,回答の検証とクレームの属性を備えた高品質な長文QAデータセットであるExpertQAである。
論文 参考訳(メタデータ) (2023-09-14T16:54:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。