論文の概要: Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?
- arxiv url: http://arxiv.org/abs/2606.04592v1
- Date: Wed, 03 Jun 2026 08:30:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 20:44:18.629764
- Title: Synthetic Personalities: How Well Can LLMs Mimic Individual Respondents Using Socio-Economic Microdata?
- Title(参考訳): シンセティック・パーソナリティ(Synthetic Personalities) : 社会経済マイクロデータを用いたLLMの個人応答はどの程度うまくいくか?
- Authors: Leonard Kinzinger, Jochen Hartmann,
- Abstract要約: 我々はドイツ社会経済パネルから詳細な個別レベルの双子を構築した。
建設工法グリッドの3倍の5倍の2倍の2倍の3倍の評価を行う。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: LLM-based digital twins promise to scale and accelerate market research, but most published twins are either coarse persona bots conditioned on a few demographic questions or detailed individual-level twins built on purpose-collected surveys and interview transcripts. Neither setup speaks to the operationally most relevant case for marketing practice: building detailed individual twins from the pre-existing heterogeneous panel data that firms already accumulate through CRM systems, loyalty programs, and repeat surveys. We construct detailed individual-level twins from the German Socio-Economic Panel (SOEP) and evaluate them across a $3 \times 5 \times 2 \times 2$ construction-method grid that covers three open-weights LLMs, five cumulative information depths ranked by normalized Shannon entropy, two embedding methods, and two reasoning modes, scoring over 2.1 million twin responses on 500 participants and 183 held-out questions. Twin quality rises with information depth but with diminishing returns past the 75 percent entropy quartile, which acts as a cost-efficient Pareto point relative to the best-performing 100 percent cells. Switching the embedding from a narrative persona summary to a raw dialog history of past responses raises hold-out accuracy in every model-by-reasoning cell at the 100 percent depth, while an explicit thinking mode raises rank-order correlation without moving accuracy. Best-cell accuracy reaches 78.8 percent and Fisher-$z$ correlation reaches $r = 0.590$ on the SOEP held-out evaluation set. The findings suggest that twin-based market research is no longer gated by data design, but by item volume, model selection, and a small set of construction-level decisions that this paper now maps.
- Abstract(参考訳): LLMベースのデジタル双生児は市場調査の規模拡大と加速を約束するが、ほとんどの双生児は、少数の人口統計学的な質問に照らされた粗いペルソナボットか、目的に合った調査とインタビューの書き起こしに基づいて構築された詳細な個別レベルの双生児である。
既存のCRMシステム、忠誠プログラム、反復調査を通じて既に蓄積されている異種パネルデータから、詳細な個々の双子を構築する。
我々は,ドイツの社会経済パネル (SOEP) から詳細な個別レベルのツインを構築し,500人の参加者に対して2100万以上のツイン応答,および183人の質問に対して,500人の参加者に対して2100万以上のツイン応答を判定する正常化シャノンエントロピー(Shannon entropy)によってランク付けされた5つの累積情報深度を網羅する3つのオープンウェイトLSM (LLM) と5つの累積情報深度(cumulative information depths) を網羅する3つのビルドメソッドグリッド (M2D2) で評価した。
双子の品質は情報深度とともに上昇するが、75%のエントロピー準位を超えるリターンが減少する。
物語ペルソナ要約から過去の応答の生のダイアログ履歴への埋め込みは、100%の深さでモデルバイ推論セルのホールドアウト精度を高める一方、明示的な思考モードは、移動精度なしでランクオーダー相関を高める。
最高のセル精度は78.8%に達し、Fisher-$z$相関はSOEPホールドアウト評価セットで$r = 0.590$に達する。
この結果は、ツインベースの市場調査は、もはやデータ設計ではなく、アイテムのボリューム、モデルの選択、そして現在この論文がマップしている少数の建設レベルの決定によって促進されていることを示唆している。
関連論文リスト
- Persona Conditioning of Brand Recommendations in Retrieval-Augmented Commercial Chat: A Prominence-Stratified Cross-Provider Audit [0.0]
モデルが推奨するブランドの状況変化がどれほど強く影響するかを監査します。
監査サンプル2,000は、10のペルソナ x 8 の設計空間上で実行され、x 3 モデル構成 x N=10 のレポジトリがプロンプトされる。
AIブランドの認識のあらゆる測定は、クエリを提供する購入者ペルソナに条件を定めなければならない。
論文 参考訳(メタデータ) (2026-05-28T16:43:38Z) - Rectification Difficulty and Optimal Sample Allocation in LLM-Augmented Surveys [0.0]
大規模言語モデルは低コストで総合的なサーベイ応答を生成することができるが、その精度は質問によって予測不可能に変化する。
各タスクに安価なLCM予測が利用できる場合, 評価タスク全体にわたって, ヒトの定型予算を割り当てる設計問題について検討する。
まず、予測パワー推論に基づいて、推定器のばらつきがヒトのサンプルサイズでどれだけ早く減少するかを判断する、疑問特異的な補正の難しさを特徴付ける。
第2に,LLMの信頼性が低いタスクに対して,より人間的なラベルを指示するクローズドフォームの最適アロケーションルールを導出する。
論文 参考訳(メタデータ) (2026-04-19T05:45:37Z) - RefineBench: Evaluating Refinement Capability of Language Models via Checklists [71.02281792867531]
本研究は,2つの改良モード(ガイドリファインメントと自己リファインメント)を評価する。
ガイド付き改良では、プロプライエタリなLMと大きなオープンウェイトLMの両方が目標フィードバックを利用して、5ターン以内のほぼ完全なレベルへの応答を洗練できる。
これらの結果は、フロンティアLMは誤った反応を自己調整するためにブレークスルーを必要とすることを示唆している。
論文 参考訳(メタデータ) (2025-11-27T07:20:52Z) - Dynamic Template Selection for Output Token Generation Optimization: MLP-Based and Transformer Approaches [0.0]
動的テンプレート選択は応答品質を損なうことなく大幅なコスト削減を実現する。
この研究は、機械学習の理論的基礎を持つ形式的問題定式化、それに対応する複雑性解析を伴う4つのアルゴリズム、生産システム全体にわたる広範な実証検証など、いくつかの重要な要素に貢献している。
論文 参考訳(メタデータ) (2025-11-17T21:00:22Z) - Twin-2K-500: A dataset for building digital twins of over 2,000 people based on their answers to over 500 questions [11.751234495886674]
LLMベースのデジタルツインシミュレーションは、AI、社会科学、デジタル実験の研究に大いに貢献する。
我々は、米国におけるN = 2,058$参加者(平均2.42時間)の代表サンプルを、合計500の質問を含む4つの波で調査した。
最初の分析では、データは高品質であることが示唆され、個人と集合レベルでの人間の振る舞いを良く予測するデジタルツインの構築が約束されている。
論文 参考訳(メタデータ) (2025-05-23T05:05:11Z) - Mind the Gap! Static and Interactive Evaluations of Large Audio Models [55.87220295533817]
大型オーディオモデル(LAM)は、音声ネイティブな体験をパワーアップするために設計されている。
本研究は,484名の参加者から,LAMを評価し,7,500名のLAMインタラクションを収集する対話的アプローチを提案する。
論文 参考訳(メタデータ) (2025-02-21T20:29:02Z) - One Thousand and One Pairs: A "novel" challenge for long-context language models [56.60667988954638]
NoChaは、67冊の架空の書籍に関する1,001対の真偽の主張のデータセットである。
当社のアノテータは、NoChaにおけるペアの最大シェアは、本全体に対するグローバルな推論を必要としていることを確認しています。
平均的なモデルでは、文レベルの検索しか必要としないペアの方が、グローバルな推論よりもはるかに優れています。
論文 参考訳(メタデータ) (2024-06-24T02:03:57Z) - Automatic sleep stage classification with deep residual networks in a
mixed-cohort setting [63.52264764099532]
我々は,大規模コホートの一般化性を評価するために,新しいディープニューラルネットワークモデルを開発した。
総合的な分類精度はトレーニングデータの分数を増やして向上した。
論文 参考訳(メタデータ) (2020-08-21T10:48:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。