論文の概要: Using Zero-Shot LLM-Generated Survey Data for Geographically Explicit Population Synthesis
- arxiv url: http://arxiv.org/abs/2605.27401v1
- Date: Thu, 23 Apr 2026 21:27:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-01 02:55:43.012184
- Title: Using Zero-Shot LLM-Generated Survey Data for Geographically Explicit Population Synthesis
- Title(参考訳): ゼロショットLDMを用いた地理的人口合成のためのサーベイデータの利用
- Authors: Taylor Anderson, Sara Von Hoene, Orhan Yagizer Cinar, Emma Von Hoene, Amira Roess, Andrew Crooks, Hamdi Kavak,
- Abstract要約: 本稿では,ゼロショット大言語モデル(LLM)が生成する健康調査データが,従来の反復比例フィッティングワークフローの入力として機能するかどうかを評価する。
GPT-4.1 と Gemini-2.5-Pro でコロラド州とミシシッピ州の総合調査記録を作成した。
生成したデータをIPFベースの合成パイプラインに使用し、結果の国勢調査レベルの合成人口を外部ベンチマークに対して評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: There is a growing interest in utilizing synthetic populations for a diverse range of applications. At the same time, we are witnessing a tremendous growth in artificial intelligence in all walks of life. This paper evaluates whether zero-shot large language model (LLM)-generated health survey data can serve as inputs to a conventional iterative proportional fitting (IPF) workflow for geographically explicit population synthesis. Using the 2023 Behavioral Risk Factor Surveillance System (BRFSS), we generate synthetic survey records for the U.S. states of Colorado and Mississippi with GPT-4.1 and Gemini-2.5-Pro. We use the generated data in an IPF-based synthesis pipeline and evaluate the resulting census tract-level synthetic populations against external benchmarks. Results show both LLMs capture several major state-level contrasts, indicating zero-shot generation produces geographically differentiated survey data. However, performance is strongly variable-dependent. Downstream effects in population synthesis are mixed, as IPF sometimes amplifies or reduces errors in the generated data. Spatial validation shows that LLM-based populations reproduce census tract-level patterns reasonably well, especially for variables that were more aligned with the ground truth data. Overall, the LLM-generated survey data shows promise as supplementary input, but not yet as a replacement for real survey data.
- Abstract(参考訳): 多様な用途に人工個体群を活用することへの関心が高まっている。
同時に、あらゆる人生における人工知能の驚異的な成長を目の当たりにしています。
本稿では,ゼロショット大言語モデル(LLM)が生成する健康調査データが,地理的に明示的な集団合成のための従来の反復比例フィッティング(IPF)ワークフローの入力として機能するかどうかを評価する。
2023年の行動リスク要因監視システム(BRFSS)を用いて、コロラド州とミシシッピ州の総合調査記録をGPT-4.1とGemini-2.5-Proで作成する。
生成したデータをIPFベースの合成パイプラインに使用し、結果の国勢調査レベルの合成人口を外部ベンチマークに対して評価する。
以上の結果から,両LSMは,地理的に異なる調査データを生成するゼロショット生成を示す主要なコントラストを捉えた。
しかし、性能は強い変数依存である。
IPFは時に生成されたデータのエラーを増幅または減少させるため、人口合成における下流効果は混合される。
空間的検証により,LLMを用いた人口は,特に地上の真理データとより整合した変数に対して,国勢調査レベルのパターンを合理的に再現できることが示唆された。
総じて、LCMが生成した調査データは、実際の調査データの代替としてはまだ、補足的な入力として約束されている。
関連論文リスト
- In Silico Development of Psychometric Scales: Feasibility of Representative Population Data Simulation with LLMs [0.5833117322405447]
心理測定尺度の開発には、大きなサンプル、複数のテストフェーズ、実質的なリソースが必要である。
大規模言語モデル(LLM)の最近の進歩は、合成参加者データの生成を可能にする。
LLMシミュレーションデータセットが人間の反応の潜伏構造と測定特性を再現できるかどうかを検証した。
論文 参考訳(メタデータ) (2025-12-02T16:26:17Z) - Syn-GRPO: Self-Evolving Data Synthesis for MLLM Perception Reasoning [58.4099027998709]
本研究は、オンラインデータジェネレータを用いて、GRPOトレーニングにおける多様な応答で高品質なトレーニングデータを合成するSyn-GRPOを提案する。
実験の結果,Syn-GRPOはデータ品質を大きなマージンで改善し,既存のMLLM認識法よりも優れた性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-11-24T17:42:29Z) - Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction [5.774786149181393]
大規模言語モデル(LLM)における人口統計特性と即時変動が潜在世論マッピングに与える影響を解析する。
LLMが生成したデータは、実世界の人間の反応で観測された分散を再現できないことがわかった。
政治分野では、ペルソナ・ツー・パーティのマッピングは限定的な分化を示しており、結果として、調査データに見られる意見の微妙な分布に欠ける合成データとなる。
論文 参考訳(メタデータ) (2025-02-22T16:25:33Z) - Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。
近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。
コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T22:06:29Z) - Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。
本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。
しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文 参考訳(メタデータ) (2024-09-02T08:28:19Z) - Entropy Law: The Story Behind Data Compression and LLM Performance [115.70395740286422]
モデル性能はトレーニングデータの圧縮比と負の相関関係にあり,トレーニング損失が小さくなるのが普通である。
エントロピー法則の知見に基づいて, 極めて効率的で普遍的なデータ選択法を提案する。
また,モデルトレーニング開始時の潜在的な性能リスクを検出するエントロピー法則の興味深い応用を提案する。
論文 参考訳(メタデータ) (2024-07-09T08:14:29Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。