論文の概要: Synthetic social data: trials and tribulations
- arxiv url: http://arxiv.org/abs/2510.19952v1
- Date: Wed, 22 Oct 2025 18:25:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.631034
- Title: Synthetic social data: trials and tribulations
- Title(参考訳): 合成社会データ:試行錯乱
- Authors: Guido Ivetta, Laura Moradbakhti, Rafael A. Calvo,
- Abstract要約: 6つの大言語モデルのための4つの国における社会的価値の統計的表現について検討する。
機械出力と実際の人間の調査データを比較した。
この結果は、人間による調査の物流的・財政的な制約にもかかわらず、実際の回答者の小さなサンプルでさえ、より信頼性の高い洞察を提供する可能性があることを示唆している。
- 参考スコア(独自算出の注目度): 3.713365412512855
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Large Language Models are being used in conversational agents that simulate human conversations and generate social studies data. While concerns about the models' biases have been raised and discussed in the literature, much about the data generated is still unknown. In this study we explore the statistical representation of social values across four countries (UK, Argentina, USA and China) for six LLMs, with equal representation for open and closed weights. By comparing machine-generated outputs with actual human survey data, we assess whether algorithmic biases in LLMs outweigh the biases inherent in real- world sampling, including demographic and response biases. Our findings suggest that, despite the logistical and financial constraints of human surveys, even a small, skewed sample of real respondents may provide more reliable insights than synthetic data produced by LLMs. These results highlight the limitations of using AI-generated text for social research and emphasize the continued importance of empirical human data collection.
- Abstract(参考訳): 大規模言語モデルは、人間の会話をシミュレートし、社会研究データを生成する会話エージェントで使用されている。
モデルのバイアスに関する懸念は文献で提起され議論されているが、生成したデータについてはまだ不明である。
本研究では,4国(イギリス,アルゼンチン,米国,中国)の6 LLMにおける社会的価値の統計的表現について検討し,オープンウェイトとクローズドウェイトを同等に表現した。
機械出力と実際の人間の調査データを比較することで、LLMにおけるアルゴリズムバイアスが、人口統計学や反応バイアスを含む実世界のサンプリングに固有のバイアスよりも優れているかどうかを評価する。
この結果から, 人体調査の物流的, 財政的制約にもかかわらず, 実際の回答者の小さなサンプルであっても, LLMが生成した合成データよりも信頼性の高い洞察が得られる可能性が示唆された。
これらの結果は、社会研究にAI生成テキストを使用することの限界を強調し、経験的データ収集の継続的な重要性を強調している。
関連論文リスト
- Population-Aligned Persona Generation for LLM-based Social Simulation [58.84363795421489]
本稿では,社会シミュレーションのための高品質な集団対応ペルソナ集合を合成するための体系的枠組みを提案する。
我々のアプローチは、長期のソーシャルメディアデータから物語的ペルソナを生成するために、大きな言語モデルを活用することから始まる。
特定のシミュレーションコンテキストのニーズに対処するために,対象のサブポピュレーションに対してグローバルに整合したペルソナを適応させるタスク固有モジュールを提案する。
論文 参考訳(メタデータ) (2025-09-12T10:43:47Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction [5.774786149181393]
大規模言語モデル(LLM)における人口統計特性と即時変動が潜在世論マッピングに与える影響を解析する。
LLMが生成したデータは、実世界の人間の反応で観測された分散を再現できないことがわかった。
政治分野では、ペルソナ・ツー・パーティのマッピングは限定的な分化を示しており、結果として、調査データに見られる意見の微妙な分布に欠ける合成データとなる。
論文 参考訳(メタデータ) (2025-02-22T16:25:33Z) - Guided Persona-based AI Surveys: Can we replicate personal mobility preferences at scale using LLMs? [1.7819574476785418]
本研究では,Large Language Models (LLMs) が人工的なサーベイを生成する可能性について検討する。
合成データ作成にLLMを活用することにより,従来の調査手法の限界に対処することを目指す。
Personas」を取り入れた新しい手法が提案され、他の5つの総合的なサーベイ手法と比較された。
論文 参考訳(メタデータ) (2025-01-20T15:11:03Z) - Large Language Models for Market Research: A Data-augmentation Approach [3.3199591445531453]
大規模言語モデル(LLM)は、複雑な自然言語処理タスクに優れ、人工知能を変革した。
近年の研究では、LLMが生成するデータと人間のデータの間に大きなギャップが見られ、両者を置換する際にバイアスが発生している。
コンジョイント解析において,LLM生成データと実データとを効率的に統合する新しい統計データ拡張手法を提案する。
論文 参考訳(メタデータ) (2024-12-26T22:06:29Z) - Agentic Society: Merging skeleton from real world and texture from Large Language Model [4.740886789811429]
本稿では,人口統計データと大規模言語モデルを利用して仮想人口を生成する新しい枠組みについて検討する。
本手法は,社会科学実験において,多様な人間の行動のシミュレーションに不可欠な多様性のあるペルソナを生産することを示す。
しかし, 評価結果から, 現在のLSMの能力に限界があるため, 統計的真理性の弱い兆候しか得られないことが示唆された。
論文 参考訳(メタデータ) (2024-09-02T08:28:19Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。