論文の概要: Stochastic Parrots or Singing in Harmony? Testing Five Leading LLMs for their Ability to Replicate a Human Survey with Synthetic Data
- arxiv url: http://arxiv.org/abs/2603.00059v1
- Date: Tue, 10 Feb 2026 09:50:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-09 01:20:08.012202
- Title: Stochastic Parrots or Singing in Harmony? Testing Five Leading LLMs for their Ability to Replicate a Human Survey with Synthetic Data
- Title(参考訳): ハーモニーにおける確率的パロットまたは歌唱 : 合成データによる人間調査の再現性のための5つのLLMの試験
- Authors: Jason Miklian, Kristian Hoelscher, John E. Katsos,
- Abstract要約: 本稿では,シリコンバレーのプログラマ420名を対象にした人間対応サーベイと,実際のシークエンサーをシミュレートする合成サーベイデータの比較を行った。
以上の結果から,AIエージェントが予想以上に再現性と調和性を重視した技術的に妥当な結果を生み出したことが判明した。
本研究は, 厳密な調査手法の代わりに, より信頼性の高い前・後調査機器として, 総合的な調査に基づく研究を行なわなければならないと結論付けた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: How well can AI-derived synthetic research data replicate the responses of human participants? An emerging literature has begun to engage with this question, which carries deep implications for organizational research practice. This article presents a comparison between a human-respondent survey of 420 Silicon Valley coders and developers and synthetic survey data designed to simulate real survey takers generated by five leading Generative AI Large Language Models: ChatGPT Thinking 5 Pro, Claude Sonnet 4.5 Pro plus Claude CoWork 1.123, Gemini Advanced 2.5 Pro, Incredible 1.0, and DeepSeek 3.2. Our findings reveal that while AI agents produced technically plausible results that lean more towards replicability and harmonization than assumed, none were able to capture the counterintuitive insights that made the human survey valuable. Moreover, deviations grouped together for all models, leaving the real data as the outlier. Our key finding is that while leading LLMs are increasingly being used to scale, replicate and replace human survey responses in research, these advances only show an increased capacity to parrot conventional wisdom in harmony with each other rather than revealing novel findings. If synthetic respondents are used in future research, we need more replicable validation protocols and reporting standards for when and where synthetic survey data can be used responsibly, a gap that this paper fills. Our results suggest that synthetic survey responses cannot meaningfully model real human social beliefs within organizations, particularly in contexts lacking previously documented evidence. We conclude that synthetic survey-based research should be cast not as a substitute for rigorous survey methods, but as an increasingly reliable pre- or post-fieldwork instrument for identifying societal assumptions, conventional wisdoms, and other expectations about research populations.
- Abstract(参考訳): AI由来の合成研究データは、人間の反応をどの程度再現できるか?
新たな文献がこの問題に関わり始めており、組織研究の実践に深く影響している。
この記事では、シリコンバレーの420人のプログラマと開発者を対象とした人間対応のサーベイと、5つの主要なジェネレーティブAI大規模言語モデル(ChatGPT Thinking 5 Pro、Claude Sonnet 4.5 Pro、Claude CoWork 1.123、Gemini Advanced 2.5 Pro、Incredible 1.0、DeepSeek 3.2)によって生成された実際のサーベイテイクをシミュレートする合成サーベイデータの比較を示す。
我々の研究結果によると、AIエージェントは、予想以上に再現性と調和性に傾倒する技術的に妥当な結果を生み出したが、人間の調査を価値あるものにする直感的な洞察を捉えることはできなかった。
さらに、すべてのモデルに対して偏差がグループ化され、実際のデータが外れ値として残った。
我々の重要な発見は、LLMが研究における人間の調査応答のスケールアップ、複製、置換にますます利用されている一方で、これらの進歩は、新しい発見を明らかにするよりも、互いに調和して従来の知恵を育む能力が増していることです。
今後, 総合的な回答が活用されれば, より再現性の高い検証プロトコルや, 総合的な調査データをいつ, どこで利用できるかの報告基準が必要となり, そのギャップを埋めることになる。
以上の結果から, 組織内における実際の人間の社会的信念を有意にモデル化することは不可能であることが示唆された。
本研究は, 厳密な調査手法の代替としてではなく, 社会的仮定, 従来の知恵, 研究人口に対する期待を識別するための, より信頼性の高い前・後フィールドワークの手段として位置づけるべきである。
関連論文リスト
- AgentIR: Reasoning-Aware Retrieval for Deep Research Agents [76.29382561831105]
ディープリサーチエージェントは、各検索の前に明示的な自然言語推論を生成する。
Reasoning-Aware Retrievalは、クエリと一緒にエージェントの推論トレースを埋め込む。
DR-Synthは、標準的なQAデータセットからDeep Researchレトリバーのトレーニングデータを生成する。
AgentIR-4Bは、オープンウェイトエージェントであるTongyi-DeepResearchで68%の精度を達成する。
論文 参考訳(メタデータ) (2026-03-04T18:47:26Z) - Synthetic social data: trials and tribulations [3.713365412512855]
6つの大言語モデルのための4つの国における社会的価値の統計的表現について検討する。
機械出力と実際の人間の調査データを比較した。
この結果は、人間による調査の物流的・財政的な制約にもかかわらず、実際の回答者の小さなサンプルでさえ、より信頼性の高い洞察を提供する可能性があることを示唆している。
論文 参考訳(メタデータ) (2025-10-22T18:25:42Z) - Emulating Public Opinion: A Proof-of-Concept of AI-Generated Synthetic Survey Responses for the Chilean Case [0.0]
大規模言語モデル (LLMs) は、調査研究における方法論的および応用的な革新のための有望な道を提供する。
チリの世論確率論的調査から, LLM生成型人工サーベイ応答の信頼性を評価する。
論文 参考訳(メタデータ) (2025-09-11T21:43:59Z) - Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - Human Preferences in Large Language Model Latent Space: A Technical Analysis on the Reliability of Synthetic Data in Voting Outcome Prediction [5.774786149181393]
大規模言語モデル(LLM)における人口統計特性と即時変動が潜在世論マッピングに与える影響を解析する。
LLMが生成したデータは、実世界の人間の反応で観測された分散を再現できないことがわかった。
政治分野では、ペルソナ・ツー・パーティのマッピングは限定的な分化を示しており、結果として、調査データに見られる意見の微妙な分布に欠ける合成データとなる。
論文 参考訳(メタデータ) (2025-02-22T16:25:33Z) - Chatting Up Attachment: Using LLMs to Predict Adult Bonds [0.0]
GPT-4とClaude 3 Opusを使用して、さまざまなプロファイル、子供時代の記憶、アタッチメントスタイルを持つ大人をシミュレートするエージェントを作成します。
我々は,同一の面接プロトコルを施行し,精神保健専門家によって分析・ラベル付けされた9人のヒトの転写データセットを用いて,我々のモデルを評価した。
以上の結果から,合成データのみを用いたモデルトレーニングは,人間のデータを用いたモデルトレーニングに匹敵する性能を発揮することが示唆された。
論文 参考訳(メタデータ) (2024-08-31T04:29:19Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Diminished Diversity-of-Thought in a Standard Large Language Model [3.683202928838613]
我々は、OpenAIのtext-davinci-003モデルを用いて、M many Labs 2レプリケーションプロジェクトから14の研究の複製を実行する。
分析可能な8つの研究のうち、GPTサンプルは元の結果の37.5%とM many Labs 2の結果の37.5%を複製した。
ある探索的追跡調査では、「正しい答え」がプロンプトに先行する人口統計の詳細を変えるのに堅牢であることが判明した。
論文 参考訳(メタデータ) (2023-02-13T17:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。