論文の概要: This human study did not involve human subjects: Validating LLM simulations as behavioral evidence
- arxiv url: http://arxiv.org/abs/2602.15785v1
- Date: Tue, 17 Feb 2026 18:18:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-18 16:03:18.158752
- Title: This human study did not involve human subjects: Validating LLM simulations as behavioral evidence
- Title(参考訳): この人間の研究は人間の被験者を巻き込まなかった: LLMシミュレーションを行動証拠として検証する
- Authors: Jessica Hullman, David Broska, Huaman Sun, Aaron Shaw,
- Abstract要約: ヒューリスティックなアプローチは、シミュレーションされた観察された人間の行動が交換可能であることを確立する。
統計的キャリブレーションは、観察された反応とシミュレーションされた反応の相違を説明するために、補助的な人間のデータと統計的調整を組み合わせる。
- 参考スコア(独自算出の注目度): 15.56427716190418
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A growing literature uses large language models (LLMs) as synthetic participants to generate cost-effective and nearly instantaneous responses in social science experiments. However, there is limited guidance on when such simulations support valid inference about human behavior. We contrast two strategies for obtaining valid estimates of causal effects and clarify the assumptions under which each is suitable for exploratory versus confirmatory research. Heuristic approaches seek to establish that simulated and observed human behavior are interchangeable through prompt engineering, model fine-tuning, and other repair strategies designed to reduce LLM-induced inaccuracies. While useful for many exploratory tasks, heuristic approaches lack the formal statistical guarantees typically required for confirmatory research. In contrast, statistical calibration combines auxiliary human data with statistical adjustments to account for discrepancies between observed and simulated responses. Under explicit assumptions, statistical calibration preserves validity and provides more precise estimates of causal effects at lower cost than experiments that rely solely on human participants. Yet the potential of both approaches depends on how well LLMs approximate the relevant populations. We consider what opportunities are overlooked when researchers focus myopically on substituting LLMs for human participants in a study.
- Abstract(参考訳): 成長する文献は、社会科学実験においてコスト効率が高く、ほぼ瞬時に反応を起こすために、大きな言語モデル(LLM)を合成参加者として利用する。
しかし、そのようなシミュレーションが人間の行動に関する有効な推論をサポートする時期については、限定的なガイダンスがある。
因果効果の有効な推定値を得るための2つの戦略を対比し,それぞれが探索研究と確認研究に適した仮定を明らかにする。
ヒューリスティックなアプローチは、シミュレーションと観察された人間の行動が、迅速な工学、モデル微調整、およびLLMが引き起こした不正確さを減らすために設計された他の修復戦略を通じて、交換可能であることを確立する。
多くの探索的なタスクに有用であるが、ヒューリスティックなアプローチは、確認研究に通常必要とされる公式な統計的保証を欠いている。
対照的に、統計的キャリブレーションは、観察された応答とシミュレーションされた応答の相違を考慮するために、補助的な人間のデータと統計的調整を組み合わせる。
明示的な仮定の下では、統計的校正は妥当性を保ち、人間の参加者にのみ依存する実験よりも低コストで因果効果のより正確な推定を提供する。
しかし、両方のアプローチのポテンシャルは、LLMが関連する人口をどれだけよく近似するかに依存する。
我々は、研究者が研究の参加者にLLMを代用することに焦点を当てたとき、どのような機会を見落としているかを考える。
関連論文リスト
- Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-26T09:50:42Z) - Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management [11.302500716500893]
LLMは、ビジネス、経済学、社会科学における人間の振る舞いをシミュレートする新しいツールである。
本稿では, LLM が操作管理における人間行動の再現性を評価する。
論文 参考訳(メタデータ) (2025-09-30T20:20:58Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Language Models Trained to do Arithmetic Predict Human Risky and Intertemporal Choice [4.029252551781513]
本稿では,認知モデルとしての大規模言語モデルの有用性を高める新しい手法を提案する。
生態学的に有効な算術的データセットに基づいて事前訓練されたLLMは、従来の認知モデルよりも人間の行動を予測する。
論文 参考訳(メタデータ) (2024-05-29T17:37:14Z) - Systematic Biases in LLM Simulations of Debates [12.933509143906141]
人間の相互作用をシミュレートする際の大規模言語モデルの限界について検討する。
以上の結果から, LLMエージェントがモデル固有の社会的バイアスに適合する傾向が示唆された。
これらの結果は、エージェントがこれらのバイアスを克服するのに役立つ方法を開発するためのさらなる研究の必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-02-06T14:51:55Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Empirical Estimates on Hand Manipulation are Recoverable: A Step Towards
Individualized and Explainable Robotic Support in Everyday Activities [80.37857025201036]
ロボットシステムの鍵となる課題は、他のエージェントの振る舞いを理解することである。
正しい推論の処理は、(衝突)因子が実験的に制御されない場合、特に困難である。
人に関する観察研究を行うために必要なツールをロボットに装備することを提案する。
論文 参考訳(メタデータ) (2022-01-27T22:15:56Z) - Enabling Counterfactual Survival Analysis with Balanced Representations [64.17342727357618]
生存データは様々な医学的応用、すなわち薬物開発、リスクプロファイリング、臨床試験で頻繁に見られる。
本稿では,生存結果に適用可能な対実的推論のための理論的基盤を持つ統一的枠組みを提案する。
論文 参考訳(メタデータ) (2020-06-14T01:15:00Z) - Localized Debiased Machine Learning: Efficient Inference on Quantile
Treatment Effects and Beyond [69.83813153444115]
因果推論における(局所)量子化処理効果((L)QTE)の効率的な推定式を検討する。
Debiased Machine Learning (DML)は、高次元のニュアンスを推定するデータ分割手法である。
本稿では、この負担のかかるステップを避けるために、局所的脱バイアス機械学習(LDML)を提案する。
論文 参考訳(メタデータ) (2019-12-30T14:42:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。