論文の概要: When simulations look right but causal effects go wrong: Large language models as behavioral simulators
- arxiv url: http://arxiv.org/abs/2604.02458v1
- Date: Thu, 02 Apr 2026 18:42:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.174752
- Title: When simulations look right but causal effects go wrong: Large language models as behavioral simulators
- Title(参考訳): シミュレーションが正しく見えるが因果効果が悪くなる:行動シミュレータとしての大規模言語モデル
- Authors: Zonghan Li, Feng Ji,
- Abstract要約: 大規模言語モデル (LLM) は、研究者が自然言語で個体群の特徴と介入状況を特定することを可能にする。
62か国59,508人の参加者を対象に,11の気候心理学的介入に関する3つのLCMを評価した。
説明的適合性は因果的忠実度(例えば、介入効果の正確な推定)に確実に変換されなかった
- 参考スコア(独自算出の注目度): 10.754758699423022
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Behavioral simulation is increasingly used to anticipate responses to interventions. Large language models (LLMs) enable researchers to specify population characteristics and intervention context in natural language, but it remains unclear to what extent LLMs can use these inputs to infer intervention effects. We evaluated three LLMs on 11 climate-psychology interventions using a dataset of 59,508 participants from 62 countries, and replicated the main analysis in two additional datasets (12 and 27 countries). LLMs reproduced observed patterns in attitudinal outcomes (e.g., climate beliefs and policy support) reasonably well, and prompting refinements improved this descriptive fit. However, descriptive fit did not reliably translate into causal fidelity (i.e., accurate estimates of intervention effects), and these two dimensions of accuracy followed different error structures. This descriptive-causal divergence held across the three datasets, but varied across intervention logics, with larger errors for interventions that depended on evoking internal experience than on directly conveying reasons or social cues. It was more pronounced for behavioral outcomes, where LLMs imposed stronger attitude-behavior coupling than in human data. Countries and population groups appearing well captured descriptively were not necessarily those with lower causal errors. Relying on descriptive fit alone may therefore create unwarranted confidence in simulation results, misleading conclusions about intervention effects and masking population disparities that matter for fairness.
- Abstract(参考訳): 行動シミュレーションは、介入に対する反応を予測するためにますます使われる。
大規模言語モデル (LLM) により、研究者は自然言語の個体群の特徴と介入状況を特定することができるが、LLMが介入効果を推測するためにどの程度の頻度でこの入力を利用できるかは定かではない。
62か国59,508人を対象に,11の気候心理学的介入に関する3つのLCMを評価し,2つの追加データセット(12か国,27か国)で主解析を行った。
LLMは、観測結果のパターン(例えば、気候の信念や政策支援)を合理的に再現し、この記述的適合性を改善した。
しかし、記述的適合性は因果的忠実度(例えば、介入効果の正確な推定)に確実に変換されず、これらの2次元の精度は異なる誤り構造に従っていた。
この記述的・因果的分岐は、3つのデータセットにまたがって保持されるが、介入ロジックによって異なる。
LLMは人間のデータよりも強い態度と行動の結合を課した。
うまく捕獲された国や集団は必ずしも因果誤りの少ない国ではなかった。
したがって、記述的適合のみに頼れば、シミュレーション結果に不確実な信頼感、介入効果に関する誤解を招く結論、公平性に重要な人口格差を隠蔽する可能性がある。
関連論文リスト
- Race, Ethnicity and Their Implication on Bias in Large Language Models [9.202525724606188]
大型言語モデル(LLM)における人種と民族の表現と運用について検討する。
人口統計情報は, 内部単位に分散し, モデル間差が大きいことが判明した。
このようなニューロンを阻害する介入はバイアスを減少させるが、かなりの影響を残している。
論文 参考訳(メタデータ) (2026-01-19T09:24:24Z) - Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-26T09:50:42Z) - Effectiveness of Large Language Models in Simulating Regional Psychological Structures: An Empirical Examination of Personality and Subjective Well-being [0.0]
本研究では, LLMが人口統計情報に基づいて, 文化的根拠を持つ心理的パターンをシミュレートできるかどうかを検討する。
模擬参加者は、外転や開放性が低下し、同意性や神経症が向上し、常に幸福度が低下した。
論文 参考訳(メタデータ) (2025-09-29T09:12:18Z) - Can Large Language Models Help Experimental Design for Causal Discovery? [94.66802142727883]
Large Language Model Guided Intervention Targeting (LeGIT) は、LLMを効果的に組み込んだ堅牢なフレームワークであり、因果発見のための介入のための既存の数値的アプローチを強化する。
LeGITは、既存の方法よりも大幅な改善と堅牢性を示し、人間を超越している。
論文 参考訳(メタデータ) (2025-03-03T03:43:05Z) - ExpliCa: Evaluating Explicit Causal Reasoning in Large Language Models [75.05436691700572]
明示的な因果推論において,LLM(Large Language Models)を評価するための新しいデータセットであるExpliCaを紹介する。
ExpliCa上で7つの商用およびオープンソース LLM をテストしました。
驚くべきことに、モデルは因果関係と時間的関係を関連付ける傾向にあり、そのパフォーマンスはイベントの言語的順序にも強く影響される。
論文 参考訳(メタデータ) (2025-02-21T14:23:14Z) - LLM Targeted Underperformance Disproportionately Impacts Vulnerable Users [21.30511809806526]
本研究では,大規模言語モデル(LLM)の品質が,ユーザ特性に応じて情報精度,真正性,拒絶の点でどのように変化するかを検討する。
本研究は, 英語能力の低い者, 教育水準の低い者, アメリカ合衆国国外出身者に対して, 最先端のLLMにおける望ましくない行動が不均等に起こることを示唆する。
論文 参考訳(メタデータ) (2024-06-25T17:24:07Z) - Evaluating Interventional Reasoning Capabilities of Large Language Models [58.52919374786108]
大規模言語モデル(LLM)は意思決定タスクを自動化するために使用される。
本稿では,LPMが介入に応じてデータ生成プロセスの知識を正確に更新できるかどうかを評価する。
さまざまな因果グラフ(例えば、コンバウンディング、仲介)と変数タイプにまたがるベンチマークを作成します。
これらのベンチマークにより、LLMが事実を記憶したり、他のショートカットを見つけたりすることで、変化を正確に予測する能力を切り離すことができます。
論文 参考訳(メタデータ) (2024-04-08T14:15:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。