論文の概要: The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study
- arxiv url: http://arxiv.org/abs/2605.20767v1
- Date: Wed, 20 May 2026 06:09:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.516883
- Title: The Illusion of Intervention: Your LLM-Simulated Experiment is an Observational Study
- Title(参考訳): 干渉のイライラ:LLMシミュレーション実験は観察的研究
- Authors: Victoria Lin, Taedong Yun, Maja Matarić, John Canny, Arthur Gretton, Alexander D'Amour,
- Abstract要約: 大規模言語モデル(LLM)は人間の行動のシミュレータとしての可能性を示している。
LLMは潜在ユーザ属性の意図しないシフトを誘発し、ユーザのドリフトを引き起こす。
ユーザのドリフトによって生じる不確実性や選択バイアスを形式化する。
- 参考スコア(独自算出の注目度): 56.649987197786096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) show potential as simulators of human behavior, offering a scalable way to study responses to interventions. However, because LLMs are trained largely on observational data, interventions in experiments with LLM-simulated synthetic users can induce unintended shifts in latent user attributes, causing user drift where the implicit simulated population differs across treatment conditions, potentially distorting effect estimates. We formalize the confounding or selection bias that can arise due to user drift and show how intervention-dependent shifts can inflate or attenuate observed differences in user responses under intervention. To diagnose confounding, we propose using negative control outcomes--attributes that should remain invariant under intervention--to identify distribution shifts across intervention conditions, providing evidence of user drift. To mitigate drift, we study adjusting the persona specification by eliciting additional confounders, finding that targeted, setting-relevant confounders can substantially reduce bias across survey-style and multi-turn agent evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)は人間の行動のシミュレータとしての可能性を示し、介入に対する応答を研究するスケーラブルな方法を提供する。
しかし、LSMは観察データに基づいて訓練されているため、LCMシミュレーションされた人工ユーザによる実験の介入は、潜在ユーザ属性の意図しないシフトを誘発し、暗黙のシミュレーションされた人口が治療条件によって異なる場合のユーザドリフトを引き起こし、潜在的に効果推定を歪ませる可能性がある。
ユーザのドリフトによって生じる欠点や選択バイアスを形式化し、介入に依存したシフトが、介入下で観察されたユーザの反応の差を減らし、減らしうることを示す。
コンバウンディングを診断するために,介入条件の分散シフトを識別し,ユーザのドリフトの証拠を提供するために,介入条件下で不変でなければならない負の制御結果を用いる方法を提案する。
ドリフトを緩和するため,新たな共同設立者を引き出すことでペルソナ仕様の調整について検討し,目標とする共同設立者が調査スタイルおよびマルチターンエージェント評価の偏見を大幅に低減できることを示した。
関連論文リスト
- Evaluating LLMs as Human Surrogates in Controlled Experiments [4.233590639227564]
大規模言語モデル(LLM)は、行動研究における人間の反応をシミュレートするためにますます使われている。
LLMが生成したデータがどのように人間のデータと同じ実験的な推論をサポートするかは、まだ不明である。
そこで,本研究では,既成のLCM生成応答と人間の応答とを比較し,精度知覚に関する標準調査実験から評価した。
論文 参考訳(メタデータ) (2026-03-08T16:03:27Z) - Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-26T09:50:42Z) - Drift No More? Context Equilibria in Multi-Turn LLM Interactions [58.69551510148673]
コンテキストドリフト(Contexts drift)とは、ターン間のゴール一貫性のある振る舞いからモデルが出力する出力の段階的なばらつきである。
シングルターンエラーとは異なり、ドリフトは時間的に展開し、静的な評価指標では捉えにくい。
マルチターンドリフトは、避けられない崩壊というよりも、制御可能な平衡現象として理解できることを示す。
論文 参考訳(メタデータ) (2025-10-09T04:48:49Z) - Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management [11.302500716500893]
LLMは、ビジネス、経済学、社会科学における人間の振る舞いをシミュレートする新しいツールである。
本稿では, LLM が操作管理における人間行動の再現性を評価する。
論文 参考訳(メタデータ) (2025-09-30T20:20:58Z) - Prediction-Powered Causal Inferences [59.98498488132307]
予測型因果推論(PPCI)に焦点をあてる
まず, 条件付きキャリブレーションにより, 人口レベルでの有効なPPCIが保証されることを示す。
次に、実験間での十分な表現制約伝達の妥当性を導入する。
論文 参考訳(メタデータ) (2025-02-10T10:52:17Z) - Estimating Individual Dose-Response Curves under Unobserved Confounders from Observational Data [6.166869525631879]
本稿では,連続治療の因果効果を推定するための新しいフレームワークであるContiVAEについて述べる。
ContiVAEは既存の手法を最大62%上回り、その堅牢性と柔軟性を示す。
論文 参考訳(メタデータ) (2024-10-21T07:24:26Z) - The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective [0.27624021966289597]
大きな言語モデル(LLM)は、人間の振る舞いをシミュレートする素晴らしい可能性を示している。
実験をシミュレートする上での根本的な課題を特定します。
LLMを模擬した被験者が実験設計に盲目である場合、治療のバリエーションは不特定変数に系統的に影響を及ぼす。
論文 参考訳(メタデータ) (2023-12-24T16:32:35Z) - Decoding Susceptibility: Modeling Misbelief to Misinformation Through a Computational Approach [61.04606493712002]
誤報に対する感受性は、観測不可能な不検証の主張に対する信念の度合いを記述している。
既存の感受性研究は、自己報告された信念に大きく依存している。
本稿では,ユーザの潜在感受性レベルをモデル化するための計算手法を提案する。
論文 参考訳(メタデータ) (2023-11-16T07:22:56Z) - Efficient Causal Inference from Combined Observational and
Interventional Data through Causal Reductions [68.6505592770171]
因果効果を推定する際の主な課題の1つである。
そこで本研究では,任意の数の高次元潜入共創者を置き換える新たな因果還元法を提案する。
パラメータ化縮小モデルを観測データと介入データから共同で推定する学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-08T14:29:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。