論文の概要: Evaluating LLMs as Human Surrogates in Controlled Experiments
- arxiv url: http://arxiv.org/abs/2604.15329v1
- Date: Sun, 08 Mar 2026 16:03:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 02:32:13.832132
- Title: Evaluating LLMs as Human Surrogates in Controlled Experiments
- Title(参考訳): 制御実験における人体サロゲートとしてのLDMの評価
- Authors: Adnan Hoq, Tim Weninger,
- Abstract要約: 大規模言語モデル(LLM)は、行動研究における人間の反応をシミュレートするためにますます使われている。
LLMが生成したデータがどのように人間のデータと同じ実験的な推論をサポートするかは、まだ不明である。
そこで,本研究では,既成のLCM生成応答と人間の応答とを比較し,精度知覚に関する標準調査実験から評価した。
- 参考スコア(独自算出の注目度): 4.233590639227564
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly used to simulate human responses in behavioral research, yet it remains unclear when LLM-generated data support the same experimental inferences as human data. We evaluate this by directly comparing off-the-shelf LLM-generated responses with human responses from a canonical survey experiment on accuracy perception. Each human observation is converted into a structured prompt, and models generate a single 0--10 outcome variable without task-specific training; identical statistical analyses are applied to human and synthetic responses. We find that LLMs reproduce several directional effects observed in humans, but effect magnitudes and moderation patterns vary across models. Off-the-shelf LLMs therefore capture aggregate belief-updating patterns under controlled conditions but do not consistently match human-scale effects, clarifying when LLM-generated data can function as behavioral surrogates.
- Abstract(参考訳): 大規模言語モデル(LLM)は、行動研究において人間の反応をシミュレートするためにますます使われているが、LLMが生成したデータが人間のデータと同じ実験的推論をサポートするかどうかは不明である。
本研究は, 市販LCM生成応答と人間の応答を直接比較し, 精度知覚に関する標準調査実験から評価する。
各人間の観察は構造化されたプロンプトに変換され、モデルがタスク固有のトレーニングなしで1つの0--10結果変数を生成し、同じ統計分析が人間と合成応答に適用される。
LLMは人体で観察されるいくつかの方向効果を再現するが、効果の大きさやモデレーションパターンはモデルによって異なる。
したがって、既成のLLMは、制御された条件下での集合的信念更新パターンをキャプチャするが、人間のスケール効果と一貫して一致しない。
関連論文リスト
- Individual Turing Test: A Case Study of LLM-based Simulation Using Longitudinal Personal Data [54.145424717168794]
大きな言語モデル(LLM)は、目覚ましい人間のような能力を示しているが、特定の個人を複製する能力は未発見のままである。
本稿では,10年以上にわたるプライベートメッセージ履歴のボランティア配信アーカイブを用いて,LSMに基づく個人シミュレーションのケーススタディを提案する。
本研究は,ボランティアの知人が,最も有望な多候補プール内の応答を正確に識別できるかどうかを評価するための「個別チューリングテスト」を提案する。
論文 参考訳(メタデータ) (2026-03-01T21:46:27Z) - This human study did not involve human subjects: Validating LLM simulations as behavioral evidence [15.56427716190418]
ヒューリスティックなアプローチは、シミュレーションされた観察された人間の行動が交換可能であることを確立する。
統計的キャリブレーションは、観察された反応とシミュレーションされた反応の相違を説明するために、補助的な人間のデータと統計的調整を組み合わせる。
論文 参考訳(メタデータ) (2026-02-17T18:18:38Z) - Can Finetuing LLMs on Small Human Samples Increase Heterogeneity, Alignment, and Belief-Action Coherence? [9.310571879281186]
大規模言語モデル(LLM)は、調査および実験研究における人間の参加者の代用として機能する。
LLMは、しばしば実際の人間の行動と一致せず、限られた多様性を示し、少数派のサブグループに対する体系的なミスアライメントを示し、グループ内でのばらつきが不十分であり、言明された信念と行動の相違を示す。
本研究では、パイロットスタディから得られるような、人間の調査データのごく一部を微調整することで、これらの問題を緩和し、現実的なシミュレーション結果が得られるかどうかを検討する。
論文 参考訳(メタデータ) (2025-11-26T09:50:42Z) - Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task [0.0]
大きな言語モデル(LLM)は、認知タスクにおける人間の参加者の代用として、ますます研究されている。
本研究では,LLMが音素流速タスクの個人差を近似できるかどうかを検討する。
論文 参考訳(メタデータ) (2025-05-22T03:08:27Z) - LLM-Mirror: A Generated-Persona Approach for Survey Pre-Testing [0.0]
統計的分布と個別意思決定パターンの両方を再現できるかどうかを検討する。
また,LLMに応答性固有の情報を供給することによって生成されるユーザペルソナであるLLM-Mirrorの概念についても紹介する。
PLS-SEM分析の結果, LLMはヒトの反応に一致し, LLMはヒトの反応を再現し, LLM-Mirror反応はヒトの反応に密接に従っていることがわかった。
論文 参考訳(メタデータ) (2024-12-04T09:39:56Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。