論文の概要: Can Large Language Models Replace Human Subjects? A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management
- arxiv url: http://arxiv.org/abs/2409.00128v3
- Date: Fri, 20 Jun 2025 14:13:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-23 19:00:04.711249
- Title: Can Large Language Models Replace Human Subjects? A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management
- Title(参考訳): 大規模言語モデルは人間に取って代わることができるか? : 心理学とマネジメントにおけるシナリオベース実験の大規模再現
- Authors: Ziyan Cui, Ning Li, Huaikang Zhou,
- Abstract要約: 大規模言語モデル(LLM)は、心理学実験において人間のような反応を複製する可能性を示している。
我々は,3つの最先端LCMを用いて,トップ社会科学誌から156の心理学実験を再現した大規模研究を行った。
LLMは人間の研究よりも大きく、フィッシャーZの値は人間の研究の約2~3倍である。
- 参考スコア(独自算出の注目度): 1.5031024722977635
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial Intelligence (AI) is increasingly being integrated into scientific research, particularly in the social sciences, where understanding human behavior is critical. Large Language Models (LLMs) have shown promise in replicating human-like responses in various psychological experiments. We conducted a large-scale study replicating 156 psychological experiments from top social science journals using three state-of-the-art LLMs (GPT-4, Claude 3.5 Sonnet, and DeepSeek v3). Our results reveal that while LLMs demonstrate high replication rates for main effects (73-81%) and moderate to strong success with interaction effects (46-63%), They consistently produce larger effect sizes than human studies, with Fisher Z values approximately 2-3 times higher than human studies. Notably, LLMs show significantly lower replication rates for studies involving socially sensitive topics such as race, gender and ethics. When original studies reported null findings, LLMs produced significant results at remarkably high rates (68-83%) - while this could reflect cleaner data with less noise, as evidenced by narrower confidence intervals, it also suggests potential risks of effect size overestimation. Our results demonstrate both the promise and challenges of LLMs in psychological research, offering efficient tools for pilot testing and rapid hypothesis validation while enriching rather than replacing traditional human subject studies, yet requiring more nuanced interpretation and human validation for complex social phenomena and culturally sensitive research questions.
- Abstract(参考訳): 人工知能(AI)は、科学研究、特に人間の行動を理解することが重要である社会科学に、ますます統合されつつある。
大規模言語モデル(LLM)は、様々な心理学実験で人間のような反応を再現する可能性を示してきた。
我々は,3つの最先端LCM(GPT-4,Claude 3.5 Sonnet,DeepSeek v3)を用いて,トップ社会科学誌から156の心理学実験を再現した大規模研究を行った。
実験の結果, LLMは主効果(73~81%)に対して高い再現率を示し, 相互作用効果(46~63%)で中程度から高い成功率を示した。
特に、LLMは、人種、性別、倫理といった社会的に敏感なトピックに関する研究において、大幅に低いレプリケーション率を示している。
元の研究では、Nullの発見を報告したとき、LSMは驚くほど高いレート(68-83%)で顕著な結果をもたらし、これはよりノイズの少ないクリーンなデータを反映する可能性があるが、より狭い信頼区間によって証明されたように、効果サイズの過大評価の潜在的リスクも示唆している。
本研究は, 心理学研究におけるLCMの有望性と課題の両立を実証し, 従来の人体研究を置き換えるのではなく, パイロットテストのための効率的なツールと素早い仮説検証を提供するとともに, 複雑な社会現象や文化に敏感な研究課題に対して, よりニュアンスな解釈と人間による検証を必要とした。
関連論文リスト
- ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Identifying Non-Replicable Social Science Studies with Language Models [2.621434923709917]
オープンソース (Llama 3 8B, Qwen 2 7B, Mistral 7B) とプロプライエタリ (GPT-4o) 命令調整 LLM の複製可能と非複製可能の区別能力について検討した。
LLMを用いて、行動研究から反応の合成サンプルを生成し、測定結果が元の結果を支持するかどうかを推定する。
論文 参考訳(メタデータ) (2025-03-10T11:48:05Z) - Using Large Language Models to Create AI Personas for Replication and Prediction of Media Effects: An Empirical Test of 133 Published Experimental Research Findings [0.3749861135832072]
本稿では,大規模言語モデル(LLM)がメッセージ効果研究の正確な複製を高速化する可能性について分析する。
The Journal of Marketingに掲載された45の最近の研究を含む14の論文から133の実験結果を再現し,LSMを用いた参加者を試験した。
LLMの複製は、元のメインエフェクトの76%(111点中84点)を再現し、メディア刺激に反応する研究のAIによる複製の可能性を示した。
論文 参考訳(メタデータ) (2024-08-28T18:14:39Z) - Investigating Critical Period Effects in Language Acquisition through Neural Language Models [70.6367059367609]
第二言語 (L2) の習得は幼少期以降難しくなる。
この期間以降、第1言語(L1)への露出を緩和することは、通常、L1の習熟度を著しく低下させることはない。
これらのCP効果が自然に決定された脳の成熟によるものなのか、または経験によって自然に誘発される神経接続の安定化であるのかは不明である。
論文 参考訳(メタデータ) (2024-07-27T19:17:10Z) - The Efficacy of Conversational Artificial Intelligence in Rectifying the Theory of Mind and Autonomy Biases: Comparative Analysis [0.0]
メンタルヘルス介入における会話型人工知能(CAI)の展開の増加は、認知バイアスの是正と人間とAIの相互作用に対する影響の認識において、その効果を評価する必要がある。
本研究の目的は、認知バイアスの同定と修正およびユーザインタラクションへの影響認識における汎用言語モデル(GPT-3.5, GPT-4, Gemini Pro)に対する治療用チャットボットの有効性を評価することである。
論文 参考訳(メタデータ) (2024-06-19T20:20:28Z) - Are Large Language Models More Empathetic than Humans? [14.18033127602866]
GPT-4は最も共感的な反応として現れ、人間のベンチマークに比べて約31%の反応が「Good」と評価された。
一部のLSMは、特定の感情に反応するのが他よりもはるかに優れている。
論文 参考訳(メタデータ) (2024-06-07T16:33:43Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4 [0.0]
本研究では,空間的タスクと言語的タスクの双方において,人間とGPT-4の問題解決を比較した。
588人の米国からの参加者と680人のGPT-4の反復による4つの実験では、GPT-4の付加的な変換は人間よりも強い傾向を示した。
論文 参考訳(メタデータ) (2024-04-25T15:53:00Z) - Large language models surpass human experts in predicting neuroscience results [60.26891446026707]
大きな言語モデル(LLM)は、人間の専門家よりも新しい結果を予測する。
BrainBenchは神経科学の結果を予測するためのベンチマークだ。
我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。
論文 参考訳(メタデータ) (2024-03-04T15:27:59Z) - Can large language models provide useful feedback on research papers? A
large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。
GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。
我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文 参考訳(メタデータ) (2023-10-03T04:14:17Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。