論文の概要: Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs
- arxiv url: http://arxiv.org/abs/2409.00128v2
- Date: Wed, 4 Sep 2024 03:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 17:07:21.809489
- Title: Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs
- Title(参考訳): AIは人間の被験者を置き換えられるか? LLMを用いた心理学実験の大規模レプリケーション
- Authors: Ziyan Cui, Ning Li, Huaikang Zhou,
- Abstract要約: GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果の再現に成功した。
GPT-4の再現された信頼区間は、元の効果の大きさを含み、ほとんどの再現された効果の大きさは、元の研究の95%の信頼区間を超える。
我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
- 参考スコア(独自算出の注目度): 1.5031024722977635
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial Intelligence (AI) is increasingly being integrated into scientific research, particularly in the social sciences, where understanding human behavior is critical. Large Language Models (LLMs) like GPT-4 have shown promise in replicating human-like responses in various psychological experiments. However, the extent to which LLMs can effectively replace human subjects across diverse experimental contexts remains unclear. Here, we conduct a large-scale study replicating 154 psychological experiments from top social science journals with 618 main effects and 138 interaction effects using GPT-4 as a simulated participant. We find that GPT-4 successfully replicates 76.0 percent of main effects and 47.0 percent of interaction effects observed in the original studies, closely mirroring human responses in both direction and significance. However, only 19.44 percent of GPT-4's replicated confidence intervals contain the original effect sizes, with the majority of replicated effect sizes exceeding the 95 percent confidence interval of the original studies. Additionally, there is a 71.6 percent rate of unexpected significant results where the original studies reported null findings, suggesting potential overestimation or false positives. Our results demonstrate the potential of LLMs as powerful tools in psychological research but also emphasize the need for caution in interpreting AI-driven findings. While LLMs can complement human studies, they cannot yet fully replace the nuanced insights provided by human subjects.
- Abstract(参考訳): 人工知能(AI)は、科学研究、特に人間の行動を理解することが重要である社会科学に、ますます統合されつつある。
GPT-4のような大規模言語モデル(LLM)は、様々な心理学実験において人間のような反応を複製する可能性を示している。
しかし、LLMが人体を様々な実験的文脈で効果的に置き換えられる範囲は、まだ不明である。
ここでは, GPT-4を模擬参加者として用いた618の主効果と138の相互作用効果を持つトップ社会科学雑誌から154の心理実験を再現した大規模研究を行っている。
GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果を再現し、ヒトの反応の方向と重要性を密接に反映していることがわかった。
しかしながら、GPT-4の再現された信頼区間の19.4%しかオリジナルの効果の大きさを含んでおらず、ほとんどの再現された効果の大きさは元の研究の95%の信頼区間を超えた。
さらに、予想外の有意な結果の71.6%の速度で、元の研究ではnullな結果が報告され、潜在的過大評価や偽陽性が示唆された。
我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
LLMは人間の研究を補完できるが、人間の被験者が与える微妙な洞察を完全に置き換えることはできない。
関連論文リスト
- Using Large Language Models to Create AI Personas for Replication and Prediction of Media Effects: An Empirical Test of 133 Published Experimental Research Findings [0.3749861135832072]
本稿では,大規模言語モデル(LLM)がメッセージ効果研究の正確な複製を高速化する可能性について分析する。
The Journal of Marketingに掲載された45の最近の研究を含む14の論文から133の実験結果を再現し,LSMを用いた参加者を試験した。
LLMの複製は、元のメインエフェクトの76%(111点中84点)を再現し、メディア刺激に反応する研究のAIによる複製の可能性を示した。
論文 参考訳(メタデータ) (2024-08-28T18:14:39Z) - Investigating Critical Period Effects in Language Acquisition through Neural Language Models [70.6367059367609]
第二言語 (L2) の習得は幼少期以降難しくなる。
この期間以降、第1言語(L1)への露出を緩和することは、通常、L1の習熟度を著しく低下させることはない。
これらのCP効果が自然に決定された脳の成熟によるものなのか、または経験によって自然に誘発される神経接続の安定化であるのかは不明である。
論文 参考訳(メタデータ) (2024-07-27T19:17:10Z) - The Efficacy of Conversational Artificial Intelligence in Rectifying the Theory of Mind and Autonomy Biases: Comparative Analysis [0.0]
メンタルヘルス介入における会話型人工知能(CAI)の展開の増加は、認知バイアスの是正と人間とAIの相互作用に対する影響の認識において、その効果を評価する必要がある。
本研究の目的は、認知バイアスの同定と修正およびユーザインタラクションへの影響認識における汎用言語モデル(GPT-3.5, GPT-4, Gemini Pro)に対する治療用チャットボットの有効性を評価することである。
論文 参考訳(メタデータ) (2024-06-19T20:20:28Z) - Are Large Language Models More Empathetic than Humans? [14.18033127602866]
GPT-4は最も共感的な反応として現れ、人間のベンチマークに比べて約31%の反応が「Good」と評価された。
一部のLSMは、特定の感情に反応するのが他よりもはるかに優れている。
論文 参考訳(メタデータ) (2024-06-07T16:33:43Z) - Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。
最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。
以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文 参考訳(メタデータ) (2024-05-27T13:26:34Z) - Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4 [0.0]
本研究では,空間的タスクと言語的タスクの双方において,人間とGPT-4の問題解決を比較した。
588人の米国からの参加者と680人のGPT-4の反復による4つの実験では、GPT-4の付加的な変換は人間よりも強い傾向を示した。
論文 参考訳(メタデータ) (2024-04-25T15:53:00Z) - Large language models surpass human experts in predicting neuroscience results [60.26891446026707]
大きな言語モデル(LLM)は、人間の専門家よりも新しい結果を予測する。
BrainBenchは神経科学の結果を予測するためのベンチマークだ。
我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。
論文 参考訳(メタデータ) (2024-03-04T15:27:59Z) - Can large language models provide useful feedback on research papers? A
large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。
GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。
我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文 参考訳(メタデータ) (2023-10-03T04:14:17Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。