論文の概要: Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs
- arxiv url: http://arxiv.org/abs/2409.00128v2
- Date: Wed, 4 Sep 2024 03:21:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 17:07:21.809489
- Title: Can AI Replace Human Subjects? A Large-Scale Replication of Psychological Experiments with LLMs
- Title(参考訳): AIは人間の被験者を置き換えられるか? LLMを用いた心理学実験の大規模レプリケーション
- Authors: Ziyan Cui, Ning Li, Huaikang Zhou,
- Abstract要約: GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果の再現に成功した。
GPT-4の再現された信頼区間は、元の効果の大きさを含み、ほとんどの再現された効果の大きさは、元の研究の95%の信頼区間を超える。
我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
- 参考スコア(独自算出の注目度): 1.5031024722977635
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial Intelligence (AI) is increasingly being integrated into scientific research, particularly in the social sciences, where understanding human behavior is critical. Large Language Models (LLMs) like GPT-4 have shown promise in replicating human-like responses in various psychological experiments. However, the extent to which LLMs can effectively replace human subjects across diverse experimental contexts remains unclear. Here, we conduct a large-scale study replicating 154 psychological experiments from top social science journals with 618 main effects and 138 interaction effects using GPT-4 as a simulated participant. We find that GPT-4 successfully replicates 76.0 percent of main effects and 47.0 percent of interaction effects observed in the original studies, closely mirroring human responses in both direction and significance. However, only 19.44 percent of GPT-4's replicated confidence intervals contain the original effect sizes, with the majority of replicated effect sizes exceeding the 95 percent confidence interval of the original studies. Additionally, there is a 71.6 percent rate of unexpected significant results where the original studies reported null findings, suggesting potential overestimation or false positives. Our results demonstrate the potential of LLMs as powerful tools in psychological research but also emphasize the need for caution in interpreting AI-driven findings. While LLMs can complement human studies, they cannot yet fully replace the nuanced insights provided by human subjects.
- Abstract(参考訳): 人工知能(AI)は、科学研究、特に人間の行動を理解することが重要である社会科学に、ますます統合されつつある。
GPT-4のような大規模言語モデル(LLM)は、様々な心理学実験において人間のような反応を複製する可能性を示している。
しかし、LLMが人体を様々な実験的文脈で効果的に置き換えられる範囲は、まだ不明である。
ここでは, GPT-4を模擬参加者として用いた618の主効果と138の相互作用効果を持つトップ社会科学雑誌から154の心理実験を再現した大規模研究を行っている。
GPT-4は76.0パーセントの主効果と47.0パーセントの相互作用効果を再現し、ヒトの反応の方向と重要性を密接に反映していることがわかった。
しかしながら、GPT-4の再現された信頼区間の19.4%しかオリジナルの効果の大きさを含んでおらず、ほとんどの再現された効果の大きさは元の研究の95%の信頼区間を超えた。
さらに、予想外の有意な結果の71.6%の速度で、元の研究ではnullな結果が報告され、潜在的過大評価や偽陽性が示唆された。
我々の研究は、心理学研究における強力なツールとしてのLLMの可能性を示しているが、AIによる知見の解釈には注意が必要であることも強調している。
LLMは人間の研究を補完できるが、人間の被験者が与える微妙な洞察を完全に置き換えることはできない。
関連論文リスト
- The Efficacy of Conversational Artificial Intelligence in Rectifying the Theory of Mind and Autonomy Biases: Comparative Analysis [0.0]
メンタルヘルス介入における会話型人工知能(CAI)の展開の増加は、認知バイアスの是正と人間とAIの相互作用に対する影響の認識において、その効果を評価する必要がある。
本研究の目的は、認知バイアスの同定と修正およびユーザインタラクションへの影響認識における汎用言語モデル(GPT-3.5, GPT-4, Gemini Pro)に対する治療用チャットボットの有効性を評価することである。
論文 参考訳(メタデータ) (2024-06-19T20:20:28Z) - Are Large Language Models More Empathetic than Humans? [14.18033127602866]
GPT-4は最も共感的な反応として現れ、人間のベンチマークに比べて約31%の反応が「Good」と評価された。
一部のLSMは、特定の感情に反応するのが他よりもはるかに優れている。
論文 参考訳(メタデータ) (2024-06-07T16:33:43Z) - Large language models surpass human experts in predicting neuroscience results [60.26891446026707]
大きな言語モデル(LLM)は、人間の専門家よりも新しい結果を予測する。
BrainBenchは神経科学の結果を予測するためのベンチマークだ。
我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。
論文 参考訳(メタデータ) (2024-03-04T15:27:59Z) - PsychoGAT: A Novel Psychological Measurement Paradigm through Interactive Fiction Games with LLM Agents [68.50571379012621]
心理的な測定は、精神健康、自己理解、そして個人の発達に不可欠である。
心理学ゲームAgenT(サイコガト)は、信頼性、収束妥当性、差別的妥当性などの心理学的指標において統計的に有意な卓越性を達成している。
論文 参考訳(メタデータ) (2024-02-19T18:00:30Z) - Can large language models provide useful feedback on research papers? A
large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。
GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。
我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文 参考訳(メタデータ) (2023-10-03T04:14:17Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
人間の評価結果を参考として,商業モデルとオープンソースモデルの両方をカバーする7つのLCMを評価対象とする。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Exploring the psychology of LLMs' Moral and Legal Reasoning [0.0]
大規模言語モデル(LLM)は、さまざまな領域にわたるタスクにおいて、専門家レベルのパフォーマンスを示す。
LLMによって提起された倫理的問題と将来のバージョンを整合させる必要性は、アートモデルの現状が道徳的および法的問題にどのように影響するかを知ることが重要である。
我々は,Google の Gemini Pro や Anthropic の Claude 2.1,OpenAI の GPT-4,Meta の Llama 2 Chat 70b を例に,実験文献から8つの研究結果を再現した。
ある実験から別の実験へと人間の反応の一致が変化し、モデルが全体として異なることがわかりました。
論文 参考訳(メタデータ) (2023-08-02T16:36:58Z) - Large Language Models Understand and Can be Enhanced by Emotional
Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。
実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。
EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2023-07-14T00:57:12Z) - Susceptibility to Influence of Large Language Models [5.931099001882958]
2つの研究は、大きな言語モデル(LLM)が、影響力のある入力への暴露後の心理的変化をモデル化できるという仮説を検証した。
最初の研究では、Illusory Truth Effect(ITE)という一般的な影響のモードがテストされた。
第2の研究では、その説得力と政治的動員力を高めるために、ニュースの大衆的なフレーミングという、特定の影響の態勢について論じている。
論文 参考訳(メタデータ) (2023-03-10T16:53:30Z) - Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。
本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-01T06:16:14Z) - I am Only Happy When There is Light: The Impact of Environmental Changes
on Affective Facial Expressions Recognition [65.69256728493015]
本研究では,異なる画像条件が人間の表情からの覚醒の認識に与える影響について検討した。
以上の結果から,人間の感情状態の解釈が肯定的,否定的に大きく異なることが示唆された。
論文 参考訳(メタデータ) (2022-10-28T16:28:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。