Fugu-MT 論文翻訳(概要): Can Large Language Models Replace Human Subjects? A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management

論文の概要: Can Large Language Models Replace Human Subjects? A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management

arxiv url: http://arxiv.org/abs/2409.00128v3
Date: Fri, 20 Jun 2025 14:13:17 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-23 19:00:04.711249
Title: Can Large Language Models Replace Human Subjects? A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management
Title（参考訳）: 大規模言語モデルは人間に取って代わることができるか? : 心理学とマネジメントにおけるシナリオベース実験の大規模再現
Authors: Ziyan Cui, Ning Li, Huaikang Zhou,
Abstract要約: 大規模言語モデル(LLM)は、心理学実験において人間のような反応を複製する可能性を示している。我々は,3つの最先端LCMを用いて,トップ社会科学誌から156の心理学実験を再現した大規模研究を行った。 LLMは人間の研究よりも大きく、フィッシャーZの値は人間の研究の約2～3倍である。
参考スコア（独自算出の注目度）: 1.5031024722977635
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Artificial Intelligence (AI) is increasingly being integrated into scientific research, particularly in the social sciences, where understanding human behavior is critical. Large Language Models (LLMs) have shown promise in replicating human-like responses in various psychological experiments. We conducted a large-scale study replicating 156 psychological experiments from top social science journals using three state-of-the-art LLMs (GPT-4, Claude 3.5 Sonnet, and DeepSeek v3). Our results reveal that while LLMs demonstrate high replication rates for main effects (73-81%) and moderate to strong success with interaction effects (46-63%), They consistently produce larger effect sizes than human studies, with Fisher Z values approximately 2-3 times higher than human studies. Notably, LLMs show significantly lower replication rates for studies involving socially sensitive topics such as race, gender and ethics. When original studies reported null findings, LLMs produced significant results at remarkably high rates (68-83%) - while this could reflect cleaner data with less noise, as evidenced by narrower confidence intervals, it also suggests potential risks of effect size overestimation. Our results demonstrate both the promise and challenges of LLMs in psychological research, offering efficient tools for pilot testing and rapid hypothesis validation while enriching rather than replacing traditional human subject studies, yet requiring more nuanced interpretation and human validation for complex social phenomena and culturally sensitive research questions.
Abstract（参考訳）: 人工知能(AI)は、科学研究、特に人間の行動を理解することが重要である社会科学に、ますます統合されつつある。大規模言語モデル(LLM)は、様々な心理学実験で人間のような反応を再現する可能性を示してきた。我々は,3つの最先端LCM(GPT-4,Claude 3.5 Sonnet,DeepSeek v3)を用いて,トップ社会科学誌から156の心理学実験を再現した大規模研究を行った。実験の結果, LLMは主効果(73～81%)に対して高い再現率を示し, 相互作用効果(46～63%)で中程度から高い成功率を示した。特に、LLMは、人種、性別、倫理といった社会的に敏感なトピックに関する研究において、大幅に低いレプリケーション率を示している。元の研究では、Nullの発見を報告したとき、LSMは驚くほど高いレート(68-83%)で顕著な結果をもたらし、これはよりノイズの少ないクリーンなデータを反映する可能性があるが、より狭い信頼区間によって証明されたように、効果サイズの過大評価の潜在的リスクも示唆している。本研究は, 心理学研究におけるLCMの有望性と課題の両立を実証し, 従来の人体研究を置き換えるのではなく, パイロットテストのための効率的なツールと素早い仮説検証を提供するとともに, 複雑な社会現象や文化に敏感な研究課題に対して, よりニュアンスな解釈と人間による検証を必要とした。

関連論文リスト

Using AI to replicate human experimental results: a motion study [0.11838866556981258]
本稿では,言語研究における信頼性の高い解析ツールとして,大規模言語モデル(LLM)の可能性について検討する。動作動詞の行儀を含む時間表現における感情的意味の出現に焦点を当てる。
論文参考訳（メタデータ） (2025-07-14T14:47:01Z)
ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文参考訳（メタデータ） (2025-03-27T08:09:15Z)
Identifying Non-Replicable Social Science Studies with Language Models [2.621434923709917]
オープンソース (Llama 3 8B, Qwen 2 7B, Mistral 7B) とプロプライエタリ (GPT-4o) 命令調整 LLM の複製可能と非複製可能の区別能力について検討した。 LLMを用いて、行動研究から反応の合成サンプルを生成し、測定結果が元の結果を支持するかどうかを推定する。
論文参考訳（メタデータ） (2025-03-10T11:48:05Z)
Boosting Self-Efficacy and Performance of Large Language Models via Verbal Efficacy Stimulations [10.209999691197948]
本稿では,VES(Verbal Efficacy Stimulations)を紹介する。 VESは、助力や能力といった6つの側面に対処する、励まし、挑発的、批判的な3つの言語プロンプトから構成される。実験結果から,3種類のVESはLLMの性能を向上し,最も有効なVESはモデルによって異なることがわかった。
論文参考訳（メタデータ） (2025-02-10T16:54:03Z)
Using Large Language Models to Create AI Personas for Replication and Prediction of Media Effects: An Empirical Test of 133 Published Experimental Research Findings [0.3749861135832072]
本稿では,大規模言語モデル(LLM)がメッセージ効果研究の正確な複製を高速化する可能性について分析する。 The Journal of Marketingに掲載された45の最近の研究を含む14の論文から133の実験結果を再現し,LSMを用いた参加者を試験した。 LLMの複製は、元のメインエフェクトの76%(111点中84点)を再現し、メディア刺激に反応する研究のAIによる複製の可能性を示した。
論文参考訳（メタデータ） (2024-08-28T18:14:39Z)
Investigating Critical Period Effects in Language Acquisition through Neural Language Models [70.6367059367609]
第二言語 (L2) の習得は幼少期以降難しくなる。この期間以降、第1言語(L1)への露出を緩和することは、通常、L1の習熟度を著しく低下させることはない。これらのCP効果が自然に決定された脳の成熟によるものなのか、または経験によって自然に誘発される神経接続の安定化であるのかは不明である。
論文参考訳（メタデータ） (2024-07-27T19:17:10Z)
The Efficacy of Conversational Artificial Intelligence in Rectifying the Theory of Mind and Autonomy Biases: Comparative Analysis [0.0]
メンタルヘルス介入における会話型人工知能(CAI)の展開の増加は、認知バイアスの是正と人間とAIの相互作用に対する影響の認識において、その効果を評価する必要がある。本研究の目的は、認知バイアスの同定と修正およびユーザインタラクションへの影響認識における汎用言語モデル(GPT-3.5, GPT-4, Gemini Pro)に対する治療用チャットボットの有効性を評価することである。
論文参考訳（メタデータ） (2024-06-19T20:20:28Z)
Are Large Language Models More Empathetic than Humans? [14.18033127602866]
GPT-4は最も共感的な反応として現れ、人間のベンチマークに比べて約31%の反応が「Good」と評価された。一部のLSMは、特定の感情に反応するのが他よりもはるかに優れている。
論文参考訳（メタデータ） (2024-06-07T16:33:43Z)
Smoke and Mirrors in Causal Downstream Tasks [59.90654397037007]
本稿では, 治療効果推定の因果推論タスクについて検討し, 高次元観察において利害関係が記録されている。最先端の視覚バックボーンから微調整した6つの480モデルを比較し、サンプリングとモデリングの選択が因果推定の精度に大きく影響することを発見した。以上の結果から,今後のベンチマークでは,下流の科学的問題,特に因果的な問題について慎重に検討すべきであることが示唆された。
論文参考訳（メタデータ） (2024-05-27T13:26:34Z)
Influence of Solution Efficiency and Valence of Instruction on Additive and Subtractive Solution Strategies in Humans and GPT-4 [0.0]
本研究では,空間的タスクと言語的タスクの双方において,人間とGPT-4の問題解決を比較した。 588人の米国からの参加者と680人のGPT-4の反復による4つの実験では、GPT-4の付加的な変換は人間よりも強い傾向を示した。
論文参考訳（メタデータ） (2024-04-25T15:53:00Z)
Large language models surpass human experts in predicting neuroscience results [60.26891446026707]
大きな言語モデル(LLM)は、人間の専門家よりも新しい結果を予測する。 BrainBenchは神経科学の結果を予測するためのベンチマークだ。我々のアプローチは神経科学に特有ではなく、他の知識集約的な取り組みに伝達可能である。
論文参考訳（メタデータ） (2024-03-04T15:27:59Z)
Discovery of the Hidden World with Large Language Models [95.58823685009727]
本稿では,大きな言語モデル(LLM)を導入してギャップを埋めるCausal representatiOn AssistanT(COAT)を提案する。 LLMは世界中の大規模な観測に基づいて訓練されており、構造化されていないデータから重要な情報を抽出する優れた能力を示している。 COATはまた、特定変数間の因果関係を見つけるためにCDを採用し、提案された要因を反復的に洗練するためにLSMにフィードバックを提供する。
論文参考訳（メタデータ） (2024-02-06T12:18:54Z)
Do LLMs exhibit human-like response biases? A case study in survey design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。 9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文参考訳（メタデータ） (2023-11-07T15:40:43Z)
Language Models Hallucinate, but May Excel at Fact Verification [89.0833981569957]
大規模言語モデル (LLM) はしばしば「ハロシン化 (hallucinate)」し、結果として非実効出力となる。 GPT-3.5でさえ、実際の出力は25%以下である。これは、進捗を計測し、インセンティブを与えるために、事実検証の重要性を浮き彫りにする。
論文参考訳（メタデータ） (2023-10-23T04:39:01Z)
Can large language models provide useful feedback on research papers? A large-scale empirical analysis [38.905758846360435]
高品質なピアレビューは入手がますます困難になっている。 GPT-4のような大規模言語モデル(LLM)のブレークスルーにより、科学的なフィードバックを得るためにLLMを使うことへの関心が高まっている。我々はGPT-4を用いた自動パイプラインを作成し、科学論文の全PDFにコメントを提供した。
論文参考訳（メタデータ） (2023-10-03T04:14:17Z)
Sensitivity, Performance, Robustness: Deconstructing the Effect of Sociodemographic Prompting [64.80538055623842]
社会デマトグラフィープロンプトは、特定の社会デマトグラフィープロファイルを持つ人間が与える答えに向けて、プロンプトベースのモデルの出力を操縦する技術である。ソシオデマトグラフィー情報はモデル予測に影響を及ぼし、主観的NLPタスクにおけるゼロショット学習を改善するのに有用であることを示す。
論文参考訳（メタデータ） (2023-09-13T15:42:06Z)
Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文参考訳（メタデータ） (2023-08-07T15:18:30Z)
Large Language Models Understand and Can be Enhanced by Emotional Stimuli [53.53886609012119]
我々は、感情的な刺激を理解するために、大規模言語モデルの能力を探究する第一歩を踏み出す。実験の結果,LLMは感情的知能を把握でき,その性能は感情的刺激によって改善できることがわかった。 EmotionPromptが生成タスクの性能を大幅に向上させることを示す。
論文参考訳（メタデータ） (2023-07-14T00:57:12Z)
Exploring Qualitative Research Using LLMs [8.545798128849091]
この研究は、人間とAIが駆動する大規模言語モデルの理解能力を比較し、比較することを目的としている。私たちはAlexaアプリのレビューの小さなサンプルを使って実験を行い、最初は人間のアナリストによって分類された。 LLMはこれらのレビューを分類し、それぞれの分類の背後にある理由を提供するよう求められた。
論文参考訳（メタデータ） (2023-06-23T05:21:36Z)
Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。 GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文参考訳（メタデータ） (2023-05-31T15:03:28Z)
Do Large Language Models Show Decision Heuristics Similar to Humans? A Case Study Using GPT-3.5 [0.0]
GPT-3.5は、ChatGPTと呼ばれる会話エージェントをサポートするLLMの例である。本研究では,ChatGPTがバイアスを示すか,その他の決定効果を示すかを決定するために,一連の新しいプロンプトを用いた。また、同じプロンプトをヒトでもテストしました。
論文参考訳（メタデータ） (2023-05-08T01:02:52Z)
Susceptibility to Influence of Large Language Models [5.931099001882958]
2つの研究は、大きな言語モデル(LLM)が、影響力のある入力への暴露後の心理的変化をモデル化できるという仮説を検証した。最初の研究では、Illusory Truth Effect(ITE)という一般的な影響のモードがテストされた。第2の研究では、その説得力と政治的動員力を高めるために、ニュースの大衆的なフレーミングという、特定の影響の態勢について論じている。
論文参考訳（メタデータ） (2023-03-10T16:53:30Z)
Can ChatGPT Assess Human Personalities? A General Evaluation Framework [70.90142717649785]
大きな言語モデル(LLM)は、様々な分野で印象的な成果を上げてきたが、その潜在的な人間のような心理学はいまだに研究されていない。本稿では,Mers Briggs Type Indicator (MBTI) テストに基づく人格評価のための総合評価フレームワークを提案する。
論文参考訳（メタデータ） (2023-03-01T06:16:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。