論文の概要: Large Language Models Do Not Simulate Human Psychology
- arxiv url: http://arxiv.org/abs/2508.06950v2
- Date: Tue, 12 Aug 2025 07:58:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-13 12:16:51.41015
- Title: Large Language Models Do Not Simulate Human Psychology
- Title(参考訳): 大規模言語モデルは人間の心理学をシミュレートしない
- Authors: Sarah Schröder, Thekla Morgenroth, Ulrike Kuhl, Valerie Vaquet, Benjamin Paaßen,
- Abstract要約: 一部の研究は、Large Language Models (LLM) が人間の心理学をシミュレートできるかもしれないことを示唆している。
我々は、LLMが人間の心理学をシミュレートする仮説に対する概念的議論を提供する。
LLMとヒトの反応に顕著な相違が生じていることを示す。
- 参考スコア(独自算出の注目度): 0.8039067099377079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs),such as ChatGPT, are increasingly used in research, ranging from simple writing assistance to complex data annotation tasks. Recently, some research has suggested that LLMs may even be able to simulate human psychology and can, hence, replace human participants in psychological studies. We caution against this approach. We provide conceptual arguments against the hypothesis that LLMs simulate human psychology. We then present empiric evidence illustrating our arguments by demonstrating that slight changes to wording that correspond to large changes in meaning lead to notable discrepancies between LLMs' and human responses, even for the recent CENTAUR model that was specifically fine-tuned on psychological responses. Additionally, different LLMs show very different responses to novel items, further illustrating their lack of reliability. We conclude that LLMs do not simulate human psychology and recommend that psychological researchers should treat LLMs as useful but fundamentally unreliable tools that need to be validated against human responses for every new application.
- Abstract(参考訳): ChatGPTのような大規模言語モデル(LLM)は、単純な記述支援から複雑なデータアノテーションタスクまで、研究でますます使われている。
近年、LLMが人間の心理学をシミュレートできる可能性も示唆されているため、心理学研究の参加者を置き換えることができる。
私たちはこのアプローチに注意する。
我々は、LLMが人間の心理学をシミュレートする仮説に対する概念的議論を提供する。
そこで我々は, 心理学的反応に特化して微調整された最近のCENTAURモデルにおいても, LLMと人間の反応の間に顕著な相違が生じていることを示すことによって, 我々の主張を裏付ける経験的証拠を提示する。
さらに、異なるLCMは、新しいアイテムに対する反応が全く異なることを示し、信頼性の欠如をさらに示している。
我々は、LLMは人間の心理学をシミュレートするものではないと結論し、心理学研究者はLLMを有用だが基本的に信頼性の低いツールとして扱い、新しいアプリケーションごとに人間の反応に対して検証する必要があることを推奨する。
関連論文リスト
- Cognitive phantoms in LLMs through the lens of latent variables [0.3441021278275805]
大規模言語モデル(LLM)はますます現実のアプリケーションに到達し、それらの振る舞いをよりよく理解する必要がある。
近年のLCMに対する心理測定調査では、LLMの人間らしい特徴が報告されており、潜在的に影響する可能性がある。
このアプローチは有効性の問題に悩まされており、これらの特性がLLMに存在し、人間用に設計されたツールで測定可能であることを前提としている。
本研究では,人間と3人のLDMの潜在的性格構造を2つの評価されたパーソナリティアンケートを用いて比較することにより,この問題を考察する。
論文 参考訳(メタデータ) (2024-09-06T12:42:35Z) - Do LLMs exhibit human-like response biases? A case study in survey
design [66.1850490474361]
大規模言語モデル(LLM)が人間の反応バイアスをどの程度反映しているかについて検討する。
アンケート調査では, LLMが人間のような応答バイアスを示すかどうかを評価するためのデータセットとフレームワークを設計した。
9つのモデルに対する総合的な評価は、一般のオープンかつ商用のLCMは、一般的に人間のような振る舞いを反映しないことを示している。
論文 参考訳(メタデータ) (2023-11-07T15:40:43Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。