論文の概要: GPT-4o Lacks Core Features of Theory of Mind
- arxiv url: http://arxiv.org/abs/2602.12150v1
- Date: Thu, 12 Feb 2026 16:33:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.936598
- Title: GPT-4o Lacks Core Features of Theory of Mind
- Title(参考訳): GPT-4oは心の理論の中心的特徴を欠いている
- Authors: John Muchovej, Amanda Royka, Shane Lee, Julian Jara-Ettinger,
- Abstract要約: ToMの認知的な定義を用いて、新しい評価フレームワークを開発し、テストする。
LLMは単純なToMパラダイムで人間の判断を近似することに成功したが、論理的に等価なタスクでは失敗する。
- 参考スコア(独自算出の注目度): 0.09320657506524145
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Do Large Language Models (LLMs) possess a Theory of Mind (ToM)? Research into this question has focused on evaluating LLMs against benchmarks and found success across a range of social tasks. However, these evaluations do not test for the actual representations posited by ToM: namely, a causal model of mental states and behavior. Here, we use a cognitively-grounded definition of ToM to develop and test a new evaluation framework. Specifically, our approach probes whether LLMs have a coherent, domain-general, and consistent model of how mental states cause behavior -- regardless of whether that model matches a human-like ToM. We find that even though LLMs succeed in approximating human judgments in a simple ToM paradigm, they fail at a logically equivalent task and exhibit low consistency between their action predictions and corresponding mental state inferences. As such, these findings suggest that the social proficiency exhibited by LLMs is not the result of an domain-general or consistent ToM.
- Abstract(参考訳): 大言語モデル(LLM)は心の理論(ToM)を持っているか?
この問題に対する研究は、LLMをベンチマークに対して評価することに集中し、様々な社会的タスクで成功を見出した。
しかし、これらの評価は、ToMが提示する実際の表現、すなわち精神状態と行動の因果モデルについてテストしていない。
ここでは,ToMの認知的定義を用いて,新しい評価フレームワークの開発とテストを行う。
具体的には、我々のアプローチは、LLMが人間に似たToMと一致するかどうかに関わらず、精神状態がどのように行動を引き起こすかという一貫性のある、ドメイン・ジェネラルで一貫したモデルを持っているかどうかを調査します。
LLMは単純なToMパラダイムで人間の判断を近似することに成功しているが、論理的に等価なタスクで失敗し、行動予測と対応する精神状態推定との整合性が低いことが判明した。
以上より, LLMが示す社会的熟練度は, ドメイン・ジェネラルないし一貫性のあるToMの結果ではないことが示唆された。
関連論文リスト
- Re-evaluating Theory of Mind evaluation in large language models [3.262532929657758]
認知科学からインスピレーションを得て,大規模言語モデルにおけるToM評価の状況を再評価する。
LLMがToMを持つかどうかについての意見の相違の主な理由は、モデルが人間の行動にマッチするかどうかの明確さの欠如である。
ToMと実用的コミュニケーションの関係など,今後の研究の方向性について論じる。
論文 参考訳(メタデータ) (2025-02-28T14:36:57Z) - Perceptions to Beliefs: Exploring Precursory Inferences for Theory of Mind in Large Language Models [51.91448005607405]
ToMi と FANToM に文字認識を付加することにより,ヒト ToM 前駆体の評価を行った。
本稿では,LLMの強い知覚推定能力を利用した新しいToM手法であるPercepToMについて述べる。
論文 参考訳(メタデータ) (2024-07-08T14:58:29Z) - ToMBench: Benchmarking Theory of Mind in Large Language Models [41.565202027904476]
ToMは、自分自身や他人に精神状態を知覚し、解釈する認知能力である。
既存のToM評価は、制約されたスコープ、主観的判断、意図しない汚染といった課題によって妨げられる。
ToMBenchには3つの重要な特徴がある: 社会的認知における8つのタスクと31の能力を含む体系的評価フレームワーク、自動的かつ偏りのない評価をサポートする複数選択質問フォーマット、データ漏洩を厳密に回避するためのビルト・トゥ・スクラッチバイリンガルインベントリ。
論文 参考訳(メタデータ) (2024-02-23T02:05:46Z) - FANToM: A Benchmark for Stress-testing Machine Theory of Mind in
Interactions [94.61530480991627]
現在、マインド評価の理論は、本質的に相互作用性に欠ける受動的物語を用いたテストモデルに焦点を当てている。
本稿では,情報非対称な会話文脈におけるToMのストレステストを目的とした新しいベンチマークであるFANToMを紹介する。
論文 参考訳(メタデータ) (2023-10-24T00:24:11Z) - Understanding Social Reasoning in Language Models with Language Models [34.068368860882586]
本稿では,因果テンプレートを投入することにより,Large Language Models (LLM) による評価を生成する新しいフレームワークを提案する。
LLMのための新しいソーシャル推論ベンチマーク(BigToM)を作成し、25のコントロールと5000のモデル記述評価からなる。
ヒトの被験者は、これまでのクラウドソースによる評価よりもベンチマークの質を高く評価し、専門家による評価に匹敵することがわかった。
論文 参考訳(メタデータ) (2023-06-21T16:42:15Z) - Clever Hans or Neural Theory of Mind? Stress Testing Social Reasoning in
Large Language Models [82.50173296858377]
多くの逸話例は、ChatGPTやGPT-4のような新しい大規模言語モデル(LLM)が、N-ToM(Neural Theory-of-Mind)を示すことを示唆するために使用された。
我々は,LLMsのN-ToMの範囲を6つのタスクに対して広範囲に評価することにより検討し,LLMsが特定のN-ToM能力を示す一方で,この挙動は堅牢性には程遠いことを見出した。
論文 参考訳(メタデータ) (2023-05-24T06:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。