論文の概要: Selective Deficits in LLM Mental Self-Modeling in a Behavior-Based Test of Theory of Mind
- arxiv url: http://arxiv.org/abs/2603.26089v1
- Date: Fri, 27 Mar 2026 05:41:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-30 21:49:48.362674
- Title: Selective Deficits in LLM Mental Self-Modeling in a Behavior-Based Test of Theory of Mind
- Title(参考訳): 行動に基づく心の理論テストにおけるLLMメンタルセルフモデリングにおける選択的欠陥
- Authors: Christopher Ackerman,
- Abstract要約: 心の理論は人類の普遍であり、社会世界をナビゲートし、操作することができる。
それは、私たち自身や他人のメンタルモデルを形成する能力によって支えられています。
我々は、被験者が自分自身や他人の精神状態を表現することを要求する実験パラダイムを開発する。
- 参考スコア(独自算出の注目度): 2.538209532048867
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to represent oneself and others as agents with knowledge, intentions, and belief states that guide their behavior - Theory of Mind - is a human universal that enables us to navigate - and manipulate - the social world. It is supported by our ability to form mental models of ourselves and others. Its ubiquity in human affairs entails that LLMs have seen innumerable examples of it in their training data and therefore may have learned to mimic it, but whether they have actually learned causal models that they can deploy in arbitrary settings is unclear. We therefore develop a novel experimental paradigm that requires that subjects form representations of the mental states of themselves and others and act on them strategically rather than merely describe them. We test a wide range of leading open and closed source LLMs released since 2024, as well as human subjects, on this paradigm. We find that 1) LLMs released before mid-2025 fail at all of our tasks, 2) more recent LLMs achieve human-level performance on modeling the cognitive states of others, and 3) even frontier LLMs fail at our self-modeling task - unless afforded a scratchpad in the form of a reasoning trace. We further demonstrate cognitive load effects on other-modeling tasks, offering suggestive evidence that LLMs are using something akin to limited-capacity working memory to hold these mental representations in mind during a single forward pass. Finally, we explore the mechanisms by which reasoning models succeed at the self- and other-modeling tasks, and show that they readily engage in strategic deception.
- Abstract(参考訳): 自己や他者を知識、意図、信念を持つエージェントとして表現する能力は、その行動、すなわち心の理論を導くことであり、社会の世界をナビゲートし、操作することを可能にしている。
それは、私たち自身や他人のメンタルモデルを形成する能力によって支えられています。
人事におけるそのユビキタスさは、LLMがトレーニングデータの中で無数の例を見てきたこと、それゆえにそれを模倣することを学んだ可能性があること、しかし彼らが実際に任意の設定でデプロイできる因果モデルを学んだかどうかは不明である。
そこで我々は、被験者が自分自身や他人の精神状態を表現し、それらを単に記述するのではなく、戦略的に行動することを要求する新しい実験パラダイムを開発する。
我々は,このパラダイムを用いて,2024年以降に公開されたオープンでクローズドなLLMと,ヒトの主題を幅広くテストする。
私たちはそれを見つける。
1 LLMは2025年半ばまでにリリースされ、全てのタスクで失敗します。
2)近年のLCMは,他者の認知状態をモデル化する上で,人間レベルのパフォーマンスを実現している。
3)フロンティアLSMでさえ、推論トレースの形でスクラッチパッドがなければ、自己モデリングタスクで失敗します。
我々はさらに、他のモデリングタスクに対する認知的負荷効果を実証し、LLMが1回のフォワードパス中にこれらのメンタル表現を念頭に置いて、制限容量のワーキングメモリに似たものを使っていることを示唆する証拠を提供する。
最後に、推論モデルが自己および他のモデリングタスクで成功するメカニズムについて検討し、それらが戦略的な騙しに容易に関与することを示す。
関連論文リスト
- The Pensieve Paradigm: Stateful Language Models Mastering Their Own Context [48.70817145536136]
StateLMは、自身の状態を管理するための内部推論ループを備えた、新しいファンデーションモデルのクラスである。
動的に自分自身のコンテキストを設計することを学ぶことで、私たちのモデルは固定された窓のアーキテクチャの監獄から解放されます。
論文 参考訳(メタデータ) (2026-02-12T16:00:01Z) - Extreme Self-Preference in Language Models [0.30586855806896035]
4つの広く使われている大言語モデル(LLM)において、大規模な自己参照が発見された。
ワードアソシエーションタスクでは、モデルが圧倒的に肯定的な属性を、競合する企業やCEOの名前と組み合わせている。
私たちは、自己愛は、割り当てられた、真ではない、アイデンティティに一貫して従っていることに気付きました。
この結果は、LLMの行動が自己選好の傾向によって体系的に影響されるかどうかという疑問を提起する。
論文 参考訳(メタデータ) (2025-09-30T16:13:56Z) - Artificial Phantasia: Evidence for Propositional Reasoning-Based Mental Imagery in Large Language Models [0.0]
この研究は、人工システムにおける複雑な認知行動のベンチマークのための新しいアプローチを提供する。
私たちは認知心理学から古典的な精神イメージタスクの新しいアイテムを何十個も作成しました。
その結果,最高のLDMは平均的な人的パフォーマンスよりも有意に優れていた。
論文 参考訳(メタデータ) (2025-09-27T04:36:12Z) - Beyond Prompt-Induced Lies: Investigating LLM Deception on Benign Prompts [79.1081247754018]
大規模言語モデル(LLM)は、推論、計画、意思決定のタスクに広くデプロイされている。
そこで我々は, 接触探索質問(CSQ)に基づく枠組みを提案し, 騙しの可能性を定量化する。
論文 参考訳(メタデータ) (2025-08-08T14:46:35Z) - How Deep is Love in LLMs' Hearts? Exploring Semantic Size in Human-like Cognition [75.11808682808065]
本研究では,大言語モデル (LLM) が意味的サイズを理解する上で類似した傾向を示すかどうかを検討する。
以上の結果から,マルチモーダルトレーニングはLLMにとって人間的な理解を深める上で不可欠であることが示唆された。
最後に,LLMが実世界のWebショッピングシナリオにおいて,より大きなセマンティックサイズを持つ注目の見出しに影響されているかを検討する。
論文 参考訳(メタデータ) (2025-03-01T03:35:56Z) - LLM-driven Imitation of Subrational Behavior : Illusion or Reality? [3.2365468114603937]
既存の作業は、複雑な推論タスクに対処し、人間のコミュニケーションを模倣する大規模言語モデルの能力を強調している。
そこで本研究では,LLMを用いて人工人体を合成し,サブリレーショナル・エージェント・ポリシーを学習する手法を提案する。
我々は,4つの単純なシナリオを通して,サブリレータリティをモデル化するフレームワークの能力について実験的に評価した。
論文 参考訳(メタデータ) (2024-02-13T19:46:39Z) - Emotionally Numb or Empathetic? Evaluating How LLMs Feel Using EmotionBench [83.41621219298489]
心理学からの感情評価理論を用いて,Large Language Models (LLMs) の人為的能力を評価する。
我々は、研究の中心となる8つの感情を引き出すのに有効な400以上の状況を含むデータセットを収集した。
我々は世界中の1200人以上の被験者を対象に人間による評価を行った。
論文 参考訳(メタデータ) (2023-08-07T15:18:30Z) - Deception Abilities Emerged in Large Language Models [0.0]
大規模言語モデル(LLM)は、現在、人間のコミュニケーションと日常の生活を備えた人工知能(AI)システムの最前線にある。
本研究は, GPT-4 などの最先端 LLM にそのような戦略が出現したが, 初期の LLM には存在しなかったことを明らかにする。
我々は、最先端のLLMが他のエージェントの誤った信念を理解し、誘導できることを示す一連の実験を行う。
論文 参考訳(メタデータ) (2023-07-31T09:27:01Z) - Revisiting the Reliability of Psychological Scales on Large Language Models [62.57981196992073]
本研究の目的は,大規模言語モデルにパーソナリティアセスメントを適用することの信頼性を明らかにすることである。
GPT-3.5、GPT-4、Gemini-Pro、LLaMA-3.1などのモデル毎の2,500設定の分析により、様々なLCMがビッグファイブインベントリに応答して一貫性を示すことが明らかになった。
論文 参考訳(メタデータ) (2023-05-31T15:03:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。