論文の概要: Doing Things with Words: Rethinking Theory of Mind Simulation in Large Language Models
- arxiv url: http://arxiv.org/abs/2510.13395v1
- Date: Wed, 15 Oct 2025 10:48:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-16 20:13:28.626968
- Title: Doing Things with Words: Rethinking Theory of Mind Simulation in Large Language Models
- Title(参考訳): 言葉で物事を行う:大規模言語モデルにおける心シミュレーションの理論の再考
- Authors: Agnese Lombardi, Alessandro Lenci,
- Abstract要約: 本研究では,GABM(Generative Agent-Based Model)コンコーディアが実世界のシミュレーション環境において,効果的に心の理論(ToM)をモデル化できるかどうかを考察する。
我々は,このフレームワークがToM能力のシミュレートに成功しているかどうか,ソーシャルコンテキストから真の推論を行うことで,GPT-4がタスクを遂行できるかどうかを評価する。
- 参考スコア(独自算出の注目度): 48.815314312823006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Language is fundamental to human cooperation, facilitating not only the exchange of information but also the coordination of actions through shared interpretations of situational contexts. This study explores whether the Generative Agent-Based Model (GABM) Concordia can effectively model Theory of Mind (ToM) within simulated real-world environments. Specifically, we assess whether this framework successfully simulates ToM abilities and whether GPT-4 can perform tasks by making genuine inferences from social context, rather than relying on linguistic memorization. Our findings reveal a critical limitation: GPT-4 frequently fails to select actions based on belief attribution, suggesting that apparent ToM-like abilities observed in previous studies may stem from shallow statistical associations rather than true reasoning. Additionally, the model struggles to generate coherent causal effects from agent actions, exposing difficulties in processing complex social interactions. These results challenge current statements about emergent ToM-like capabilities in LLMs and highlight the need for more rigorous, action-based evaluation frameworks.
- Abstract(参考訳): 言語は人間の協力に基本的であり、情報交換だけでなく、状況文脈の共有解釈を通じて行動の協調を促進する。
本研究では,GABM(Generative Agent-Based Model)コンコーディアが実世界のシミュレーション環境において,効果的に心の理論(ToM)をモデル化できるかどうかを考察する。
具体的には,このフレームワークがToM能力のシミュレートに成功しているか,GPT-4が言語記憶に頼るのではなく,社会的文脈から真の推論を行うことでタスクを遂行できるかを評価する。
GPT-4は信念の帰属に基づく行動の選択にしばしば失敗し, 従来の研究で観察されたToM様の能力は, 真の推論ではなく, 浅い統計的関連性に由来する可能性が示唆された。
さらに、モデルがエージェントアクションからコヒーレントな因果効果を生成するのに苦労し、複雑な社会的相互作用を処理するのに困難を露呈する。
これらの結果は、LLMにおけるToMライクな機能に関する現在のステートメントに挑戦し、より厳格でアクションベースの評価フレームワークの必要性を強調します。
関連論文リスト
- Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind [8.740788873949471]
大規模言語モデル(LLM)は急速に発展し、汎用タスクと専門タスクの両方に広く応用されている。
意図や指示が不正確に伝達されるとき、彼らは依然として、真のユーザニーズを理解し、応答するのに苦労しています。
論文 参考訳(メタデータ) (2026-02-14T16:01:59Z) - On Emergent Social World Models -- Evidence for Functional Integration of Theory of Mind and Pragmatic Reasoning in Language Models [4.5373666852176715]
本稿では、LMが一般心の理論(ToM)と言語固有の実践的推論のための共有計算機構を採用できるかどうかを検討する。
ToM能力の7つのサブカテゴリにまたがるLMの性能を,より大規模なローカライザデータセット上で解析する。
厳密な仮説駆動統計テストの結果は、汎関数積分仮説の示唆的な証拠である。
論文 参考訳(メタデータ) (2026-02-10T21:12:12Z) - Beyond Description: Cognitively Benchmarking Fine-Grained Action for Embodied Agents [52.14392337070763]
CFG-Benchは、きめ細かな動作インテリジェンスを体系的に評価する新しいベンチマークである。
CFG-Benchは、1,368のキュレートされたビデオと19,562の3つのモダリティからなる質問応答ペアからなる。
CFG-Benchに関する包括的評価から,MLLMの先導者は,物理的相互作用の詳細な指示を生成するのに苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2025-11-24T02:02:29Z) - Large Language Models as Theory of Mind Aware Generative Agents with Counterfactual Reflection [31.38516078163367]
ToM-agentは、オープンドメインの会話相互作用において、LLMベースの生成エージェントがToMをシミュレートできるように設計されている。
ToM-Adntは、精神状態に対するエージェントの認識のエミュレーションを促進するため、精神状態からの信頼を解き放つ。
以上の結果から,ToM-agentは,意味的情緒的支援や意思決定に限らず,相手の行動の根底にある要因を把握できることが示唆された。
論文 参考訳(メタデータ) (2025-01-26T00:32:38Z) - Chain-of-Reasoning: Towards Unified Mathematical Reasoning in Large Language Models via a Multi-Paradigm Perspective [98.29190911211053]
CoR(Chain-of-Reasoning)は、複数の推論パラダイムを統合する新しい統合フレームワークである。
CoRは異なる推論パラダイムによって複数の潜在的な答えを生成し、それらをコヒーレントな最終解へと合成する。
実験の結果,CoR-Math-7Bは現在のSOTAモデルより有意に優れていた。
論文 参考訳(メタデータ) (2025-01-19T16:53:26Z) - Failure Modes of LLMs for Causal Reasoning on Narratives [51.19592551510628]
世界の知識と論理的推論の相互作用について検討する。
最先端の大規模言語モデル(LLM)は、しばしば表面的な一般化に依存している。
タスクの単純な再構成により、より堅牢な推論行動が引き起こされることを示す。
論文 参考訳(メタデータ) (2024-10-31T12:48:58Z) - Does Reasoning Emerge? Examining the Probabilities of Causation in Large Language Models [6.922021128239465]
AIの最近の進歩は、大規模言語モデル(LLM)の能力によって推進されている。
本稿では,LLMが実世界の推論機構をいかに効果的に再現できるかを評価することを目的とした,理論的かつ実用的なフレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-15T15:19:11Z) - Shall We Team Up: Exploring Spontaneous Cooperation of Competing LLM Agents [18.961470450132637]
本稿では、エージェントが文脈に深く関与し、明示的な指示なしに適応的な決定を行う自然現象の重要性を強調する。
我々は,3つの競争シナリオにまたがる自発的な協力を探究し,協力の段階的出現をシミュレートした。
論文 参考訳(メタデータ) (2024-02-19T18:00:53Z) - MR-GSM8K: A Meta-Reasoning Benchmark for Large Language Model Evaluation [60.65820977963331]
大規模言語モデル(LLM)のための新しい評価パラダイムを導入する。
このパラダイムは、しばしば推論プロセスを無視する結果指向の評価から、より包括的な評価へと重点を移す。
GSM8Kデータセットにこのパラダイムを適用し,MR-GSM8Kベンチマークを開発した。
論文 参考訳(メタデータ) (2023-12-28T15:49:43Z) - Exchange-of-Thought: Enhancing Large Language Model Capabilities through
Cross-Model Communication [76.04373033082948]
大規模言語モデル(LLM)は、最近、Chain-of-Thoughtテクニックによる複雑な推論タスクにおいて大きな進歩を遂げました。
本稿では,問題解決時のクロスモデル通信を可能にする新しいフレームワークであるExchange-of-Thought (EoT)を提案する。
論文 参考訳(メタデータ) (2023-12-04T11:53:56Z) - DiPlomat: A Dialogue Dataset for Situated Pragmatic Reasoning [89.92601337474954]
プラグマティック推論は、実生活における会話でしばしば起こる暗黙の意味を解読する上で重要な役割を担っている。
そこで我々は,現実的な推論と会話理解の場所に関するマシンの能力のベンチマークを目的とした,新しい挑戦であるDiPlomatを紹介した。
論文 参考訳(メタデータ) (2023-06-15T10:41:23Z) - The Machine Psychology of Cooperation: Can GPT models operationalise prompts for altruism, cooperation, competitiveness and selfishness in economic games? [0.0]
GPT-3.5大言語モデル(LLM)を用いて,協調的,競争的,利他的,利己的行動の自然言語記述を操作可能とした。
被験者と実験心理学研究で用いられるのと同様のプロトコルを用いて,課題環境を記述するためのプロンプトを用いた。
この結果から,LLM が様々な協調姿勢の自然言語記述を適切な作業行動の記述にある程度翻訳できることが示唆された。
論文 参考訳(メタデータ) (2023-05-13T17:23:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。