論文の概要: Do Large Language Models Have a Planning Theory of Mind? Evidence from MindGames: a Multi-Step Persuasion Task
- arxiv url: http://arxiv.org/abs/2507.16196v1
- Date: Tue, 22 Jul 2025 03:15:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 21:34:13.947608
- Title: Do Large Language Models Have a Planning Theory of Mind? Evidence from MindGames: a Multi-Step Persuasion Task
- Title(参考訳): 大規模言語モデルは心の計画的理論を持っているか? : マルチステップ説得課題としてのMindGamesからの証拠
- Authors: Jared Moore, Ned Cooper, Rasmus Overmark, Beba Cibralic, Nick Haber, Cameron R. Jones,
- Abstract要約: 我々は、MindGames: a novel planning theory of Mind (PToM) taskを提示する。
ヒトはPTOMタスクにおいて,o1-preview(LLM)を著しく上回っていることがわかった。
これらの結果は、人間のような社会的推論と心の理論の間に大きなギャップがあることを示唆している。
- 参考スコア(独自算出の注目度): 1.9998928079358735
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recent evidence suggests Large Language Models (LLMs) display Theory of Mind (ToM) abilities. Most ToM experiments place participants in a spectatorial role, wherein they predict and interpret other agents' behavior. However, human ToM also contributes to dynamically planning action and strategically intervening on others' mental states. We present MindGames: a novel `planning theory of mind' (PToM) task which requires agents to infer an interlocutor's beliefs and desires to persuade them to alter their behavior. Unlike previous evaluations, we explicitly evaluate use cases of ToM. We find that humans significantly outperform o1-preview (an LLM) at our PToM task (11% higher; $p=0.006$). We hypothesize this is because humans have an implicit causal model of other agents (e.g., they know, as our task requires, to ask about people's preferences). In contrast, o1-preview outperforms humans in a baseline condition which requires a similar amount of planning but minimal mental state inferences (e.g., o1-preview is better than humans at planning when already given someone's preferences). These results suggest a significant gap between human-like social reasoning and LLM abilities.
- Abstract(参考訳): 最近の証拠は、Large Language Models (LLM) が精神理論 (ToM) の能力を示すことを示唆している。
多くのToM実験は、参加者が他のエージェントの行動を予測し、解釈するスペクタリアルな役割を担っている。
しかし、人間のToMは動的に行動計画に寄与し、他人の精神状態に戦略的に介入する。
我々は,「心の計画理論(PToM)」という新たな課題を提示し,エージェントが対話者の信念や欲求を推論し,行動を変えるよう説得する。
従来の評価とは違って,ToMのユースケースを明確に評価する。
我々は,PTOMタスクにおいて,O1-preview(LLM)を著しく上回り (11%高,$p=0.006$) した。
これは、人間が他のエージェントの暗黙の因果モデルを持っているためである(例えば、彼らは我々のタスクが要求するように、人々の好みについて尋ねるために知っている)。
対照的に、o1-previewは、同様の計画量を必要とするが、最小限の精神状態推論を必要とするベースライン条件において人間より優れている(例えば、o1-previewは、既に誰かの好みを与えられたときに、計画において人間より優れている)。
これらの結果は、人間のような社会的推論とLLM能力の間に大きなギャップがあることを示唆している。
関連論文リスト
- The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind [8.341160422849969]
Decryptoはマルチエージェント推論とToMのためのゲームベースのベンチマークである。
インタラクティブなToM実験を設計するための最初のプラットフォームである。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
論文 参考訳(メタデータ) (2025-06-25T17:55:27Z) - The Essence of Contextual Understanding in Theory of Mind: A Study on Question Answering with Story Characters [67.61587661660852]
理論・オブ・ミンド(ToM)は、人間が他者の精神状態を理解し解釈することを可能にする。
本稿では,ToMにおける個人的背景に関する包括的文脈理解の重要性を検証する。
本稿では,古典小説の登場人物をベースとした1,035ToM質問からなるCharToMベンチマークを紹介する。
論文 参考訳(メタデータ) (2025-01-03T09:04:45Z) - Position: Theory of Mind Benchmarks are Broken for Large Language Models [41.832853832803046]
我々の論文は、大きな言語モデルが新しいパートナーにどのように適応するかを直接テストできないため、マインドベンチマークの大多数が壊れていると論じている。
この問題は、心の理論が人間の心の理論をテストする方法から圧倒的にインスピレーションを受けているという事実に起因している。
本稿では,精神機能理論の概念を紹介し,その行動に対する合理的な反応に従って,文脈内でエージェントに適応する能力について紹介する。
論文 参考訳(メタデータ) (2024-12-27T16:30:12Z) - SimpleToM: Exposing the Gap between Explicit ToM Inference and Implicit ToM Application in LLMs [72.06808538971487]
大規模言語モデル(LLM)が行動予測に「心の理論」(ToM)を暗黙的に適用できるかどうかを検証する。
ToM推論の異なる程度をテストする3つの質問を含む新しいデータセットSimpleTomを作成します。
私たちの知る限り、SimpleToMは、現実的なシナリオにおけるメンタルステートの知識を必要とする下流の推論を探求する最初のデータセットです。
論文 参考訳(メタデータ) (2024-10-17T15:15:00Z) - Through the Theory of Mind's Eye: Reading Minds with Multimodal Video Large Language Models [52.894048516550065]
ビデオとテキストを用いたマルチモーダルToM推論のためのパイプラインを開発する。
また、ToM質問に応答するキーフレームを検索することで、明示的なToM推論を可能にする。
論文 参考訳(メタデータ) (2024-06-19T18:24:31Z) - Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses [11.121931601655174]
心の理論 (ToM) は、他個人が自身の意図、感情、思考を持っていると認識することを必要とする。
大きな言語モデル(LLM)は要約、質問応答、翻訳といったタスクに優れる。
進歩にもかかわらず、LLMがToM推論を真に理解している範囲は、未解決のシナリオでは不十分である。
論文 参考訳(メタデータ) (2024-06-09T05:57:59Z) - Theory of Mind abilities of Large Language Models in Human-Robot
Interaction : An Illusion? [18.770522926093786]
大規模言語モデルは、様々な自然言語や生成タスクにおいて例外的な生成能力を示している。
高い利害関係とおそらく不可逆的な結果を持つToM能力の特殊応用について検討する。
本研究では,ロボットがLarge Language Model(LLM)を用いてロボットの動作を人間の観察者と同様の方法で評価する,知覚的行動認識の課題に焦点を当てる。
論文 参考訳(メタデータ) (2024-01-10T18:09:36Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - The Neuro-Symbolic Inverse Planning Engine (NIPE): Modeling
Probabilistic Social Inferences from Linguistic Inputs [50.32802502923367]
確率的目標推論領域における言語駆動の過程と社会的推論への影響について検討する。
本稿では,エージェントシナリオの言語入力から目標推定を行うニューロシンボリックモデルを提案する。
我々のモデルは人間の反応パターンと密に一致し、LLM単独の使用よりも人間の判断をより良く予測する。
論文 参考訳(メタデータ) (2023-06-25T19:38:01Z) - Large Language Models Fail on Trivial Alterations to Theory-of-Mind
Tasks [3.3178024597495903]
理論・オブ・ミンドのタスクは成功と失敗の両方を示している。
ToMの原則を維持する小さなバリエーションは、結果を彼らの頭に向ける。
一般論として,直観心理学におけるモデル評価のゼロ仮説は懐疑的であるべきだと論じる。
論文 参考訳(メタデータ) (2023-02-16T16:18:03Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。