論文の概要: Theory of Mind in Action: The Instruction Inference Task
- arxiv url: http://arxiv.org/abs/2507.02935v1
- Date: Thu, 26 Jun 2025 20:44:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-13 12:05:57.537833
- Title: Theory of Mind in Action: The Instruction Inference Task
- Title(参考訳): 行動における心の理論 : 指示推論課題
- Authors: Fardin Saad, Pradeep K. Murukannaiah, Munindar P. Singh,
- Abstract要約: ToM(The Theory of Mind)は、エージェントが他のエージェントの精神状態を推測する能力のこと。
我々は,LLMをベースとしたエージェントであるTomcatについて,主の指示を解釈し,応答するToM推論を示すように設計された。
被験者52名を対象に,TomcatのCP変種と同じ情報を提供する実験を行った。
- 参考スコア(独自算出の注目度): 12.92528740921513
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Theory of Mind (ToM) refers to an agent's capacity to infer the mental states of other agents. ToM is essential for effective collaboration. To assess ToM in a dynamic, goal-oriented, and collaborative environment, we introduce a novel task, Instruction Inference, in which an agent assists a principal in reaching a goal by interpreting indirect or ambiguous instructions. We present Tomcat, an LLM-based agent, designed to exhibit ToM reasoning in interpreting and responding to the principal's instructions. We implement two variants of Tomcat. One, dubbed Fs-CoT, is based on a small number of examples (i.e., few-shot or Fs) demonstrating the requisite structured reasoning (i.e., chain-of-thought or CoT). One, dubbed CP, relies on commonsense knowledge and information about the problem (i.e., commonsense prompt or CP). We realized both variants of Tomcat on three leading large language models (LLMs), namely, GPT-4o, DeepSeek-R1, and Gemma-3-27B. To evaluate the effectiveness of Tomcat, we conducted a study with 52 human participants in which we provided participants with the same information as the CP variant of Tomcat. We computed intent accuracy, action optimality, and planning optimality to measure the ToM capabilities of Tomcat and our study participants. We found that Tomcat with Fs-CoT, particularly with GPT-4o and DeepSeek-R1, achieves performance comparable to the human participants, underscoring its ToM potential for human-AI collaboration.
- Abstract(参考訳): ToM(The Theory of Mind)は、エージェントが他のエージェントの精神状態を推測する能力のこと。
ToMは効果的なコラボレーションに不可欠です。
ToMを動的で目標指向で協調的な環境で評価するために、エージェントが間接的または曖昧な指示を解釈してゴールに達するのを助ける新しいタスク、インストラクション推論を導入する。
我々は,LLMをベースとしたエージェントであるTomcatについて,主の指示を解釈し,応答するToM推論を示すように設計された。
私たちはTomcatの2つの変種を実装します。
1つはFs-CoTと呼ばれ、必要な構造的推論(すなわちチェーン・オブ・ソートまたはCoT)を示す少数の例(例:少数ショットまたはFs)に基づいている。
CPと呼ばれるものは、コモンセンスの知識と問題に関する情報(コモンセンスのプロンプトまたはCP)に依存している。
我々は,GPT-4o,DeepSeek-R1,Gemma-3-27Bの3つの主要な大規模言語モデル(LLM)上でTomcatの2つの変種を実現した。
Tomcatの有効性を評価するため,52名の被験者を対象に実験を行い,被験者にTomcatのCP変種と同じ情報を提供した。
我々は、Tomcatと研究参加者のToM能力を測定するために、意図の精度、行動最適性、計画最適性を計算した。
We found that Tomcat with Fs-CoT, especially with GPT-4o and DeepSeek-R1, achieve a performance than the human participants, underscoring its potential for human-AI collaboration。
関連論文リスト
- Theory of Mind Using Active Inference: A Framework for Multi-Agent Cooperation [4.06613683722116]
能動推論において心の理論(ToM)を実装することで,マルチエージェント協調への新たなアプローチを提案する。
ToMは、エージェントが自分の行動を計画しながら他人の信念を判断することを可能にする。
我々は、複雑な推論木に基づく計画アルゴリズムを拡張して、共同政策空間を体系的に探索する。
論文 参考訳(メタデータ) (2025-08-01T08:02:35Z) - The Decrypto Benchmark for Multi-Agent Reasoning and Theory of Mind [8.341160422849969]
Decryptoはマルチエージェント推論とToMのためのゲームベースのベンチマークである。
インタラクティブなToM実験を設計するための最初のプラットフォームである。
LLMのゲームプレイ能力は人間より遅れており,簡単な単語埋め込みが可能である。
論文 参考訳(メタデータ) (2025-06-25T17:55:27Z) - Distilling LLM Agent into Small Models with Retrieval and Code Tools [57.61747522001781]
Agent Distillationは、推論能力とタスク解決の振る舞いを大きな言語モデルから小さな言語モデルに移行するためのフレームワークである。
その結果,SLMは0.5B,1.5B,3Bのパラメータで,次世代の1.5B,3B,7Bモデルと競合する性能が得られることがわかった。
論文 参考訳(メタデータ) (2025-05-23T08:20:15Z) - ToMCAT: Theory-of-Mind for Cooperative Agents in Teams via Multiagent Diffusion Policies [2.6490401904186758]
ToMCAT(Theory-of-Mind for Cooperative Agents in Teams)は、ToM条件のトラジェクトリを生成するための新しいフレームワークである。
メタラーニングのメカニズムは、チームメイトの基本となる目標と将来の振る舞いに対してToM推論を実行し、マルチエージェントのデノベーション/拡散モデルと組み合わせます。
論文 参考訳(メタデータ) (2025-02-25T18:31:55Z) - Mind Your Theory: Theory of Mind Goes Deeper Than Reasoning [13.545981051703682]
LLMにおける心の理論(ToM)は近年,研究の中心的対象となっている。
LLMベンチマーク、ToMアドオン、ToM Probing、ToMの公式モデルなど、AIのさまざまなコミュニティにおけるいくつかの作業行を特定します。
認知タスクに使用される動的環境にインスパイアされたToM能力の評価を改善することを提案する。
論文 参考訳(メタデータ) (2024-12-18T09:06:48Z) - AtomThink: A Slow Thinking Framework for Multimodal Mathematical Reasoning [70.95645743670062]
AtomThinkは、長い思考の連鎖(CoT)をステップバイステップで構築するフレームワークであり、複雑な推論を行うためのMLLMを導く。
AtomMATHは、長いCoTの大規模マルチモーダルデータセットであり、数学的タスクの原子能力評価指標である。
AtomThinkはベースラインMLLMの性能を大幅に改善し、MathVistaでは50%、MathVerseでは120%の精度向上を実現している。
論文 参考訳(メタデータ) (2024-11-18T11:54:58Z) - Mutual Theory of Mind in Human-AI Collaboration: An Empirical Study with LLM-driven AI Agents in a Real-time Shared Workspace Task [56.92961847155029]
心の理論(ToM)は、他人を理解する上で重要な能力として、人間の協調とコミュニケーションに大きな影響を及ぼす。
Mutual Theory of Mind (MToM) は、ToM能力を持つAIエージェントが人間と協力するときに発生する。
エージェントのToM能力はチームのパフォーマンスに大きな影響を与えず,エージェントの人間的理解を高めていることがわかった。
論文 参考訳(メタデータ) (2024-09-13T13:19:48Z) - Pragmatic Instruction Following and Goal Assistance via Cooperative
Language-Guided Inverse Planning [52.91457780361305]
本稿では,協調型言語誘導逆計画探索(CLIPS)を紹介する。
我々のエージェントは、協力的なプランナーとして人間をモデル化し、アシスタントに共同計画を伝える。
2つの協調計画領域(ドア,キー&ジェム,バーチャルホーム)におけるこれらの機能の評価
論文 参考訳(メタデータ) (2024-02-27T23:06:53Z) - Ladder-of-Thought: Using Knowledge as Steps to Elevate Stance Detection [73.31406286956535]
姿勢検出タスクにLadder-of-Thought(LoT)を導入する。
LoTは、小さなLMに高品質な外部知識を同化させ、生成した中間的論理を精査するように指示する。
実験では, 姿勢検出タスクにおけるCoTのGPT-3.5よりも16%改善し, 10%向上した。
論文 参考訳(メタデータ) (2023-08-31T14:31:48Z) - Multi-party Goal Tracking with LLMs: Comparing Pre-training,
Fine-tuning, and Prompt Engineering [3.5838912422280456]
本稿では,現在のLarge Language Models (LLMs) がタスク指向多人数会話 (MPCs) をどの程度捉えることができるかを評価する。
当院では患者29名,同伴者1名,社会ロボット1名にMPCを記録・転写した。
人々は目標を共有し、お互いの目標に答え、他の人の目標をMPCで提供します。
論文 参考訳(メタデータ) (2023-08-29T11:40:03Z) - Emergence of Theory of Mind Collaboration in Multiagent Systems [65.97255691640561]
ToMとエージェント間の効果的な協調を開発するための適応的学習アルゴリズムを提案する。
アルゴリズムはToMをモデル化せずに従来の分散実行アルゴリズムを全て上回る2つのゲームで評価する。
論文 参考訳(メタデータ) (2021-09-30T23:28:00Z) - MPC-BERT: A Pre-Trained Language Model for Multi-Party Conversation
Understanding [58.95156916558384]
MPC理解のための事前学習モデルであるMPC-BERTを提案する。
我々は,MPC-BERTを,話者認識,話者識別,応答選択を含む3つの下流タスクで評価した。
論文 参考訳(メタデータ) (2021-06-03T01:49:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。