論文の概要: MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents
- arxiv url: http://arxiv.org/abs/2511.23055v1
- Date: Fri, 28 Nov 2025 10:24:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-01 19:47:55.857822
- Title: MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents
- Title(参考訳): MindPower: VLMをベースとしたエボダイドエージェントにおけるMind-of-Mind Reasoning
- Authors: Ruoxuan Zhang, Qiyun Zheng, Zhiyu Zhou, Ziqi Liao, Siyu Wu, Jian-Yu Jiang-Lin, Bin Wen, Hongxia Xie, Jianlong Fu, Wen-Huang Cheng,
- Abstract要約: 心の理論(りょうせい、英: Theory of Mind)とは、他者の精神状態(信念、欲望、意図など)を推測する能力のこと。
現在の視覚言語エンボディエージェントはToMベースの意思決定を欠いている。
我々は、知覚、精神的推論、意思決定、行動を統合するロボット中心のフレームワークであるMindPowerを提案する。
- 参考スコア(独自算出の注目度): 33.85049715664944
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM) refers to the ability to infer others' mental states, such as beliefs, desires, and intentions. Current vision-language embodied agents lack ToM-based decision-making, and existing benchmarks focus solely on human mental states while ignoring the agent's own perspective, hindering coherent decision and action generation. To address this, we propose MindPower, a Robot-Centric framework integrating Perception, Mental Reasoning, Decision Making and Action. Given multimodal inputs, MindPower first perceives the environment and human states, then performs ToM Reasoning to model both self and others, and finally generates decisions and actions guided by inferred mental states. Furthermore, we introduce Mind-Reward, a novel optimization objective that encourages VLMs to produce consistent ToM Reasoning and behavior. Our model outperforms GPT-4o by 12.77% in decision making and 12.49% in action generation.
- Abstract(参考訳): 心の理論(りょうせい、英: Theory of Mind)とは、他者の精神状態(信念、欲望、意図など)を推測する能力のこと。
現在の視覚言語を具現化したエージェントはToMに基づく意思決定を欠いているが、既存のベンチマークはエージェント自身の視点を無視しながら人間の精神状態のみに焦点を当てており、一貫性のある決定と行動生成を妨げる。
そこで我々は,知覚,精神的推論,意思決定,行動を統合したロボット中心型フレームワークであるMindPowerを提案する。
マルチモーダル入力が与えられた後、MindPowerはまず環境と人間の状態を認識し、それからToM推論を行い、自己と他者をモデル化し、最終的に推論された精神状態によって導かれる決定と行動を生成する。
さらに、VLMが一貫したToM推論と振る舞いを生成することを奨励する新しい最適化目標であるMind-Rewardを紹介する。
我々のモデルはGPT-4oを12.77%、行動生成12.49%で上回っている。
関連論文リスト
- RecToM: A Benchmark for Evaluating Machine Theory of Mind in LLM-based Conversational Recommender Systems [23.229692182223157]
本稿では,大規模言語モデル評価のための新しいベンチマークであるRecToMを提案する。
RecToMは認知推論と行動予測という2つの相補的な側面に焦点を当てている。
最先端のLCMに関する大規模な実験は、RecToMが大きな課題となることを示した。
論文 参考訳(メタデータ) (2025-11-27T09:58:29Z) - Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models [81.9612057950385]
我々は、高忠実でリアルタイムな推論を可能にする脳に触発されたフレームワークであるMind-Paced Talk(MPS)を紹介する。
MPSは「フォーミュレーション・ブレイン(Formulation Brain)」をハイレベルな推論に使用し、流れのある音声生成のために別個の「アーティキュレーション・ブレイン(Articulation Brain)」を誘導する。
論文 参考訳(メタデータ) (2025-10-10T17:50:59Z) - PersuasiveToM: A Benchmark for Evaluating Machine Theory of Mind in Persuasive Dialogues [27.231701486961917]
本稿では,大規模言語モデルのマインド能力理論を評価するためのベンチマークであるPersuasiveToMを提案する。
フレームワークには、ToM ReasoningとToM Applicationという2つのコアタスクが含まれています。
PersuasiveToMの目的は、複雑な心理的活動に焦点を当てたLSMのToM推論能力を効果的に評価することである。
論文 参考訳(メタデータ) (2025-02-28T13:04:04Z) - AutoToM: Scaling Model-based Mental Inference via Automated Agent Modeling [8.034600950988535]
AutoToMは、スケーラブルで堅牢で解釈可能なメンタル推論のための自動エージェントモデリング手法である。
我々は,AutoToMが人間のような信頼度を推定し,具体的意思決定のためのオンライン精神推論を可能にすることを示す。
論文 参考訳(メタデータ) (2025-02-21T18:57:52Z) - Think Twice: Perspective-Taking Improves Large Language Models'
Theory-of-Mind Capabilities [63.90227161974381]
SimToMは、シミュレーション理論の視点取りの概念にインスパイアされた、新しいプロンプトフレームワークである。
我々のアプローチは、追加のトレーニングや最小限のプロンプトチューニングを必要とせず、既存の手法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2023-11-16T22:49:27Z) - HI-TOM: A Benchmark for Evaluating Higher-Order Theory of Mind Reasoning
in Large Language Models [31.831042765744204]
心の理論(りょうがく、英: Theory of Mind、ToM)とは、自己と他者の精神状態について考える能力である。
本稿では,高次マインド理論のベンチマークであるHI-TOMを紹介する。
各種Large Language Models (LLM) を用いた実験により,高次ToMタスクの性能低下が示唆された。
論文 参考訳(メタデータ) (2023-10-25T16:41:15Z) - Neural Theory-of-Mind? On the Limits of Social Intelligence in Large LMs [77.88043871260466]
私たちは、今日の最大の言語モデルのひとつに、このようなソーシャルインテリジェンスを最初から欠いていることを示しています。
我々は、人中心のNLPアプローチは、マインドの神経理論に対してより効果的であるかもしれないと結論づける。
論文 参考訳(メタデータ) (2022-10-24T14:58:58Z) - AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。
他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。
本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文 参考訳(メタデータ) (2021-02-24T14:58:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。