Fugu-MT 論文翻訳(概要): MindClaw: Closed-Loop Embodied Mental-State Reasoning for Precision Intervention

論文の概要: MindClaw: Closed-Loop Embodied Mental-State Reasoning for Precision Intervention

arxiv url: http://arxiv.org/abs/2606.01063v1
Date: Sun, 31 May 2026 07:09:37 GMT
ステータス: 翻訳完了
システム内更新日: 2026-06-03 00:57:58.939626
Title: MindClaw: Closed-Loop Embodied Mental-State Reasoning for Precision Intervention
Title（参考訳）: MindClaw: 精密介入のための閉ループ型精神状態推論
Authors: Ruoxuan Zhang, Qiaoqiao Wan, Zhengguang Wang, Chenghao Yu, Hongxia Xie, Jianlong Fu, Wen-Huang Cheng,
Abstract要約: 心の理論 (Theory of Mind, ToM) は、エージェントが他の俳優の信念、目標、意図を推論することを可能にする。我々は、正確な介入を伴う精神状態推論を具体化するフレームワークであるMindClawを紹介する。
参考スコア（独自算出の注目度）: 35.59812908898112
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Theory of Mind (ToM) enables an agent to reason about another actor's beliefs, goals, and intentions, which is essential for human-centered embodied assistance. Existing ToM benchmarks have advanced text and multimodal mental-state recognition, but they mostly evaluate offline question answering or final action prediction. They do not fully test whether an embodied agent can stay connected to a changing environment, update actor-specific beliefs, decide when reasoning is needed, and intervene only when help is useful. Building on MindPower, we extend robot-centric ToM reasoning to a real-time closed-loop setting and introduce MindClaw, a framework for embodied mental-state reasoning with precision intervention. MindClaw connects multi-source inputs, belief memory, an embodied cognitive trigger skill, mental reasoning, and action generation, allowing the agent to output helpful actions at the right time while remaining silent when intervention is unnecessary. Experiments show that direct VLM baselines struggle with task awareness and intervention calibration, while MindClaw achieves the best overall performance, demonstrating the importance of trigger-skill optimization for closed-loop embodied ToM assistance.
Abstract（参考訳）: 心の理論 (Theory of Mind, ToM) は、エージェントが他の俳優の信念、目標、意図を判断することを可能にする。既存のToMベンチマークには高度なテキストとマルチモーダルな精神状態認識があるが、主にオフラインの質問応答や最終的な行動予測を評価している。実施中のエージェントが変化する環境に接続できるかどうかを十分に検証しておらず、アクター固有の信念を更新し、推論が必要かどうかを決定し、ヘルプが有用である場合にのみ介入する。 MindPowerをベースとして、ロボット中心のToM推論をリアルタイムでクローズドループ設定に拡張し、正確な介入を伴うメンタルステート推論を具体化するフレームワークであるMindClawを導入します。 MindClawは、マルチソース入力、信念記憶、具体化された認知的トリガースキル、メンタル推論、アクション生成を結合し、介入が不要な場合にサイレントを維持しながら、エージェントが適切なタイミングで有用なアクションを出力することができる。実験の結果、直接VLMベースラインはタスク認識と介入キャリブレーションに苦しむ一方で、MindClawは、クローズドループを具体化したToMアシストにおいてトリガースキル最適化の重要性を示している。

関連論文リスト

MindZero: Learning Online Mental Reasoning With Zero Annotations [16.77073135362107]
我々は,効果的なオンライン精神推論のための自己指導型強化学習フレームワークであるMindZeroを紹介する。 MindZeroはモデルベースの推論を高速なシングルパス推論に内部化する。我々はMindZeroが精度と効率の両方でモデルベースの手法よりも優れていることを示す。
論文参考訳（メタデータ） (2026-05-29T18:14:52Z)
Beyond Words: Evaluating and Bridging Epistemic Divergence in User-Agent Interaction via Theory of Mind [8.740788873949471]
大規模言語モデル(LLM)は急速に発展し、汎用タスクと専門タスクの両方に広く応用されている。意図や指示が不正確に伝達されるとき、彼らは依然として、真のユーザニーズを理解し、応答するのに苦労しています。
論文参考訳（メタデータ） (2026-02-14T16:01:59Z)
Unveiling the Cognitive Compass: Theory-of-Mind-Guided Multimodal Emotion Reasoning [31.790359663851305]
真の感情知性は、感情が生まれる認知基盤である心の理論(ToM)の明確なモデリングを必要とする。 ToMをベースとした階層型ベンチマークであるHitEmotionを導入する。第2に、精神状態を追跡し、モダクティブな証拠を校正し、忠実な感情的推論を実現するToM誘導推論チェーンを提案する。
論文参考訳（メタデータ） (2026-02-01T02:26:12Z)
MindWatcher: Toward Smarter Multimodal Tool-Integrated Reasoning [55.221850286246]
我々は、インターリーブド思考とマルチモーダル・チェーン・オブ・シークレット(CoT)推論を備えたツール統合推論エージェントであるMindWatcherを紹介する。 MindWatcherは、さまざまなツールの呼び出しと使用の調整を自律的に行うことができる。車、動物、植物を含む8つのカテゴリをカバーする、大規模で高品質な局所画像検索データベースは、堅牢な物体認識モデルを提供する。
論文参考訳（メタデータ） (2025-12-29T12:16:12Z)
MindPower: Enabling Theory-of-Mind Reasoning in VLM-based Embodied Agents [33.85049715664944]
心の理論(りょうせい、英: Theory of Mind)とは、他者の精神状態(信念、欲望、意図など)を推測する能力のこと。現在の視覚言語エンボディエージェントはToMベースの意思決定を欠いている。我々は、知覚、精神的推論、意思決定、行動を統合するロボット中心のフレームワークであるMindPowerを提案する。
論文参考訳（メタデータ） (2025-11-28T10:24:44Z)
From <Answer> to <Think>: Multidimensional Supervision of Reasoning Process for LLM Optimization [62.07990937720985]
DRM(Dimension-level Reward Model)は、大規模言語モデルのための新しい監視フレームワークである。 DRMは3つの基本的、相補的、解釈可能な次元に沿って推論プロセスの品質を評価する。実験の結果、DRMは効果的な監視信号を提供し、LCMの最適化を誘導し、推論能力を向上することが示された。
論文参考訳（メタデータ） (2025-10-13T14:29:15Z)
Mind-Paced Speaking: A Dual-Brain Approach to Real-Time Reasoning in Spoken Language Models [81.9612057950385]
我々は、高忠実でリアルタイムな推論を可能にする脳に触発されたフレームワークであるMind-Paced Talk(MPS)を紹介する。 MPSは「フォーミュレーション・ブレイン(Formulation Brain)」をハイレベルな推論に使用し、流れのある音声生成のために別個の「アーティキュレーション・ブレイン(Articulation Brain)」を誘導する。
論文参考訳（メタデータ） (2025-10-10T17:50:59Z)
AGENT: A Benchmark for Core Psychological Reasoning [60.35621718321559]
直観心理学は、観察可能な行動を駆動する隠された精神変数を推論する能力です。他のエージェントを推論する機械エージェントに対する近年の関心にもかかわらず、そのようなエージェントが人間の推論を駆動するコア心理学の原則を学ぶか保持するかは明らかではない。本稿では,プロシージャが生成する3dアニメーション,エージェントを4つのシナリオで構成したベンチマークを提案する。
論文参考訳（メタデータ） (2021-02-24T14:58:23Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。