論文の概要: EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents
- arxiv url: http://arxiv.org/abs/2605.09826v2
- Date: Fri, 15 May 2026 19:33:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 23:51:08.242123
- Title: EnactToM: An Evolving Benchmark for Functional Theory of Mind in Embodied Agents
- Title(参考訳): EnactToM: 身体的エージェントの心機能理論のための進化的ベンチマーク
- Authors: Gurusha Juneja, Dylan Lu, Saaket Agashe, Parth Diwane, Edward Gunn, Jayanth Srinivasa, Gaowen Liu, William Yang Wang, Yali Du, Xin Eric Wang,
- Abstract要約: 既存のベンチマークは、直観的信念を問うことで、主にリテラル・オブ・マインド(ToM)をテストする。
EnactToMは, 3D 家庭で設定された300個のマルチエージェントタスクの進化ベンチマークである。
ハードスプリットでは、7つの評価されたフロンティアモデルすべてが機能的なタスク完了時に0.0%のPass3を獲得し、リテラルな信念プローブでは平均45.0%であった。
- 参考スコア(独自算出の注目度): 75.01735520608075
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Theory of Mind (ToM), the ability to track others epistemic state, makes humans efficient collaborators. AI agents need the same capacity in multi agent settings, yet existing benchmarks mostly test literal ToM by asking direct belief questions. The ability act optimally on implicit beliefs in embodied environments, called functional ToM, remains largely untested. We introduce EnactToM, an evolving benchmark of 300 embodied multi-agent tasks set in a 3D household with partial observability, private information, and constrained communication. Each task is formally verified for solvability and required epistemic depth, and new tasks are generated increase difficulty as models improve. On the hard split, all seven evaluated frontier models score 0.0% Pass^3 on functional task completion, while averaging 45.0% on literal belief probes. Manual analysis traces 93% of sampled failures to epistemic coordination breakdowns such as withheld information, ignored partner constraints, and misallocated messages, providing a concrete target for future work.
- Abstract(参考訳): 心の理論(Theory of Mind、ToM)は、他者のてんかんの状態を追跡できる能力であり、人間の効率的な協力者を生み出す。
AIエージェントは、マルチエージェント設定で同じキャパシティを必要とするが、既存のベンチマークは主に、直接的な信念に関する質問によって、リテラルToMをテストする。
機能的ToMと呼ばれる環境における暗黙の信念に最適に作用する能力は、まだほとんど証明されていない。
EnactToMは, 部分観測性, プライベート情報, 制約通信性を備えた3次元家庭で設定された300個のマルチエージェントタスクの進化ベンチマークである。
各タスクは、可溶性と必要なてんかん深度に対して正式に検証され、モデルの改善に伴い、新しいタスクが生成されることにより困難が増大する。
ハードスプリットでは、7つの評価されたフロンティアモデルすべてが機能的タスク完了時に0.0%のPass^3を獲得し、リテラル信念プローブでは平均45.0%であった。
手動による分析では、サンプル失敗の93%が、保持されていない情報、無視されたパートナーの制約、不正なメッセージといった、てんかんの調整のブレークダウンに遡り、将来の作業の具体的なターゲットを提供する。
関連論文リスト
- SpaceMind: A Modular and Self-Evolving Embodied Vision-Language Agent Framework for Autonomous On-orbit Servicing [1.614712872796152]
SpaceMindは、知識、ツール、推論を3次元に分解する自己進化型視覚言語モデルである。
われわれはSpaceMindを、5つの衛星、3つのタスクタイプ、2つの環境にまたがる192のクローズドループで検証する。
自己進化研究は、エージェントが失敗したエピソードから6つのグループのうち4つの失敗から回復することを示している。
論文 参考訳(メタデータ) (2026-04-15T20:27:57Z) - Agentic-MME: What Agentic Capability Really Brings to Multimodal Intelligence? [35.30497528897595]
Agentic-MMEはマルチモーダルエージェント能力のプロセス検証ベンチマークである。
6つのドメインにまたがる418の現実世界タスクと3つの困難レベルを含んでいる。
2,000以上のステップワイズなチェックポイントがあり、1タスクあたり平均10時間以上の手動アノテーションがある。
論文 参考訳(メタデータ) (2026-04-03T13:02:01Z) - Automatic Cognitive Task Generation for In-Situ Evaluation of Embodied Agents [43.01384379901339]
本研究では,人間の認知に触発された未確認環境に対する動的タスク生成手法を提案する。
インタラクションの段階では、エージェントは環境と積極的に対話し、タスクの実行と生成の間のループを作成する。
10シーンにわたる実験では、TAAは2サイクルで87,876のタスクを自動生成している。
論文 参考訳(メタデータ) (2026-02-05T03:07:00Z) - Terminal-Bench: Benchmarking Agents on Hard, Realistic Tasks in Command Line Interfaces [126.23612941699565]
Terminal-Bench 2.0は、現実世界の問題に触発されたコンピュータ端末環境における89のタスクからなるベンチマークである。
ベンチマークでは、フロンティアモデルとエージェントのスコアが65%未満であることが示されています。
将来的にはhttps://www.tbench.ai/で開発者や研究者を支援するために、データセットと評価ハーネスを公開しています。
論文 参考訳(メタデータ) (2026-01-17T01:29:30Z) - Towards a Science of Scaling Agent Systems [79.64446272302287]
エージェント評価の定義を定式化し,エージェント量,コーディネーション構造,モデル,タスク特性の相互作用として,スケーリング法則を特徴付ける。
協調指標を用いて予測モデルを導出し,R2=0をクロスバリデーションし,未知のタスク領域の予測を可能にする。
ツールコーディネーショントレードオフ: 固定的な計算予算の下では, ツールヘビータスクはマルチエージェントのオーバーヘッドから不均衡に悩まされ, 2) 能力飽和: 調整が減少または負のリターンを, 単一エージェントのベースラインが45%を超えると達成できる。
論文 参考訳(メタデータ) (2025-12-09T06:52:21Z) - Benchmarking Egocentric Multimodal Goal Inference for Assistive Wearable Agents [12.083458582842384]
この研究は、視覚言語モデル(VLM)を用いてこの問題の解決の進捗を計測する強力なベンチマークであるWAGIBenchの作成に焦点を当てている。
3,477の録音から348人の参加者から29時間のマルチモーダルデータを収集し,視覚的,音声的,デジタル的,テクスチャ的観察を伴い,地道的な目標を掲げた。
本研究は, 人体性能がモデル性能を上回り, 93%のマルチチョイス精度を達成し, 最高性能VLMの84%と比較した。
論文 参考訳(メタデータ) (2025-10-25T21:54:01Z) - Holistic Agent Leaderboard: The Missing Infrastructure for AI Agent Evaluation [87.47155146067962]
数百のタスクで並列評価をオーケストレーションする,標準化された評価ハーネスを提供する。
モデル、足場、ベンチマークにまたがる3次元解析を行う。
私たちの分析では、ほとんどのランで精度を低下させる高い推論努力など、驚くべき洞察が示されています。
論文 参考訳(メタデータ) (2025-10-13T22:22:28Z) - OmniEAR: Benchmarking Agent Reasoning in Embodied Tasks [52.87238755666243]
OmniEARは,言語モデルが身体的相互作用やツールの使用,マルチエージェントの協調にどう影響するかを評価するためのフレームワークである。
我々は、家庭と工業領域にまたがる1500のシナリオにおける連続的な物理的特性と複雑な空間的関係をモデル化する。
我々の体系的な評価は、モデルが制約から推論しなければならない場合、厳しい性能劣化を示す。
論文 参考訳(メタデータ) (2025-08-07T17:54:15Z) - Visual Document Understanding and Question Answering: A Multi-Agent Collaboration Framework with Test-Time Scaling [83.78874399606379]
テスト時間スケーリングを備えたマルチエージェント協調フレームワークであるMACTを提案する。
4つの異なる小規模エージェントから構成され、明確に定義された役割と効果的なコラボレーションがある。
一般および数学的タスクの能力を犠牲にすることなく、より小さなパラメータスケールで優れた性能を示す。
論文 参考訳(メタデータ) (2025-08-05T12:52:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。