論文の概要: ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop
- arxiv url: http://arxiv.org/abs/2605.18746v1
- Date: Mon, 18 May 2026 17:59:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:50.228883
- Title: ESI-Bench: Towards Embodied Spatial Intelligence that Closes the Perception-Action Loop
- Title(参考訳): ESI-Bench:知覚-行動ループを閉じる身体的空間情報を目指して
- Authors: Yining Hong, Jiageng Liu, Han Yin, Manling Li, Leonidas Guibas, Li Fei-Fei, Jiajun Wu, Yejin Choi,
- Abstract要約: 我々は,OmniGibson上に構築された10のタスクカテゴリと29のサブカテゴリにまたがる空間知能の具体化ベンチマークを開発した。
我々は最先端のMLLMの実験を行い、活発な探索が受動的に優れていることを発見した。
矛盾した視点を求め、信念を改定する人間とは異なり、モデルは証拠の品質に関わらず、高い信頼をもって早々に行動する。
- 参考スコア(独自算出の注目度): 55.468404995694975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial intelligence unfolds through a perception-action loop: agents act to acquire observations, and reason about how observations vary as a function of action. Rather than passively processing what is seen, they actively uncover what is unseen - occluded structure, dynamics, containment, and functionality that cannot be resolved from passive sensing alone. We move beyond prior formulations of spatial intelligence that assume oracle observations by recasting the observer as an actor. We introduce ESI-BENCH, a comprehensive benchmark for embodied spatial intelligence spanning 10 task categories and 29 subcategories built on OmniGibson, grounded in Spelke's core knowledge systems. Agents must decide what abilities to deploy - perception, locomotion, and manipulation - and how to sequence them to actively accumulate task-relevant evidence. We conduct extensive experiments on state-of-the-art MLLMs and find that active exploration substantially outperforms passive counterparts, with agents spontaneously discovering emergent spatial strategies without explicit instructions, while random multi-view often adds noise rather than signal despite consuming far more images. Most failures stem not from weak perception but from action blindness: poor action choices lead to poor observations, which in turn drive cascading errors. While explicit 3D grounding stabilizes reasoning on depth-sensitive tasks, imperfect 3D representation proves more harmful than 2D baselines by distorting spatial relations. Human studies further reveal that unlike humans who seek falsifying viewpoints and revise beliefs under contradiction, models commit prematurely with high confidence regardless of evidence quality, exposing a metacognitive gap that neither better perception nor more embodied interaction alone can close.
- Abstract(参考訳): エージェントは観察を得るために行動し、アクションの関数として観察がどのように変化するかについての推論を行う。
目に見えないものを受動的に処理するのではなく、排除された構造、動的構造、封じ込め、そして受動的センシングだけでは解決できない機能を積極的に発見する。
我々は、観察者をアクターとして再キャストすることで、オラクルの観察を仮定する空間知能の以前の定式化を超えて移動する。
我々は,10のタスクカテゴリと29のサブカテゴリにまたがる空間知能の包括的ベンチマークであるESI-BENCHを紹介した。
エージェントは、何をデプロイする能力 - 知覚、移動、操作 - と、タスク関連エビデンスを積極的に蓄積するためにどのようにシーケンスするかを決定する必要がある。
我々は、最先端MLLMの広範な実験を行い、アクティブな探索は受動的に優れており、エージェントは明示的な指示なしに自発的に創発的な空間戦略を発見できるのに対し、ランダムなマルチビューは、はるかに多くの画像を消費しているにもかかわらず、信号よりもノイズを付加することが多い。
ほとんどの失敗は、弱い知覚ではなく、行動の盲点から来ている: 行動選択の貧弱さは、観察の低さを招き、結果的にカスケードエラーを引き起こす。
空間的関係を歪ませることにより, 空間的関係を歪ませることにより, 不完全な3次元表現は2次元ベースラインよりも有害であることを示す。
人間の研究では、矛盾した視点を求め、信念を改定する人間とは異なり、モデルは証拠の品質に関わらず、早期に高い信頼を持って行動し、より良い知覚もより具体化された相互作用も閉じられないメタ認知的ギャップを露呈する。
関連論文リスト
- How Do LLMs and VLMs Understand Viewpoint Rotation Without Vision? An Interpretability Study [17.830219852925715]
言語的視点から見た空間情報の基本的・重要な能力に焦点をあてる:視点回転理解(VRU)
LLMとVLMはどちらも提案したデータセットでは性能が悪く,人間は100%の精度で容易に達成できることがわかった。
その結果, モデルが隠れ状態の視点情報をエンコードしているにもかかわらず, 視線位置と対応する観測値との結合に苦慮していることが明らかとなった。
論文 参考訳(メタデータ) (2026-04-16T17:55:19Z) - Cognitive Pivot Points and Visual Anchoring: Unveiling and Rectifying Hallucinations in Multimodal Reasoning Models [65.57985131861399]
幻覚は、しばしば高いエントロピー状態を示す認知的分岐点と強く相関している。
本稿では,視覚的に認識可能な推論機能の内部化を目的とした,軽量で総合的なトレーニングパラダイムであるV-STARを提案する。
論文 参考訳(メタデータ) (2026-04-11T13:59:05Z) - Attention at Rest Stays at Rest: Breaking Visual Inertia for Cognitive Hallucination Mitigation [50.51650162235191]
本稿では,認知的推論を視覚的注意の動的応答性としてモデル化することにより,この慣性パターンを破る訓練のない慣性認識型視覚興奮(IVE)法を提案する。
IVEは様々な基礎MLLMと複数の幻覚ベンチマーク、特に認知幻覚に有効である。
論文 参考訳(メタデータ) (2026-04-02T12:51:07Z) - Anatomy of a Lie: A Multi-Stage Diagnostic Framework for Tracing Hallucinations in Vision-Language Models [62.932580559941414]
VLM(Vision-Language Models)は、しばしば「ハロシン化(hallucinate)」する。
本稿では,静的な出力誤差からモデル計算認知の動的病理へ再キャストし,幻覚を診断するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2026-03-16T17:20:38Z) - Detecting Misbehaviors of Large Vision-Language Models by Evidential Uncertainty Quantification [27.02252748004729]
大規模視覚言語モデル(LVLM)は多モーダル理解と生成において大きな進歩を見せている。
彼らはしばしば、事実幻覚や危険な指示など、信頼できない、あるいは有害な内容を生み出す。
Evidential Uncertainty Quantification (EUQ)は、LVLMの誤動作を効果的に検出するための情報競合と無知の両方をキャプチャする。
論文 参考訳(メタデータ) (2026-02-05T10:51:39Z) - Theory of Space: Can Foundation Models Construct Spatial Beliefs through Active Exploration? [83.13508919229939]
宇宙の理論は、自己指向的かつ活発な探索を通じて情報を得るエージェントの能力として定義される。
重要な革新は空間的信念の探索であり、各ステップでモデルが空間的表現を明らかにするように促す。
この結果から,現在の基盤モデルでは,活発な探査において,コヒーレントで変更可能な空間的信念の維持に苦慮していることが示唆された。
論文 参考訳(メタデータ) (2026-02-04T19:06:40Z) - HEAL: An Empirical Study on Hallucinations in Embodied Agents Driven by Large Language Models [27.72821031361892]
本研究では,大規模な言語モデルにおいて,シーン・タスクの不整合下での長時間の作業を行う幻覚に関する最初の体系的研究について述べる。
私たちのゴールは、幻覚の発生範囲、どのような不整合が引き起こされるか、現在のモデルがどのように反応するかを理解することです。
論文 参考訳(メタデータ) (2025-06-18T02:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。