論文の概要: EscherVerse: An Open World Benchmark and Dataset for Teleo-Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding
- arxiv url: http://arxiv.org/abs/2601.01547v1
- Date: Sun, 04 Jan 2026 14:42:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-06 16:25:22.523322
- Title: EscherVerse: An Open World Benchmark and Dataset for Teleo-Spatial Intelligence with Physical-Dynamic and Intent-Driven Understanding
- Title(参考訳): EscherVerse: 物理的動的およびインテント駆動的理解を備えた遠隔空間インテリジェンスのためのオープンワールドベンチマークとデータセット
- Authors: Tianjun Gu, Chenghua Gong, Jingyu Gong, Zhizhong Zhang, Yuan Xie, Lizhuang Ma, Xin Tan,
- Abstract要約: 本稿では,Teleo-Spatial Intelligence(TSI)について紹介する。
本稿では、大規模なオープンワールドベンチマーク(Escher-Bench)、データセット(Escher-35k)、モデル(Escherシリーズ)からなるEscherVerseを紹介する。
これはIntent-Driven Reasoningを体系的に評価する最初のベンチマークである。
- 参考スコア(独自算出の注目度): 56.89359230139883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to reason about spatial dynamics is a cornerstone of intelligence, yet current research overlooks the human intent behind spatial changes. To address these limitations, we introduce Teleo-Spatial Intelligence (TSI), a new paradigm that unifies two critical pillars: Physical-Dynamic Reasoning--understanding the physical principles of object interactions--and Intent-Driven Reasoning--inferring the human goals behind these actions. To catalyze research in TSI, we present EscherVerse, consisting of a large-scale, open-world benchmark (Escher-Bench), a dataset (Escher-35k), and models (Escher series). Derived from real-world videos, EscherVerse moves beyond constrained settings to explicitly evaluate an agent's ability to reason about object permanence, state transitions, and trajectory prediction in dynamic, human-centric scenarios. Crucially, it is the first benchmark to systematically assess Intent-Driven Reasoning, challenging models to connect physical events to their underlying human purposes. Our work, including a novel data curation pipeline, provides a foundational resource to advance spatial intelligence from passive scene description toward a holistic, purpose-driven understanding of the world.
- Abstract(参考訳): 空間力学を推論する能力は知性の基礎であるが、現在の研究は空間変化の背後にある人間の意図を見落としている。
これらの制限に対処するために、Teleo-Spatial Intelligence(TSI)という、2つの重要な柱を統一する新しいパラダイムを紹介します。
TSIの研究を触媒するため、大規模なオープンワールドベンチマーク(Escher-Bench)、データセット(Escher-35k)、モデル(Escherシリーズ)からなるEscherVerseを紹介する。
EscherVerseは、現実世界のビデオから派生したもので、制約された設定を超えて、動的で人間中心のシナリオにおいて、オブジェクトの永続性、状態遷移、軌道予測を推論するエージェントの能力を明確に評価する。
重要な点として、Intent-Driven Reasoningを体系的に評価する最初のベンチマークである。
我々の研究は、新しいデータキュレーションパイプラインを含む、受動的シーン記述から世界全体に対する総合的、目的主導的な理解へと、空間的インテリジェンスを推し進めるための基礎的なリソースを提供する。
関連論文リスト
- How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - SlotPi: Physics-informed Object-centric Reasoning Models [37.32107835829927]
物理インフォームドオブジェクト中心推論モデルであるSlotPiを紹介する。
我々の実験は、ベンチマークや流体データセット上での予測や視覚質問応答(VQA)といったタスクにおけるモデルの強みを強調した。
我々は、オブジェクトの相互作用、流体力学、流体オブジェクトの相互作用を含む実世界のデータセットを作成し、モデルの性能を検証した。
論文 参考訳(メタデータ) (2025-06-12T14:53:36Z) - FOLIAGE: Towards Physical Intelligence World Models Via Unbounded Surface Evolution [8.895165270489167]
本稿では,物理インフォームド・マルチモーダル世界モデルFOLIAGEを提案する。
Action-Perceptionループでは、統合コンテキストがイメージ、メッシュ接続、ポイントクラウドを共有潜在状態にマップする。
物理制御アクションを条件とした物理認識予測器は、この潜伏状態に時間をかけて、表面の目標潜伏状態と整合する。
論文 参考訳(メタデータ) (2025-05-29T01:16:58Z) - SITE: towards Spatial Intelligence Thorough Evaluation [121.1493852562597]
空間知能 (Spatial Intelligence, SI) は、空間的関係の可視化、操作、推論を含む認知能力を表す。
SI Thorough Evaluationに向けたベンチマークデータセットであるSITEを紹介する。
ベンチマークの計算には、31の既存のデータセットに関するボトムアップ調査と、認知科学の3つの分類システムに基づくトップダウン戦略を組み合わせる。
論文 参考訳(メタデータ) (2025-05-08T17:45:44Z) - Physical Reasoning and Object Planning for Household Embodied Agents [19.88210708022216]
我々はCommonSense Object Affordance Task (COAT)を紹介した。
COATは現実世界の環境における実践的な意思決定の複雑さに関する洞察を提供する。
コントリビューションには、3つの要因すべてに対する洞察に富んだ人間の嗜好マッピングと4つの広範囲なQAデータセットが含まれています。
論文 参考訳(メタデータ) (2023-11-22T18:32:03Z) - Learn to Predict How Humans Manipulate Large-sized Objects from
Interactive Motions [82.90906153293585]
本稿では,動きデータと動的記述子を融合させるグラフニューラルネットワークHO-GCNを提案する。
動的記述子を消費するネットワークは、最先端の予測結果が得られ、未確認オブジェクトへのネットワークの一般化に役立つことを示す。
論文 参考訳(メタデータ) (2022-06-25T09:55:39Z) - GIMO: Gaze-Informed Human Motion Prediction in Context [75.52839760700833]
本研究では、高品質なボディポーズシーケンス、シーンスキャン、目視によるエゴ中心のビューを提供する大規模な人体動作データセットを提案する。
私たちのデータ収集は特定のシーンに縛られません。
視線の全可能性を実現するために,視線と運動枝の双方向通信を可能にする新しいネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-04-20T13:17:39Z) - TRiPOD: Human Trajectory and Pose Dynamics Forecasting in the Wild [77.59069361196404]
TRiPODは、グラフの注目ネットワークに基づいて身体のダイナミクスを予測する新しい方法です。
実世界の課題を取り入れるために,各フレームで推定された身体関節が可視・視認可能かどうかを示す指標を学習する。
評価の結果,TRiPODは,各軌道に特化して設計され,予測タスクに特化している。
論文 参考訳(メタデータ) (2021-04-08T20:01:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。