論文の概要: From Perception to Action: Spatial AI Agents and World Models
- arxiv url: http://arxiv.org/abs/2602.01644v1
- Date: Mon, 02 Feb 2026 05:00:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.912955
- Title: From Perception to Action: Spatial AI Agents and World Models
- Title(参考訳): 知覚から行動へ:空間AIエージェントと世界モデル
- Authors: Gloria Felicia, Nolan Bryant, Handi Putra, Ayaan Gazali, Eliel Lobo, Esteban Rojas,
- Abstract要約: エージェント能力と空間的タスクをスケールにわたって結合する統合3軸分類法を提案する。
我々の分析では、これらの軸にマッピングされた3つの重要な発見が明らかになった。
6つの大きな課題を特定し、今後の研究の方向性を概説する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: While large language models have become the prevailing approach for agentic reasoning and planning, their success in symbolic domains does not readily translate to the physical world. Spatial intelligence, the ability to perceive 3D structure, reason about object relationships, and act under physical constraints, is an orthogonal capability that proves important for embodied agents. Existing surveys address either agentic architectures or spatial domains in isolation. None provide a unified framework connecting these complementary capabilities. This paper bridges that gap. Through a thorough review of over 2,000 papers, citing 742 works from top-tier venues, we introduce a unified three-axis taxonomy connecting agentic capabilities with spatial tasks across scales. Crucially, we distinguish spatial grounding (metric understanding of geometry and physics) from symbolic grounding (associating images with text), arguing that perception alone does not confer agency. Our analysis reveals three key findings mapped to these axes: (1) hierarchical memory systems (Capability axis) are important for long-horizon spatial tasks. (2) GNN-LLM integration (Task axis) is a promising approach for structured spatial reasoning. (3) World models (Scale axis) are essential for safe deployment across micro-to-macro spatial scales. We conclude by identifying six grand challenges and outlining directions for future research, including the need for unified evaluation frameworks to standardize cross-domain assessment. This taxonomy provides a foundation for unifying fragmented research efforts and enabling the next generation of spatially-aware autonomous systems in robotics, autonomous vehicles, and geospatial intelligence.
- Abstract(参考訳): 大規模言語モデルはエージェント推論や計画において一般的なアプローチとなっているが、シンボリックドメインにおける彼らの成功は、すぐに物理世界へ翻訳されるわけではない。
空間知能は、3D構造を知覚し、物体の関係を推論し、物理的制約の下で行動する能力であり、エンボディエージェントにとって重要な直交能力である。
既存の調査では、エージェントアーキテクチャまたは空間ドメインを分離して扱う。
これらの補完機能を結合する統一されたフレームワークは提供されない。
この論文はそのギャップを埋める。
2,000以上の論文を網羅的にレビューし、上位階層の742件を引用し、エージェント能力と空間的タスクを結合する統合された3軸分類を導入した。
重要なことは、空間的接地(幾何学と物理のメトリクス的理解)と記号的接地(画像とテキストを関連づける)とを区別し、知覚だけではエージェンシーを提示しないと主張している。
1)階層型メモリシステム(能力軸)は長期空間タスクにおいて重要である。
2) GNN-LLM 統合 (Task axis) は空間的推論に有望な手法である。
(3)世界モデル(スケール軸)は,マイクロスケールからマクロスケールへの安全な配置に不可欠である。
6つの大きな課題を特定し、クロスドメインアセスメントを標準化するための統合評価フレームワークの必要性を含め、今後の研究の方向性を概説する。
この分類学は、断片化された研究を統一し、ロボット工学、自動運転車、地理空間知能における次世代の空間認識自律システムを可能にする基盤を提供する。
関連論文リスト
- Generalizable Geometric Prior and Recurrent Spiking Feature Learning for Humanoid Robot Manipulation [90.90219129619344]
本稿では,スパイキング機能を備えたR-prior-S, Recurrent Geometric-priormodal Policyを提案する。
物理的現実の高レベル推論を基礎として、軽量な2次元幾何学的帰納バイアスを利用する。
ロボット行動生成におけるデータ効率問題に対して,再帰的適応スパイクネットワークを導入する。
論文 参考訳(メタデータ) (2026-01-13T23:36:30Z) - Thinking with Blueprints: Assisting Vision-Language Models in Spatial Reasoning via Structured Object Representation [52.605647992080485]
空間的推論は視覚的知覚から意味的理解へと視覚言語モデルを前進させる。
物体中心の青写真という認知概念を空間的推論に統合する。
我々の手法は既存の視覚言語モデルより一貫して優れている。
論文 参考訳(メタデータ) (2026-01-05T10:38:26Z) - 3dSAGER: Geospatial Entity Resolution over 3D Objects (Technical Report) [7.378893412842889]
3dSAGERは3Dオブジェクト上の空間的エンティティ解決のためのエンドツーエンドパイプラインである。
本稿では,マッチングペアの複雑な幾何学的特徴をキャプチャする,空間参照非依存のデファクトチュール化機構を提案する。
また、訓練されたモデルを活用して、ハイリコール候補セットを効率的に生成する、軽量で解釈可能な新しいブロッキング手法であるBKAFIを提案する。
論文 参考訳(メタデータ) (2025-11-09T09:35:45Z) - SpatialLadder: Progressive Training for Spatial Reasoning in Vision-Language Models [73.19077622773075]
本稿では,空間知能を段階的に構築するための包括的方法論を提案する。
オブジェクトローカライゼーション、単一画像、マルチビュー、ビデオ空間推論タスクにまたがる26,610のサンプルを含むマルチモーダルデータセットであるSpatialLadder-26kを紹介する。
本研究では,物体の局所化による空間知覚の確立,多次元空間的タスクによる空間理解の発達,および検証可能な報酬を用いた強化学習による複雑な推論の強化を目的とした3段階のプログレッシブ・トレーニング・フレームワークを設計する。
論文 参考訳(メタデータ) (2025-10-09T17:50:54Z) - How Far are VLMs from Visual Spatial Intelligence? A Benchmark-Driven Perspective [103.44502230776352]
視覚言語モデル(VLM)における視覚空間推論(VSR)の系統的研究について述べる。
空間インテリジェンスを3つのレベル,すなわち基本的な知覚,空間理解,空間計画,および空間インテリジェンスベンチマークSIBenchに分類した。
論文 参考訳(メタデータ) (2025-09-23T12:00:14Z) - Topology-Aware Modeling for Unsupervised Simulation-to-Reality Point Cloud Recognition [63.55828203989405]
我々はオブジェクトポイントクラウド上でSim2Real UDAのための新しいTopology-Aware Modeling (TAM)フレームワークを紹介する。
提案手法は,低レベルの高周波3次元構造を特徴とするグローバル空間トポロジを利用して,領域間隙を緩和する。
本稿では,クロスドメイン・コントラスト学習と自己学習を組み合わせた高度な自己学習戦略を提案する。
論文 参考訳(メタデータ) (2025-06-26T11:53:59Z) - Topological Structure Learning Should Be A Research Priority for LLM-Based Multi-Agent Systems [69.95482609893236]
大規模言語モデルに基づくマルチエージェントシステム(MAS)は、協調的な知性によって複雑なタスクに取り組むための強力なパラダイムとして登場した。
我々は,エージェント間相互作用の構造を明示的にモデル化し,動的に最適化する,エフェトロジーを意識したMASへのパラダイムシフトを求める。
論文 参考訳(メタデータ) (2025-05-28T15:20:09Z) - Sparkle: Mastering Basic Spatial Capabilities in Vision Language Models Elicits Generalization to Spatial Reasoning [36.588008658084895]
視覚言語モデル(VLM)は多くのタスクでうまく機能するが、しばしば空間的推論では失敗する。
評価の結果, 現状のVLMでは, 複合空間問題に対する不正確な答えが得られていることがわかった。
VLMにおける2次元空間推論は,基本空間能力のみに基づいて訓練することで向上する。
論文 参考訳(メタデータ) (2024-10-21T16:26:09Z) - Commonsense Spatial Reasoning for Visually Intelligent Agents [0.8029049649310213]
実世界のロボット応用に適したコモンセンス空間推論のためのフレームワークを提案する。
提案するフレームワークは,ロボットの視点やオブジェクト指向のバリエーションに頑健である。
本稿では,このフレームワークを具体的な空間データベースに実装する方法について述べる。
論文 参考訳(メタデータ) (2021-04-01T10:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。