論文の概要: SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments
- arxiv url: http://arxiv.org/abs/2604.14144v1
- Date: Wed, 15 Apr 2026 17:59:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-16 20:38:32.672918
- Title: SpatialEvo: Self-Evolving Spatial Intelligence via Deterministic Geometric Environments
- Title(参考訳): SpaceEvo: 決定論的幾何学的環境による自己進化型空間知能
- Authors: Dinging Li, Yingxiu Zhao, Xinrui Cheng, Kangheng Lin, Hongbo Peng, Hongxing Li, Zixuan Wang, Yuhong Dai, Haodong Li, Jia Wang, Yukang Shi, Liang Zhao, Jianjian Sun, Zheng Ge, Xiangyu Zhang, Weiming Lu, Jun Xiao, Yueting Zhuang, Yongliang Shen,
- Abstract要約: SpaceEvoは3D空間推論のための自己進化型フレームワークである。
16の空間推論タスクカテゴリを明示的な幾何学的検証規則で定式化する。
注釈のない3Dシーンをゼロノイズのインタラクティブなオラクルに変換し、モデルコンセンサスを客観的な物理的フィードバックに置き換える。
- 参考スコア(独自算出の注目度): 75.60795462502949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial reasoning over three-dimensional scenes is a core capability for embodied intelligence, yet continuous model improvement remains bottlenecked by the cost of geometric annotation. The self-evolving paradigm offers a promising path, but its reliance on model consensus to construct pseudo-labels causes training to reinforce rather than correct the model's own geometric errors. We identify a property unique to 3D spatial reasoning that circumvents this limitation: ground truth is a deterministic consequence of the underlying geometry, computable exactly from point clouds and camera poses without any model involvement. Building on this insight, we present SpatialEvo, a self-evolving framework for 3D spatial reasoning, centered on the Deterministic Geometric Environment (DGE). The DGE formalizes 16 spatial reasoning task categories under explicit geometric validation rules and converts unannotated 3D scenes into zero-noise interactive oracles, replacing model consensus with objective physical feedback. A single shared-parameter policy co-evolves across questioner and solver roles under DGE constraints: the questioner generates physically valid spatial questions grounded in scene observations, while the solver derives precise answers against DGE-verified ground truth. A task-adaptive scheduler endogenously concentrates training on the model's weakest categories, producing a dynamic curriculum without manual design. Experiments across nine benchmarks demonstrate that SpatialEvo achieves the highest average score at both 3B and 7B scales, with consistent gains on spatial reasoning benchmarks and no degradation on general visual understanding.
- Abstract(参考訳): 三次元シーンに対する空間的推論はインテリジェンスを具現化するためのコア機能であるが、幾何的アノテーションのコストによって連続的なモデル改善がボトルネックになっている。
自己進化パラダイムは有望な経路を提供するが、擬似ラベルを構築するためのモデルコンセンサスに依存しているため、モデルの幾何学的誤りを訂正するのではなく、トレーニングが強化される。
基底的真理は下層の幾何学の決定論的結果であり、点雲とカメラのポーズから正確に計算可能であり、モデルに一切関わらない。
この知見に基づいて、決定論的幾何学環境(DGE)を中心に、3次元空間推論のための自己進化フレームワークであるSpatialEvoを提示する。
DGEは、明示的な幾何学的検証規則の下で16の空間推論タスクカテゴリを定式化し、注釈のない3Dシーンをゼロノイズの対話型オラクルに変換し、モデルコンセンサスを客観的な物理的フィードバックに置き換える。
一つの共有パラメータポリシーは、DGEの制約の下で質問者や解決者の役割を共進化させる: 質問者は、シーンの観察に基づく物理的に有効な空間的質問を生成し、解法はDGEの検証された地上真実に対する正確な答えを導出する。
タスク適応型スケジューラは、モデルの最弱カテゴリのトレーニングを不均一に集中させ、手動設計なしで動的カリキュラムを生成する。
9つのベンチマークでの実験では、SpatialEvoは3Bと7Bの両方で最高平均スコアを達成しており、空間推論ベンチマークでは一貫した利得があり、一般的な視覚的理解では劣化しない。
関連論文リスト
- Learning 3D Representations for Spatial Intelligence from Unposed Multi-View Images [81.94999489820974]
UniSplat (UniSplat) は、未提示のマルチビュー画像から3D表現を学習するためのフィードフォワードフレームワークである。
エンコーダにおける幾何誘導を強化するデュアルマスキング戦略を導入する。
第2に,外見のセマンティックな矛盾を解消する粗大なガウス的スプレイティング戦略を開発する。
第3に、予測された3次元点と意味マップを画像平面に相互に関連付ける、ポーズ条件の補正機構を導入する。
論文 参考訳(メタデータ) (2026-04-12T10:36:18Z) - GeoSense: Internalizing Geometric Necessity Perception for Multimodal Reasoning [51.63457948949102]
マルチモーダル大規模言語モデル(MLLM)の限られた空間的理解を克服する枠組みを開発する。
この枠組みは,2次元の手がかりが不十分と判断された場合の推論において,幾何学的特徴を自律的に関与させることにより,知覚的不整合を意識したモデルを実現する。
論文 参考訳(メタデータ) (2026-03-11T03:32:12Z) - Learning Proposes, Geometry Disposes: A Modular Framework for Efficient Spatial Reasoning [3.5072793256984105]
空間知覚は、視覚的観察からカメラの動きとシーン構造を推定することを目的としている。
近年の学習に基づく手法は幾何学的知覚に強い表現能力を示している。
本研究では,効率的な空間推論のためのエンドツーエンドのモジュラー・フレームワークについて検討する。
論文 参考訳(メタデータ) (2026-02-16T02:26:59Z) - Thinking with Geometry: Active Geometry Integration for Spatial Reasoning [68.59084007360615]
我々は,能動的知覚にパラダイム・パッシブ・フュージョンをシフトさせるフレームワークであるGeoThinkerを提案する。
特徴混合の代わりに、GeoThinkerはモデルが内部の推論要求に応じて条件付けられた幾何学的証拠を選択的に検索することを可能にする。
その結果,次世代の空間知能には,空間構造を積極的に統合する能力が不可欠であることが示唆された。
論文 参考訳(メタデータ) (2026-02-05T18:59:32Z) - Cross-Modal Geometric Hierarchy Fusion: An Implicit-Submap Driven Framework for Resilient 3D Place Recognition [9.411542547451193]
本稿では,密度に依存しない幾何学的推論により3次元位置認識を再定義するフレームワークを提案する。
具体的には、元のシーンポイント雲密度の干渉に免疫する弾性点に基づく暗黙の3次元表現を導入する。
これら2種類の情報を活用することで,鳥眼視と3Dセグメントの両視点から幾何学的情報を融合する記述子を得る。
論文 参考訳(メタデータ) (2025-06-17T07:04:07Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。