論文の概要: From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
- arxiv url: http://arxiv.org/abs/2510.17439v1
- Date: Mon, 20 Oct 2025 11:26:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 00:56:39.430626
- Title: From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors
- Title(参考訳): 空間から行動へ:空間ファンデーション前における接地視-言語-行動モデル
- Authors: Zhengshen Zhang, Hao Li, Yalun Dai, Zhengbang Zhu, Lei Zhou, Chenchen Liu, Dong Wang, Francis E. H. Tay, Sijin Chen, Ziwei Liu, Yuxiao Liu, Xinghang Li, Pan Zhou,
- Abstract要約: 既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
- 参考スコア(独自算出の注目度): 54.84863164684646
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing vision-language-action (VLA) models act in 3D real-world but are typically built on 2D encoders, leaving a spatial reasoning gap that limits generalization and adaptability. Recent 3D integration techniques for VLAs either require specialized sensors and transfer poorly across modalities, or inject weak cues that lack geometry and degrade vision-language alignment. In this work, we introduce FALCON (From Spatial to Action), a novel paradigm that injects rich 3D spatial tokens into the action head. FALCON leverages spatial foundation models to deliver strong geometric priors from RGB alone, and includes an Embodied Spatial Model that can optionally fuse depth, or pose for higher fidelity when available, without retraining or architectural changes. To preserve language reasoning, spatial tokens are consumed by a Spatial-Enhanced Action Head rather than being concatenated into the vision-language backbone. These designs enable FALCON to address limitations in spatial representation, modality transferability, and alignment. In comprehensive evaluations across three simulation benchmarks and eleven real-world tasks, our proposed FALCON achieves state-of-the-art performance, consistently surpasses competitive baselines, and remains robust under clutter, spatial-prompt conditioning, and variations in object scale and height.
- Abstract(参考訳): 既存の視覚-言語-アクション(VLA)モデルは3次元現実世界で作用するが、通常は2次元エンコーダ上に構築され、一般化と適応性を制限する空間的推論のギャップが残る。
VLAの最近の3D統合技術は、特殊なセンサーを必要とし、モダリティ間での移動が不十分であるか、幾何学や視覚言語によるアライメントを欠いた弱いキューを注入する。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
FALCONは空間的基礎モデルを活用してRGBのみから強力な幾何学的事前情報を提供する。
言語推論を保存するために、空間強調アクションヘッドは視覚言語バックボーンに連結されるのではなく、空間強調アクションヘッドによって空間トークンを消費する。
これらの設計により、FALCONは空間表現、モダリティ伝達可能性、アライメントの制限に対処できる。
提案したFALCONは,3つのシミュレーションベンチマークと11個の実世界のタスクの総合評価において,最先端の性能を実現し,競争基準を一貫して超越し,粗い空間的条件下では頑健であり,オブジェクトのスケールや高さの変動も大きい。
関連論文リスト
- ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation [12.059517583878756]
本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
論文 参考訳(メタデータ) (2025-07-24T10:07:31Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - MetaSpatial: Reinforcing 3D Spatial Reasoning in VLMs for the Metaverse [8.249725689628923]
視覚言語モデル(VLM)における3次元空間推論の強化を目的とした,最初の強化学習ベースのフレームワークであるMetaSpatialを提案する。
我々のキーとなる革新はマルチターン RL ベースの最適化機構で、物理認識の制約とレンダリングされた画像評価を統合し、生成した3Dレイアウトが整合的で、物理的に妥当で、審美的に整合していることを保証する。
論文 参考訳(メタデータ) (2025-03-24T09:18:01Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。