論文の概要: XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments
- arxiv url: http://arxiv.org/abs/2604.18484v1
- Date: Mon, 20 Apr 2026 16:37:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.998265
- Title: XEmbodied: A Foundation Model with Enhanced Geometric and Physical Cues for Large-Scale Embodied Environments
- Title(参考訳): XEmbodied:大規模身体環境のための幾何学的および物理的キューを拡張した基礎モデル
- Authors: Kangan Qian, ChuChu Xie, Yang Zhong, Jingrui Pang, Siwen Jiao, Sicong Jiang, Zilin Huang, Yunlong Wang, Kun Jiang, Mengmeng Yang, Hao Ye, Guanghao Zhang, Hangjun Ye, Guang Chen, Long Chen, Diange Yang,
- Abstract要約: クラウドパイプラインは、幾何学的推論やドメインセマンティクスに欠ける汎用視覚言語モデル(VLM)に依存している。
我々は,本質的な3次元幾何学的認識を伴うVLMを実現するクラウドサイド基盤モデルであるXEmbodiedを提案する。
XEmbodiedは18の公開ベンチマークで堅牢なパフォーマンスを示しながら、一般的な能力を保っている。
- 参考スコア(独自算出の注目度): 26.90783926543698
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-Language-Action (VLA) models drive next-generation autonomous systems, but training them requires scalable, high-quality annotations from complex environments. Current cloud pipelines rely on generic vision-language models (VLMs) that lack geometric reasoning and domain semantics due to their 2D image-text pretraining. To address this mismatch, we propose XEmbodied, a cloud-side foundation model that endows VLMs with intrinsic 3D geometric awareness and interaction with physical cues (e.g., occupancy grids, 3D boxes). Instead of treating geometry as auxiliary input, XEmbodied integrates geometric representations via a structured 3D Adapter and distills physical signals into context tokens using an Efficient Image-Embodied Adapter. Through progressive domain curriculum and reinforcement learning post-training, XEmbodied preserves general capabilities while demonstrating robust performance across 18 public benchmarks. It significantly improves spatial reasoning, traffic semantics, embodied affordance, and out-of-distribution generalization for large-scale scenario mining and embodied VQA.
- Abstract(参考訳): VLA(Vision-Language-Action)モデルは次世代の自律システムを駆動するが、それらを訓練するには複雑な環境からスケーラブルで高品質なアノテーションが必要である。
現在のクラウドパイプラインは、幾何学的推論やドメインセマンティクスに欠ける汎用視覚言語モデル(VLM)に依存している。
このミスマッチに対処するため、本研究では、VLMに固有の幾何学的認識と物理的手がかり(例えば、占有グリッド、3Dボックス)を付与するクラウドサイド基盤モデルであるXEmbodiedを提案する。
XEmbodiedは、幾何学を補助的な入力として扱う代わりに、構造化された3Dアダプタを介して幾何学的表現を統合し、効率的なイメージエンボディードアダプタを使用して物理信号をコンテキストトークンに蒸留する。
プログレッシブなドメインカリキュラムと強化学習ポストトレーニングを通じて、XEmbodiedは18の公開ベンチマークで堅牢なパフォーマンスを示しながら、一般的な能力を保っている。
大規模なシナリオマイニングとVQAのための空間的推論、トラフィックセマンティクス、具体的価格、アウト・オブ・ディストリビューションの一般化を著しく改善する。
関連論文リスト
- Towards Foundation Models for 3D Scene Understanding: Instance-Aware Self-Supervised Learning for Point Clouds [53.82500407523346]
PointINSは、幾何学的学習を通じてポイントクラウド表現を豊かにする、インスタンス指向の自己組織化フレームワークである。
PointINSは、屋内のインスタンスセグメンテーションで平均+3.5%のmAP改善、屋外のパン光学セグメンテーションで+4.1%のPQゲインを達成している。
論文 参考訳(メタデータ) (2026-03-26T08:31:06Z) - From Spatial to Actions: Grounding Vision-Language-Action Model in Spatial Foundation Priors [54.84863164684646]
既存の視覚言語アクション(VLA)モデルは3Dの現実世界で機能するが、通常は2Dエンコーダ上に構築される。
本研究では,アクションヘッドにリッチな3次元空間トークンを注入する新しいパラダイムであるFALCONを紹介する。
論文 参考訳(メタデータ) (2025-10-20T11:26:45Z) - Evo-0: Vision-Language-Action Model with Implicit Spatial Understanding [11.222744122842023]
本稿では、3次元幾何学的特徴を暗黙的にVision-Language-Action(VLA)モデルに組み込むプラグイン・アンド・プレイ・モジュールを提案する。
提案手法は,様々なシナリオにおける最先端VLAモデルの性能を著しく向上させる。
論文 参考訳(メタデータ) (2025-07-01T04:05:47Z) - 3D-Aware Vision-Language Models Fine-Tuning with Geometric Distillation [17.294440057314812]
VLM(Vision-Language Models)は様々な視覚的・言語的タスクにおいて顕著な性能を示した。
人為的な幾何学的手がかりを予め訓練されたVLMに注入するフレームワークであるGeometric Distillationを提案する。
本手法は、自然な画像テキスト入力と互換性を保ちながら、表現を幾何学的に認識するように形成する。
論文 参考訳(メタデータ) (2025-06-11T15:56:59Z) - Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。