論文の概要: SEM: Enhancing Spatial Understanding for Robust Robot Manipulation
- arxiv url: http://arxiv.org/abs/2505.16196v1
- Date: Thu, 22 May 2025 04:00:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-23 17:12:48.026714
- Title: SEM: Enhancing Spatial Understanding for Robust Robot Manipulation
- Title(参考訳): SEM:ロバストロボットマニピュレーションのための空間理解の強化
- Authors: Xuewu Lin, Tianwei Lin, Lichao Huang, Hongyu Xie, Yiwei Jin, Keyu Li, Zhizhong Su,
- Abstract要約: SEM(Spatial Enhanced Manipulation model)は,2つの相補的視点から空間的理解を高める拡散型政策フレームワークである。
空間エンハンサーは3次元幾何学的文脈で視覚表現を増強する一方、ロボット状態エンコーダは、グラフベースの関節依存のモデリングにより、エンボディメント認識構造をキャプチャする。
- 参考スコア(独自算出の注目度): 13.620151960111764
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A key challenge in robot manipulation lies in developing policy models with strong spatial understanding, the ability to reason about 3D geometry, object relations, and robot embodiment. Existing methods often fall short: 3D point cloud models lack semantic abstraction, while 2D image encoders struggle with spatial reasoning. To address this, we propose SEM (Spatial Enhanced Manipulation model), a novel diffusion-based policy framework that explicitly enhances spatial understanding from two complementary perspectives. A spatial enhancer augments visual representations with 3D geometric context, while a robot state encoder captures embodiment-aware structure through graphbased modeling of joint dependencies. By integrating these modules, SEM significantly improves spatial understanding, leading to robust and generalizable manipulation across diverse tasks that outperform existing baselines.
- Abstract(参考訳): ロボット操作における重要な課題は、空間的理解の強いポリシーモデル、三次元幾何学、オブジェクトの関係、ロボットの具体化を推論する能力の開発である。
3Dポイントクラウドモデルにはセマンティック抽象化が欠如しており、2Dイメージエンコーダは空間的推論に苦慮している。
そこで本研究では,2つの相補的視点から空間的理解を明示的に強化する拡散型政策フレームワークであるSEM(Spatial Enhanced Manipulation model)を提案する。
空間エンハンサーは3次元幾何学的文脈で視覚表現を増強する一方、ロボット状態エンコーダは、グラフベースの関節依存のモデリングにより、エンボディメント認識構造をキャプチャする。
これらのモジュールを統合することで、SEMは空間的理解を大幅に改善し、既存のベースラインを上回る様々なタスクに対して堅牢で一般化可能な操作をもたらす。
関連論文リスト
- GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - Lift3D Foundation Policy: Lifting 2D Large-Scale Pretrained Models for Robust 3D Robotic Manipulation [30.744137117668643]
Lift3Dは、ロバストな3D操作ポリシーを構築するために、暗黙的で明示的な3Dロボット表現で2Dファンデーションモデルを強化するフレームワークである。
実験では、Lift3Dはいくつかのシミュレーションベンチマークや実世界のシナリオで、最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2024-11-27T18:59:52Z) - RoboSpatial: Teaching Spatial Understanding to 2D and 3D Vision-Language Models for Robotics [26.42651735582044]
ロボット工学における空間理解のための大規模データセットであるRoboSpatialを紹介する。
実際の屋内とテーブルトップのシーンで構成され、3Dスキャンとエゴセントリックなイメージとして撮影され、ロボット工学に関連する豊富な空間情報が注釈付けされている。
実験により, 空間空き時間予測, 空間的関係予測, ロボット操作など, 下流作業におけるRoboSpatialで訓練したモデルは, ベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-11-25T16:21:34Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - REVISION: Rendering Tools Enable Spatial Fidelity in Vision-Language Models [67.55362046790512]
視覚言語モデルには、空間的関係を正しく推論する能力がない。
視覚言語モデルにおける空間忠実度を改善するREVISIONフレームワークを開発した。
本研究の結果から,レンダリングベースのフレームワークは空間認識モデルの開発に有効な手法であることが示唆された。
論文 参考訳(メタデータ) (2024-08-05T04:51:46Z) - Dynamic Scene Understanding through Object-Centric Voxelization and Neural Rendering [57.895846642868904]
オブジェクト中心学習が可能な動的シーンのための3次元生成モデルDynaVol-Sを提案する。
ボキセル化は、個々の空間的位置において、物体ごとの占有確率を推定する。
提案手法は2次元セマンティックな特徴を統合して3次元セマンティック・グリッドを作成し,複数の不整合ボクセル・グリッドを通してシーンを表現する。
論文 参考訳(メタデータ) (2024-07-30T15:33:58Z) - SimIPU: Simple 2D Image and 3D Point Cloud Unsupervised Pre-Training for
Spatial-Aware Visual Representations [85.38562724999898]
我々はSimIPUと呼ばれる2Dイメージと3Dポイントクラウドの教師なし事前学習戦略を提案する。
具体的には、モーダル内空間認識モジュールとモーダル間特徴相互作用モジュールからなるマルチモーダルコントラスト学習フレームワークを開発する。
我々の知る限りでは、屋外マルチモーダルデータセットに対する対照的な学習事前学習戦略を探求する最初の研究である。
論文 参考訳(メタデータ) (2021-12-09T03:27:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。