論文の概要: SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2511.09555v1
- Date: Thu, 13 Nov 2025 02:02:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-13 22:34:54.62282
- Title: SpatialActor: Exploring Disentangled Spatial Representations for Robust Robotic Manipulation
- Title(参考訳): 空間アクター:ロバストなロボットマニピュレーションのための遠方空間表現の探索
- Authors: Hao Shi, Bin Xie, Yingfei Liu, Yang Yue, Tiancai Wang, Haoqiang Fan, Xiangyu Zhang, Gao Huang,
- Abstract要約: SpaceActorは、意味論と幾何学を明確に分離する堅牢なロボット操作のためのフレームワークである。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善している。
- 参考スコア(独自算出の注目度): 63.48859753472547
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Robotic manipulation requires precise spatial understanding to interact with objects in the real world. Point-based methods suffer from sparse sampling, leading to the loss of fine-grained semantics. Image-based methods typically feed RGB and depth into 2D backbones pre-trained on 3D auxiliary tasks, but their entangled semantics and geometry are sensitive to inherent depth noise in real-world that disrupts semantic understanding. Moreover, these methods focus on high-level geometry while overlooking low-level spatial cues essential for precise interaction. We propose SpatialActor, a disentangled framework for robust robotic manipulation that explicitly decouples semantics and geometry. The Semantic-guided Geometric Module adaptively fuses two complementary geometry from noisy depth and semantic-guided expert priors. Also, a Spatial Transformer leverages low-level spatial cues for accurate 2D-3D mapping and enables interaction among spatial features. We evaluate SpatialActor on multiple simulation and real-world scenarios across 50+ tasks. It achieves state-of-the-art performance with 87.4% on RLBench and improves by 13.9% to 19.4% under varying noisy conditions, showing strong robustness. Moreover, it significantly enhances few-shot generalization to new tasks and maintains robustness under various spatial perturbations. Project Page: https://shihao1895.github.io/SpatialActor
- Abstract(参考訳): ロボット操作は、現実世界の物体と対話するために、正確な空間的理解を必要とする。
ポイントベースの手法はスパースサンプリングに悩まされ、きめ細かい意味論が失われる。
画像ベースの手法は通常、RGBと深度を3D補助タスクで事前訓練された2Dバックボーンに供給するが、その絡み合ったセマンティクスと幾何学は、意味理解を妨害する現実世界の固有深度ノイズに敏感である。
さらに、これらの手法は、精密な相互作用に欠かせない低レベルの空間的手がかりを目視しながら、高レベルの幾何学に焦点をあてる。
本研究では,ロバストなロボット操作のためのアンタングル型フレームワークであるSpatialActorを提案する。
セマンティック誘導幾何モジュールは、2つの相補的な幾何学をノイズの深さとセマンティック誘導された専門家の先行とを適応的に融合させる。
また、空間変換器は2次元3次元の正確なマッピングのために低レベルの空間的手がかりを活用し、空間的特徴間の相互作用を可能にする。
我々は50以上のタスクにまたがる複数のシミュレーションと実世界のシナリオでSpatialActorを評価した。
RLBenchの87.4%で最先端のパフォーマンスを達成し、ノイズの異なる条件下では13.9%から19.4%改善し、強い堅牢性を示す。
さらに、新しいタスクへの数発の一般化を著しく強化し、様々な空間摂動下で頑健性を維持する。
Project Page: https://shihao1895.github.io/SpatialActor
関連論文リスト
- RoboRefer: Towards Spatial Referring with Reasoning in Vision-Language Models for Robotics [67.11221574129937]
空間参照は、3D物理世界と相互作用するエンボディロボットの基本的な能力である。
本稿では,まず空間的理解を正確に行うことのできる3次元VLMであるRoboReferを提案する。
RoboReferは、強化微調整による一般化された多段階空間推論を推進している。
論文 参考訳(メタデータ) (2025-06-04T17:59:27Z) - SEM: Enhancing Spatial Understanding for Robust Robot Manipulation [18.902168808191945]
SEM(Spatial Enhanced Manipulation model)は,2つの相補的視点から空間的理解を高める拡散型政策フレームワークである。
空間エンハンサーは3次元幾何学的文脈で視覚表現を増強する一方、ロボット状態エンコーダは、グラフベースの関節依存のモデリングにより、エンボディメント認識構造をキャプチャする。
論文 参考訳(メタデータ) (2025-05-22T04:00:12Z) - GSFF-SLAM: 3D Semantic Gaussian Splatting SLAM via Feature Field [17.57215792490409]
GSFF-SLAMは3次元ガウススプラッティングに基づく新しい意味論的SLAMシステムである。
提案手法は, 様々な2次元先行情報, 特にスパース信号と雑音信号を用いた意味的再構成を支援する。
2D基底真理を利用する場合、GSFF-SLAMは95.03% mIoUで最先端のセマンティックセグメンテーション性能を達成する。
論文 参考訳(メタデータ) (2025-04-28T01:21:35Z) - GREAT: Geometry-Intention Collaborative Inference for Open-Vocabulary 3D Object Affordance Grounding [53.42728468191711]
Open-Vocabulary 3D object affordance groundingは、任意の命令で3Dオブジェクト上のアクション可能性の領域を予測することを目的としている。
GREAT (GeometRy-intEntion collAboraTive Inference) を提案する。
論文 参考訳(メタデータ) (2024-11-29T11:23:15Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。
我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。
提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文 参考訳(メタデータ) (2024-03-19T13:39:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。