論文の概要: ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2507.18262v2
- Date: Fri, 25 Jul 2025 17:54:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-28 12:12:30.238874
- Title: ReSem3D: Refinable 3D Spatial Constraints via Fine-Grained Semantic Grounding for Generalizable Robotic Manipulation
- Title(参考訳): ReSem3D: 汎用ロボットマニピュレーションのための細粒セマンティックグラウンドリングによる3次元空間拘束
- Authors: Chenyu Su, Weiwei Shang, Chen Qian, Fei Zhang, Shuang Cong,
- Abstract要約: 本稿では,意味的に多様な環境に対する統一的な操作フレームワークReSem3Dを提案する。
本稿では,ReSem3Dがゼロショット条件下で多様な操作を行い,適応性と一般化性を示すことを示す。
- 参考スコア(独自算出の注目度): 12.059517583878756
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Semantics-driven 3D spatial constraints align highlevel semantic representations with low-level action spaces, facilitating the unification of task understanding and execution in robotic manipulation. The synergistic reasoning of Multimodal Large Language Models (MLLMs) and Vision Foundation Models (VFMs) enables cross-modal 3D spatial constraint construction. Nevertheless, existing methods have three key limitations: (1) coarse semantic granularity in constraint modeling, (2) lack of real-time closed-loop planning, (3) compromised robustness in semantically diverse environments. To address these challenges, we propose ReSem3D, a unified manipulation framework for semantically diverse environments, leveraging the synergy between VFMs and MLLMs to achieve fine-grained visual grounding and dynamically constructs hierarchical 3D spatial constraints for real-time manipulation. Specifically, the framework is driven by hierarchical recursive reasoning in MLLMs, which interact with VFMs to automatically construct 3D spatial constraints from natural language instructions and RGB-D observations in two stages: part-level extraction and region-level refinement. Subsequently, these constraints are encoded as real-time optimization objectives in joint space, enabling reactive behavior to dynamic disturbances. Extensive simulation and real-world experiments are conducted in semantically rich household and sparse chemical lab environments. The results demonstrate that ReSem3D performs diverse manipulation tasks under zero-shot conditions, exhibiting strong adaptability and generalization. Code and videos are available at https://github.com/scy-v/ReSem3D and https://resem3d.github.io.
- Abstract(参考訳): 意味論的駆動型3次元空間制約は、ロボット操作におけるタスク理解と実行の統一を容易にし、高レベルな意味表現を低レベルな行動空間と整合させる。
MLLM(Multimodal Large Language Models)とVFM(Vision Foundation Models)の相乗的推論により、3次元空間制約構築が可能となる。
それにもかかわらず、既存の手法には、(1)制約モデリングにおける粗いセマンティックな粒度、(2)リアルタイム閉ループ計画の欠如、(3)意味的に多様な環境における堅牢性を損なう3つの重要な制限がある。
これらの課題に対処するために,VFMとMLLMの相乗効果を利用して視覚的きめ細かなグラウンド化を実現し,リアルタイムな操作のための階層的3次元空間制約を動的に構築する,意味的に多様な環境のための統一的な操作フレームワークReSem3Dを提案する。
具体的には、MLLMの階層的再帰的推論によって駆動され、VFMと相互作用し、自然言語命令から3次元空間制約を自動構築し、RGB-D観察を2段階、部分レベルの抽出と領域レベルの洗練の2段階で行う。
その後、これらの制約は結合空間におけるリアルタイム最適化目標として符号化され、動的乱れに対する反応性の挙動を可能にする。
大規模なシミュレーションと実世界の実験は、セマンティックに豊かな家庭とスパースな化学実験室環境で実施されている。
その結果、ReSem3Dはゼロショット条件下で多様な操作を行い、適応性と一般化性を示すことがわかった。
コードとビデオはhttps://github.com/scy-v/ReSem3Dとhttps://resem3d.github.ioで公開されている。
関連論文リスト
- Agentic 3D Scene Generation with Spatially Contextualized VLMs [67.31920821192323]
本稿では,複雑な3D環境の生成,理解,編集を可能にする新しいパラダイムを提案する。
我々は,VLMが空間コンテキストから反復的に読み取って更新するエージェント型3Dシーン生成パイプラインを開発した。
その結果,我々のフレームワークは多様かつ困難な入力を処理でき,事前の作業では観測できないような一般化のレベルを達成することができることがわかった。
論文 参考訳(メタデータ) (2025-05-26T15:28:17Z) - SEM: Enhancing Spatial Understanding for Robust Robot Manipulation [13.620151960111764]
SEM(Spatial Enhanced Manipulation model)は,2つの相補的視点から空間的理解を高める拡散型政策フレームワークである。
空間エンハンサーは3次元幾何学的文脈で視覚表現を増強する一方、ロボット状態エンコーダは、グラフベースの関節依存のモデリングにより、エンボディメント認識構造をキャプチャする。
論文 参考訳(メタデータ) (2025-05-22T04:00:12Z) - MLLM-For3D: Adapting Multimodal Large Language Model for 3D Reasoning Segmentation [87.30919771444117]
推論セグメンテーション(Reasoning segmentation)は、人間の意図と空間的推論に基づく複雑なシーンにおける対象オブジェクトのセグメンテーションを目的としている。
最近のマルチモーダル大言語モデル(MLLM)は印象的な2次元画像推論セグメンテーションを実証している。
本稿では,2次元MLLMから3次元シーン理解へ知識を伝達するフレームワークであるMLLM-For3Dを紹介する。
論文 参考訳(メタデータ) (2025-03-23T16:40:20Z) - Cross-Modal and Uncertainty-Aware Agglomeration for Open-Vocabulary 3D Scene Understanding [58.38294408121273]
CUA-O3Dと呼ばれるオープン語彙3次元シーン理解のためのクロスモーダル・不確実性認識アグリゲーションを提案する。
提案手法は,(1)空間認識型視覚基盤モデルの幾何学的知識とともに,VLMのセマンティックな先入観を取り入れること,(2)モデル固有の不確かさを捉えるために,新しい決定論的不確実性推定を用いること,の2つの課題に対処する。
論文 参考訳(メタデータ) (2025-03-20T20:58:48Z) - Global-Aware Monocular Semantic Scene Completion with State Space Models [25.621011183332094]
Monocular Semantic Scene Completion (MonoSSC)は、単一の画像から3D環境を再構成し、解釈する。
既存の手法は、しばしば畳み込みネットワーク(CNN)の局所受容領域によって制約される。
GA-MonoSSCは2次元画像領域と3次元空間の両方のグローバルコンテキストを効果的にキャプチャするMonoSSCのハイブリッドアーキテクチャである。
論文 参考訳(メタデータ) (2025-03-09T11:55:40Z) - 3D Spatial Understanding in MLLMs: Disambiguation and Evaluation [13.614206918726314]
本研究では,対象対象物体の局所化・曖昧化能力を高める手法を提案する。
提案手法は,文の類似性を評価する従来の指標に対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-12-09T16:04:32Z) - G3Flow: Generative 3D Semantic Flow for Pose-aware and Generalizable Object Manipulation [65.86819811007157]
本稿では,基礎モデルを活用した動的オブジェクト中心の3D表現であるリアルタイムセマンティックフローを構築する新しいフレームワークG3Flowを提案する。
提案手法は,デジタルツイン生成のための3次元生成モデル,セマンティック特徴抽出のための視覚基盤モデル,連続的なセマンティックフロー更新のためのロバストポーズ追跡を一意に組み合わせたものである。
本研究は,ロボット操作ポリシーのリアルタイムな動的意味的特徴理解におけるG3Flowの有効性を実証するものである。
論文 参考訳(メタデータ) (2024-11-27T14:17:43Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。