論文の概要: Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.04378v4
- Date: Thu, 26 Sep 2024 20:32:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 02:41:28.145838
- Title: Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- Title(参考訳): Splat-MOVER: 編集可能なガウススプレイティングによる多段オープンボキャブラリロボットマニピュレーション
- Authors: Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager,
- Abstract要約: 本稿では,オープンボキャブラリロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERを紹介する。
Splat-MOVERは, (i) ASK-Splat, (ii) SEE-Splat, (ii) SEE-Splat, 3Dセマンティックマスクと埋め込みを用いたリアルタイムシーン編集モジュール, (iii) Grasp-Splat, ASK-Splat と SEE-Splat を用いて,オープンワールドオブジェクトに対するアベイランス対応の候補把握を提案する。
- 参考スコア(独自算出の注目度): 12.032490472034192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representations to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) ASK-Splat, a GSplat representation that distills semantic and grasp affordance features into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical in many robotics tasks; (ii) SEE-Splat, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) Grasp-Splat, a grasp generation module that uses ASK-Splat and SEE-Splat to propose affordance-aligned candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp-Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks and in four multi-stage manipulation tasks, using the edited scene to reflect changes due to prior manipulation stages, which is not possible with existing baselines. Video demonstrations and the code for the project are available at https://splatmover.github.io.
- Abstract(参考訳): オープン語彙ロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERについて述べる。
Splat-MOVER は以下の通りである。
(i)ASK-Splatは、3Dシーンに意味を蒸留し、手頃な特徴を把握できるGSplat表現である。
ASK-Splatは、多くのロボット作業において重要な3Dシーンの幾何学的、意味的、そして余分な理解を可能にする。
(II)SEE-Splatは3次元セマンティックマスクと埋め込んだリアルタイムシーン編集モジュールで、現実世界におけるロボットの相互作用によって生じる物体の動きを可視化する。
SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。
3)ASK-SplatとSEE-Splatを併用したグリップ生成モジュールであるGrasp-Splatは、オープンワールドオブジェクトに対して、アベイランス対応の候補グリップを提案する。
ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。
本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,既存のベースラインでは不可能な1段のオープン語彙操作タスクと4段のマルチステージ操作タスクの2つのベースラインと比較した。
デモビデオとプロジェクトのコードはhttps://splatmover.github.io.comで公開されている。
関連論文リスト
- SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T03:56:01Z) - Occam's LGS: A Simple Approach for Language Gaussian Splatting [57.00354758206751]
言語接地型3次元ガウススプラッティングの高度な技術は、単に不要であることを示す。
オッカムのカミソリを手作業に適用し、重み付けされた多視点特徴集計を行う。
我々の結果は2桁のスピードアップによる最先端の結果を提供する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文 参考訳(メタデータ) (2024-12-01T08:59:30Z) - SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis [19.351291267779416]
SplatFlowは3DGSの直接生成と編集を可能にする包括的フレームワークである。
SplatFlowは、マルチビュー整流(RF)モデルとガウス整流デコーダ(GSDecoder)の2つの主要コンポーネントから構成される。
我々は、MVImgNetとDL3DV-7Kデータセット上でSplatFlowの能力を検証し、様々な3D生成、編集、塗装に基づくタスクにおいて、その汎用性と有効性を示す。
論文 参考訳(メタデータ) (2024-11-25T14:46:17Z) - Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting [27.45827655042124]
3Dガウススプレイティングを用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワーク(3DGS)を提案する。
我々はまず,新しい意味深度アライメント法により,数発の3DGSの性能を向上する。
次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
論文 参考訳(メタデータ) (2024-10-07T01:24:39Z) - InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは、2〜3枚の画像から正確な3D表現を構築する、新規で高速なニューラルリコンストラクションシステムである。
InstantSplatは、フレーム間の密集したステレオ先行とコビジュアライザの関係を統合して、シーンを徐々に拡張することでピクセルアライメントを初期化する。
SSIMは3D-GSでCOLMAPよりも0.3755から0.7624に向上し、複数の3D表現と互換性がある。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - LangSplat: 3D Language Gaussian Splatting [42.16849512832556]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。