論文の概要: $\textbf{Splat-MOVER}$: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.04378v1
- Date: Tue, 7 May 2024 15:00:19 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-08 13:41:05.418736
- Title: $\textbf{Splat-MOVER}$: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- Title(参考訳): $\textbf{Splat-MOVER}$: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- Authors: Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager,
- Abstract要約: Splat-MOVERは、オープン語彙ロボット操作のためのモジュール型ロボットスタックである。
GSplat表現は、言語意味論のための潜伏符号を蒸留し、3Dシーンに余裕をつかむ。
ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。
- 参考スコア(独自算出の注目度): 12.032490472034192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representa- tions to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) $\textit{ASK-Splat}$, a GSplat representation that distills latent codes for language semantics and grasp affordance into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical for many robotics tasks; (ii) $\textit{SEE-Splat}$, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) $\textit{Grasp- Splat}$, a grasp generation module that uses ASK-Splat and SEE-Splat to propose candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp- Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks, as well as in four multi-stage manipulation tasks using the edited scene to reflect scene changes due to prior manipulation stages, which is not possible with the existing baselines. Code for this project and a link to the project page will be made available soon.
- Abstract(参考訳): オープンボキャブラリロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERを提案する。
Splat-MOVER は以下の通りである。
i) $\textit{ASK-Splat}$は、言語意味論の潜在コードを蒸留し、3Dシーンに余裕をつかむGSplat表現である。
ASK-Splatは3Dシーンの幾何学的、意味的、余計な理解を可能にする。
(ii) $\textit{SEE-Splat}$, 3Dセマンティックマスクと埋め込んだリアルタイムのシーン編集モジュールで、現実世界におけるロボットのインタラクションによって生じるオブジェクトの動きを視覚化する。
SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。
(iii)$\textit{Grasp-Splat}$は、ASK-SplatとSEE-Splatを使用して、オープンワールドオブジェクトの候補グリップを提案するグリップ生成モジュールである。
ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。
本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,1段のオープン語彙操作タスクと,既存のベースラインでは不可能な以前の操作ステージによるシーン変化を反映するための編集シーンを用いた4つの複数ステージ操作タスクで比較した。
このプロジェクトのコードとプロジェクトページへのリンクは近く公開される予定だ。
関連論文リスト
- FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation [65.46610405509338]
Track2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象の剛体変換列を推定し、ロボットのエンドエフェクタのポーズを得る。
学習したトラック予測を残留ポリシーと組み合わせることで、ゼロショットロボットの操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Never-Ending Behavior-Cloning Agent for Robotic Manipulation [38.756955029068294]
NBAgentは言語条件のNever-ending Behavior-cloning Agentである。
新しい3Dシーンセマンティクスとロボット操作スキルの観察知識を、スキル共有とスキル固有属性から学習する。
論文 参考訳(メタデータ) (2024-03-01T07:51:29Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - LangSplat: 3D Language Gaussian Splatting [42.16849512832556]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z) - MD-Splatting: Learning Metric Deformation from 4D Gaussians in Highly
Deformable Scenes [37.21392210514045]
MD-Splatting(MD-Splatting)は3次元トラッキングと新しいビュー合成を同時に行う手法である。
MD-スプレイティング(MD-Splatting)は、非計量的、従って正準的な性質を持つガウスの集合を計量空間に射影する変形関数を学習する。
最先端技術と比較して平均23.9%の3Dトラッキングを向上し,同時に高品質なノベルビュー合成を実現した。
論文 参考訳(メタデータ) (2023-11-30T18:53:03Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z) - Instructing Robots by Sketching: Learning from Demonstration via Probabilistic Diagrammatic Teaching [14.839036866911089]
Learning for Demonstration (LfD)は、ロボットが専門家のデモを模倣し、ユーザーが直感的に指示を伝えることを可能にする。
近年のLfDの進歩は、ユーザがデモを指定するための媒体として、審美的教育や遠隔操作に依存していることが多い。
本稿では,LfDの代替パラダイムであるダイアグラム教育を紹介する。
論文 参考訳(メタデータ) (2023-09-07T16:49:38Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - SMPL-IK: Learned Morphology-Aware Inverse Kinematics for AI Driven
Artistic Workflows [9.574645423576932]
我々は、Skinned Multi-Person Linear Model (SMPL) で動作する最先端の機械学習 IK ソルバを拡張した。
リアルタイム3Dソフトウェアに統合されると、この拡張システムは、新しいAI支援アニメーションを定義する機会を開く。
例えば、ポーズのオーサリングはSMPL-IKでより柔軟にでき、ユーザーはキャラクターをポーズしながら性別や体型を変更できる。
論文 参考訳(メタデータ) (2022-08-16T14:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。