論文の概要: Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.04378v4
- Date: Thu, 26 Sep 2024 20:32:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-01 06:54:28.368625
- Title: Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- Title(参考訳): Splat-MOVER: 編集可能なガウススプレイティングによる多段オープンボキャブラリロボットマニピュレーション
- Authors: Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager,
- Abstract要約: 本稿では,オープンボキャブラリロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERを紹介する。
Splat-MOVERは, (i) ASK-Splat, (ii) SEE-Splat, (ii) SEE-Splat, 3Dセマンティックマスクと埋め込みを用いたリアルタイムシーン編集モジュール, (iii) Grasp-Splat, ASK-Splat と SEE-Splat を用いて,オープンワールドオブジェクトに対するアベイランス対応の候補把握を提案する。
- 参考スコア(独自算出の注目度): 12.032490472034192
- License:
- Abstract: We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representations to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) ASK-Splat, a GSplat representation that distills semantic and grasp affordance features into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical in many robotics tasks; (ii) SEE-Splat, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) Grasp-Splat, a grasp generation module that uses ASK-Splat and SEE-Splat to propose affordance-aligned candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp-Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks and in four multi-stage manipulation tasks, using the edited scene to reflect changes due to prior manipulation stages, which is not possible with existing baselines. Video demonstrations and the code for the project are available at https://splatmover.github.io.
- Abstract(参考訳): オープン語彙ロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERについて述べる。
Splat-MOVER は以下の通りである。
(i)ASK-Splatは、3Dシーンに意味を蒸留し、手頃な特徴を把握できるGSplat表現である。
ASK-Splatは、多くのロボット作業において重要な3Dシーンの幾何学的、意味的、そして余分な理解を可能にする。
(II)SEE-Splatは3次元セマンティックマスクと埋め込んだリアルタイムシーン編集モジュールで、現実世界におけるロボットの相互作用によって生じる物体の動きを可視化する。
SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。
3)ASK-SplatとSEE-Splatを併用したグリップ生成モジュールであるGrasp-Splatは、オープンワールドオブジェクトに対して、アベイランス対応の候補グリップを提案する。
ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。
本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,既存のベースラインでは不可能な1段のオープン語彙操作タスクと4段のマルチステージ操作タスクの2つのベースラインと比較した。
デモビデオとプロジェクトのコードはhttps://splatmover.github.io.comで公開されている。
関連論文リスト
- FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Diverse Zero-shot Robot Manipulation [65.46610405509338]
Track2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
これらの2次元トラック予測を用いて、操作対象の剛体変換列を推定し、ロボットのエンドエフェクタのポーズを得る。
学習したトラック予測を残留ポリシーと組み合わせることで、ゼロショットロボットの操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Never-Ending Behavior-Cloning Agent for Robotic Manipulation [38.756955029068294]
NBAgentは言語条件のNever-ending Behavior-cloning Agentである。
新しい3Dシーンセマンティクスとロボット操作スキルの観察知識を、スキル共有とスキル固有属性から学習する。
論文 参考訳(メタデータ) (2024-03-01T07:51:29Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - LangSplat: 3D Language Gaussian Splatting [42.16849512832556]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z) - MD-Splatting: Learning Metric Deformation from 4D Gaussians in Highly
Deformable Scenes [37.21392210514045]
MD-Splatting(MD-Splatting)は3次元トラッキングと新しいビュー合成を同時に行う手法である。
MD-スプレイティング(MD-Splatting)は、非計量的、従って正準的な性質を持つガウスの集合を計量空間に射影する変形関数を学習する。
最先端技術と比較して平均23.9%の3Dトラッキングを向上し,同時に高品質なノベルビュー合成を実現した。
論文 参考訳(メタデータ) (2023-11-30T18:53:03Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z) - Instructing Robots by Sketching: Learning from Demonstration via Probabilistic Diagrammatic Teaching [14.839036866911089]
Learning for Demonstration (LfD)は、ロボットが専門家のデモを模倣し、ユーザーが直感的に指示を伝えることを可能にする。
近年のLfDの進歩は、ユーザがデモを指定するための媒体として、審美的教育や遠隔操作に依存していることが多い。
本稿では,LfDの代替パラダイムであるダイアグラム教育を紹介する。
論文 参考訳(メタデータ) (2023-09-07T16:49:38Z) - SGAligner : 3D Scene Alignment with Scene Graphs [84.01002998166145]
3Dシーングラフの構築は、いくつかの具体的AIアプリケーションのためのシーン表現のトピックとして登場した。
オーバーラップ可能な3次元シーングラフのペアをゼロから部分的に整列させるという基本的な問題に着目する。
そこで我々はSGAlignerを提案する。SGAlignerは3次元シーングラフのペアを組合わせるための最初の方法であり、その組込みシナリオに対して堅牢である。
論文 参考訳(メタデータ) (2023-04-28T14:39:22Z) - SMPL-IK: Learned Morphology-Aware Inverse Kinematics for AI Driven
Artistic Workflows [9.574645423576932]
我々は、Skinned Multi-Person Linear Model (SMPL) で動作する最先端の機械学習 IK ソルバを拡張した。
リアルタイム3Dソフトウェアに統合されると、この拡張システムは、新しいAI支援アニメーションを定義する機会を開く。
例えば、ポーズのオーサリングはSMPL-IKでより柔軟にでき、ユーザーはキャラクターをポーズしながら性別や体型を変更できる。
論文 参考訳(メタデータ) (2022-08-16T14:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。