論文の概要: Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.04378v3
- Date: Sat, 8 Jun 2024 05:42:24 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 00:04:39.301836
- Title: Splat-MOVER: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- Title(参考訳): Splat-MOVER: 編集可能なガウススプレイティングによる多段オープンボキャブラリロボットマニピュレーション
- Authors: Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager,
- Abstract要約: 本稿では,オープンボキャブラリロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERを紹介する。
Splat-MOVERは, (i) ASK-Splat, (ii) SEE-Splat, (ii) SEE-Splat, 3Dセマンティックマスクと埋め込みを用いたリアルタイムシーン編集モジュール, (iii) Grasp-Splat, ASK-Splat と SEE-Splat を用いて,オープンワールドオブジェクトに対するアベイランス対応の候補把握を提案する。
- 参考スコア(独自算出の注目度): 12.032490472034192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representations to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) ASK-Splat, a GSplat representation that distills semantic and grasp affordance features into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical in many robotics tasks; (ii) SEE-Splat, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) Grasp-Splat, a grasp generation module that uses ASK-Splat and SEE-Splat to propose affordance-aligned candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp-Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks and in four multi-stage manipulation tasks, using the edited scene to reflect changes due to prior manipulation stages, which is not possible with existing baselines. The project page is available at https://splatmover.github.io, and the code for the project will be made available after review.
- Abstract(参考訳): オープン語彙ロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERについて述べる。
Splat-MOVER は以下の通りである。
(i)ASK-Splatは、3Dシーンに意味を蒸留し、手頃な特徴を把握できるGSplat表現である。
ASK-Splatは、多くのロボット作業において重要な3Dシーンの幾何学的、意味的、そして余分な理解を可能にする。
(II)SEE-Splatは3次元セマンティックマスクと埋め込んだリアルタイムシーン編集モジュールで、現実世界におけるロボットの相互作用によって生じる物体の動きを可視化する。
SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。
3)ASK-SplatとSEE-Splatを併用したグリップ生成モジュールであるGrasp-Splatは、オープンワールドオブジェクトに対して、アベイランス対応の候補グリップを提案する。
ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。
本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,既存のベースラインでは不可能な1段のオープン語彙操作タスクと4段のマルチステージ操作タスクの2つのベースラインと比較した。
プロジェクトのページはhttps://splatmover.github.ioで公開されている。
関連論文リスト
- Epipolar-Free 3D Gaussian Splatting for Generalizable Novel View Synthesis [25.924727931514735]
一般化可能な3DGSは、フィードフォワード推論方式でスパースビュー観測から新しいシーンを再構築することができる。
既存の手法は、複雑な現実世界のシーンでは信頼できないエピポーラ先行に大きく依存している。
一般化可能な新規ビュー合成のための効率的なフィードフォワード3DGSモデルであるeFreeSplatを提案する。
論文 参考訳(メタデータ) (2024-10-30T08:51:29Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting [27.45827655042124]
3Dガウススプレイティングを用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワーク(3DGS)を提案する。
我々はまず,新しい意味深度アライメント法により,数発の3DGSの性能を向上する。
次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
論文 参考訳(メタデータ) (2024-10-07T01:24:39Z) - GraspSplats: Efficient Manipulation with 3D Feature Splatting [13.654484429008964]
我々は60秒未満で高品質なシーン表現を生成するGraspSplatsを提案する。
フランカロボットの広範な実験により,GraspSplatsが既存手法よりも優れていたことが実証された。
論文 参考訳(メタデータ) (2024-09-03T17:35:48Z) - FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - LangSplat: 3D Language Gaussian Splatting [42.16849512832556]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z) - SMPL-IK: Learned Morphology-Aware Inverse Kinematics for AI Driven
Artistic Workflows [9.574645423576932]
我々は、Skinned Multi-Person Linear Model (SMPL) で動作する最先端の機械学習 IK ソルバを拡張した。
リアルタイム3Dソフトウェアに統合されると、この拡張システムは、新しいAI支援アニメーションを定義する機会を開く。
例えば、ポーズのオーサリングはSMPL-IKでより柔軟にでき、ユーザーはキャラクターをポーズしながら性別や体型を変更できる。
論文 参考訳(メタデータ) (2022-08-16T14:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。