論文の概要: $\textbf{Splat-MOVER}$: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- arxiv url: http://arxiv.org/abs/2405.04378v1
- Date: Tue, 7 May 2024 15:00:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-05-08 13:41:05.418736
- Title: $\textbf{Splat-MOVER}$: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- Title(参考訳): $\textbf{Splat-MOVER}$: Multi-Stage, Open-Vocabulary Robotic Manipulation via Editable Gaussian Splatting
- Authors: Ola Shorinwa, Johnathan Tucker, Aliyah Smith, Aiden Swann, Timothy Chen, Roya Firoozi, Monroe Kennedy III, Mac Schwager,
- Abstract要約: Splat-MOVERは、オープン語彙ロボット操作のためのモジュール型ロボットスタックである。
GSplat表現は、言語意味論のための潜伏符号を蒸留し、3Dシーンに余裕をつかむ。
ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。
- 参考スコア(独自算出の注目度): 12.032490472034192
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Splat-MOVER, a modular robotics stack for open-vocabulary robotic manipulation, which leverages the editability of Gaussian Splatting (GSplat) scene representa- tions to enable multi-stage manipulation tasks. Splat-MOVER consists of: (i) $\textit{ASK-Splat}$, a GSplat representation that distills latent codes for language semantics and grasp affordance into the 3D scene. ASK-Splat enables geometric, semantic, and affordance understanding of 3D scenes, which is critical for many robotics tasks; (ii) $\textit{SEE-Splat}$, a real-time scene-editing module using 3D semantic masking and infilling to visualize the motions of objects that result from robot interactions in the real-world. SEE-Splat creates a "digital twin" of the evolving environment throughout the manipulation task; and (iii) $\textit{Grasp- Splat}$, a grasp generation module that uses ASK-Splat and SEE-Splat to propose candidate grasps for open-world objects. ASK-Splat is trained in real-time from RGB images in a brief scanning phase prior to operation, while SEE-Splat and Grasp- Splat run in real-time during operation. We demonstrate the superior performance of Splat-MOVER in hardware experiments on a Kinova robot compared to two recent baselines in four single-stage, open-vocabulary manipulation tasks, as well as in four multi-stage manipulation tasks using the edited scene to reflect scene changes due to prior manipulation stages, which is not possible with the existing baselines. Code for this project and a link to the project page will be made available soon.
- Abstract(参考訳): オープンボキャブラリロボット操作のためのモジュール型ロボットスタックであるSplat-MOVERを提案する。
Splat-MOVER は以下の通りである。
i) $\textit{ASK-Splat}$は、言語意味論の潜在コードを蒸留し、3Dシーンに余裕をつかむGSplat表現である。
ASK-Splatは3Dシーンの幾何学的、意味的、余計な理解を可能にする。
(ii) $\textit{SEE-Splat}$, 3Dセマンティックマスクと埋め込んだリアルタイムのシーン編集モジュールで、現実世界におけるロボットのインタラクションによって生じるオブジェクトの動きを視覚化する。
SEE-Splatは、操作タスク全体を通して進化する環境の「デジタルツイン」を生成します。
(iii)$\textit{Grasp-Splat}$は、ASK-SplatとSEE-Splatを使用して、オープンワールドオブジェクトの候補グリップを提案するグリップ生成モジュールである。
ASK-Splatは運用前にRGBイメージから短時間のスキャンフェーズでリアルタイムにトレーニングされ、SEE-SplatとGrasp-Splatは運用中にリアルタイムに実行される。
本研究では,Kinovaロボットのハードウェア実験におけるSplat-MOVERの性能を,1段のオープン語彙操作タスクと,既存のベースラインでは不可能な以前の操作ステージによるシーン変化を反映するための編集シーンを用いた4つの複数ステージ操作タスクで比較した。
このプロジェクトのコードとプロジェクトページへのリンクは近く公開される予定だ。
関連論文リスト
- GS-LTS: 3D Gaussian Splatting-Based Adaptive Modeling for Long-Term Service Robots [33.19663755125912]
3D Gaussian Splatting (3DGS)は、ロボット工学において、鮮明で高忠実なシーン表現のために大きな注目を集めている。
室内ロボットによる動的環境における多様なタスクの時間的管理を可能にする3DGSベースのシステムであるGS-LTSを提案する。
論文 参考訳(メタデータ) (2025-03-22T11:26:47Z) - SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images [125.66499135980344]
オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-12-03T03:56:01Z) - Occam's LGS: An Efficient Approach for Language Gaussian Splatting [57.00354758206751]
言語3Dガウススプラッティングのための複雑なパイプラインは、単純に不要であることを示す。
我々は,オッカムのカミソリを手作業に適用し,高効率な重み付き多視点特徴集約技術を実現する。
論文 参考訳(メタデータ) (2024-12-02T18:50:37Z) - ChatSplat: 3D Conversational Gaussian Splatting [51.40403199909113]
ChatSplatは3D言語フィールドを構築するシステムで、3D空間内でリッチなチャットベースのインタラクションを可能にする。
ビューレベルのインタラクションのために,各ビューのレンダリングされた特徴マップをトークンにエンコードするエンコーダを設計し,それを大規模言語モデルで処理した。
シーンレベルでは、ChatSplatはマルチビュートークンを組み合わせて、シーン全体を考慮したインタラクションを可能にする。
論文 参考訳(メタデータ) (2024-12-01T08:59:30Z) - SplatFlow: Multi-View Rectified Flow Model for 3D Gaussian Splatting Synthesis [19.351291267779416]
SplatFlowは3DGSの直接生成と編集を可能にする包括的フレームワークである。
SplatFlowは、マルチビュー整流(RF)モデルとガウス整流デコーダ(GSDecoder)の2つの主要コンポーネントから構成される。
我々は、MVImgNetとDL3DV-7Kデータセット上でSplatFlowの能力を検証し、様々な3D生成、編集、塗装に基づくタスクにおいて、その汎用性と有効性を示す。
論文 参考訳(メタデータ) (2024-11-25T14:46:17Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Next Best Sense: Guiding Vision and Touch with FisherRF for 3D Gaussian Splatting [27.45827655042124]
3Dガウススプレイティングを用いたロボットマニピュレータの能動的次ベストビューとタッチ選択のためのフレームワーク(3DGS)を提案する。
我々はまず,新しい意味深度アライメント法により,数発の3DGSの性能を向上する。
次に、3DGSの次のベストビュー選択方法であるFisherRFを拡張して、奥行きの不確実性に基づいたビューとタッチポーズを選択する。
論文 参考訳(メタデータ) (2024-10-07T01:24:39Z) - GraspSplats: Efficient Manipulation with 3D Feature Splatting [13.654484429008964]
我々は60秒未満で高品質なシーン表現を生成するGraspSplatsを提案する。
フランカロボットの広範な実験により,GraspSplatsが既存手法よりも優れていたことが実証された。
論文 参考訳(メタデータ) (2024-09-03T17:35:48Z) - FreeSplat: Generalizable 3D Gaussian Splatting Towards Free-View Synthesis of Indoor Scenes [50.534213038479926]
FreeSplatは、長いシーケンス入力から自由視点合成まで、幾何学的に一貫した3Dシーンを再構築することができる。
ビュー数に関係なく、広いビュー範囲にわたる堅牢なビュー合成を実現するための、シンプルで効果的なフリービュートレーニング戦略を提案する。
論文 参考訳(メタデータ) (2024-05-28T08:40:14Z) - Track2Act: Predicting Point Tracks from Internet Videos enables Generalizable Robot Manipulation [65.46610405509338]
我々は、ゼロショットロボット操作を可能にする汎用的な目標条件ポリシーを学習することを目指している。
私たちのフレームワークであるTrack2Actは、ゴールに基づいて将来のタイムステップで画像内のポイントがどのように動くかを予測する。
学習したトラック予測を残留ポリシーと組み合わせることで,多種多様な汎用ロボット操作が可能となることを示す。
論文 参考訳(メタデータ) (2024-05-02T17:56:55Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - LangSplat: 3D Language Gaussian Splatting [42.16849512832556]
LangSplatは、3D空間内で正確で効率的なオープン語彙クエリを可能にする3D言語フィールドを構築する。
LangSplat は従来の最先端手法 LERF を大きなマージンで大幅に上回っている。
論文 参考訳(メタデータ) (2023-12-26T15:14:37Z) - SplatMesh: Interactive 3D Segmentation and Editing Using Mesh-Based Gaussian Splatting [86.50200613220674]
3Dベースのインタラクティブ編集における重要な課題は、与えられたメモリ制約の下で様々な修正と高品質なビュー合成のバランスをとる効率的な表現がないことである。
SplatMeshは,3次元ガウススプラッティングと事前計算メッシュを統合した,対話型3Dセグメンテーション・編集アルゴリズムである。
単純化されたメッシュのセグメンテーションと編集により、ガウススプレートの編集も効果的に行えます。
論文 参考訳(メタデータ) (2023-12-26T02:50:42Z) - SG-Bot: Object Rearrangement via Coarse-to-Fine Robotic Imagination on Scene Graphs [81.15889805560333]
本稿では,新しいアレンジメントフレームワークであるSG-Botを紹介する。
SG-Botは軽量でリアルタイムでユーザ制御可能な特性を実証する。
実験の結果、SG-Botはライバルよりも大きなマージンで優れていることが示された。
論文 参考訳(メタデータ) (2023-09-21T15:54:33Z) - SMPL-IK: Learned Morphology-Aware Inverse Kinematics for AI Driven
Artistic Workflows [9.574645423576932]
我々は、Skinned Multi-Person Linear Model (SMPL) で動作する最先端の機械学習 IK ソルバを拡張した。
リアルタイム3Dソフトウェアに統合されると、この拡張システムは、新しいAI支援アニメーションを定義する機会を開く。
例えば、ポーズのオーサリングはSMPL-IKでより柔軟にでき、ユーザーはキャラクターをポーズしながら性別や体型を変更できる。
論文 参考訳(メタデータ) (2022-08-16T14:35:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。