論文の概要: GraspSplats: Efficient Manipulation with 3D Feature Splatting
- arxiv url: http://arxiv.org/abs/2409.02084v1
- Date: Tue, 3 Sep 2024 17:35:48 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 00:04:31.247350
- Title: GraspSplats: Efficient Manipulation with 3D Feature Splatting
- Title(参考訳): GraspSplats: 3D特徴分割による効率的な操作
- Authors: Mazeyu Ji, Ri-Zhao Qiu, Xueyan Zou, Xiaolong Wang,
- Abstract要約: 我々は60秒未満で高品質なシーン表現を生成するGraspSplatsを提案する。
フランカロボットの広範な実験により,GraspSplatsが既存手法よりも優れていたことが実証された。
- 参考スコア(独自算出の注目度): 13.654484429008964
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability for robots to perform efficient and zero-shot grasping of object parts is crucial for practical applications and is becoming prevalent with recent advances in Vision-Language Models (VLMs). To bridge the 2D-to-3D gap for representations to support such a capability, existing methods rely on neural fields (NeRFs) via differentiable rendering or point-based projection methods. However, we demonstrate that NeRFs are inappropriate for scene changes due to their implicitness and point-based methods are inaccurate for part localization without rendering-based optimization. To amend these issues, we propose GraspSplats. Using depth supervision and a novel reference feature computation method, GraspSplats generates high-quality scene representations in under 60 seconds. We further validate the advantages of Gaussian-based representation by showing that the explicit and optimized geometry in GraspSplats is sufficient to natively support (1) real-time grasp sampling and (2) dynamic and articulated object manipulation with point trackers. With extensive experiments on a Franka robot, we demonstrate that GraspSplats significantly outperforms existing methods under diverse task settings. In particular, GraspSplats outperforms NeRF-based methods like F3RM and LERF-TOGO, and 2D detection methods.
- Abstract(参考訳): ロボットが物体部品を効率よくゼロショットでつかむ能力は、実用上極めて重要であり、近年のビジョン・ランゲージ・モデル(VLM)の発展とともに普及しつつある。
このような能力をサポートするために表現のための2Dから3Dのギャップを埋めるために、既存の手法は、微分可能なレンダリングやポイントベースプロジェクションメソッドを通じて、ニューラルネットワーク(NeRF)に依存している。
しかし,NeRFは暗黙性のためシーン変更には不適切であり,点ベース手法はレンダリングベース最適化を使わずに部分ローカライゼーションには不正確であることを示す。
これらの問題を解決するため、我々はGraspSplatsを提案する。
深度監視と新しい参照特徴計算法を用いて,60秒未満で高品質なシーン表現を生成する。
さらに,GraspSplatsにおける明示的かつ最適化された幾何は,(1)リアルタイムグリップサンプリングと(2)ポイントトラッカーを用いた動的・明瞭なオブジェクト操作をネイティブにサポートするのに十分であることを示すことにより,ガウス表現の利点を検証した。
フランカロボットの広範な実験により,GraspSplatsはタスク設定の異なる既存手法よりも優れていたことが実証された。
特にGraspSplatsは、F3RMやLERF-TOGOのようなNeRFベースの手法と2D検出方法より優れている。
関連論文リスト
- LP-3DGS: Learning to Prune 3D Gaussian Splatting [71.97762528812187]
本稿では,トレーニング可能な2値マスクを重要度に応用し,最適プルーニング比を自動的に検出する3DGSを提案する。
実験の結果,LP-3DGSは効率と高品質の両面において良好なバランスを保っていることがわかった。
論文 参考訳(メタデータ) (2024-05-29T05:58:34Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - Scaffold-GS: Structured 3D Gaussians for View-Adaptive Rendering [71.44349029439944]
最近の3次元ガウス散乱法は、最先端のレンダリング品質と速度を達成している。
局所的な3Dガウス分布にアンカーポイントを用いるScaffold-GSを導入する。
提案手法は,高品質なレンダリングを実現しつつ,冗長なガウスを効果的に削減できることを示す。
論文 参考訳(メタデータ) (2023-11-30T17:58:57Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Neural Deformable Voxel Grid for Fast Optimization of Dynamic View
Synthesis [63.25919018001152]
動的シーンを扱うための高速な変形可能な放射場法を提案する。
本手法は訓練に20分しかかからないD-NeRFに匹敵する性能を実現する。
論文 参考訳(メタデータ) (2022-06-15T17:49:08Z) - Improved Pillar with Fine-grained Feature for 3D Object Detection [23.348710029787068]
LiDAR点雲を用いた3次元物体検出は、自律走行知覚モジュールにおいて重要な役割を果たす。
既存の点ベースの手法は、生の点が多すぎるため、速度要件に到達するのが困難である。
PointPillarのような2Dグリッドベースの手法は、単純な2D畳み込みに基づいて、安定的で効率的な速度を容易に達成できる。
論文 参考訳(メタデータ) (2021-10-12T14:53:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。