論文の概要: GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping
- arxiv url: http://arxiv.org/abs/2403.09637v1
- Date: Thu, 14 Mar 2024 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 18:57:03.151658
- Title: GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping
- Title(参考訳): Gaussian Grasper:オープン語彙ロボットグラフ作成のための3D言語Gaussian Splatting
- Authors: Yuhang Zheng, Xiangyu Chen, Yupeng Zheng, Songen Gu, Runyi Yang, Bu Jin, Pengfei Li, Chengliang Zhong, Zengmao Wang, Lina Liu, Chao Yang, Dawei Wang, Zhen Chen, Xiaoxiao Long, Meiqing Wang,
- Abstract要約: 本稿では,ガウス的原始体のコレクションとして3次元シーンを表現したガウス的グラッパーについて述べる。
提案手法では,RGB-Dビューを限定的に取得し,タイルベースのスプラッティング技術を用いて特徴フィールドを作成する。
ガウス場の再構成幾何を用いて,事前学習したグルーピングモデルにより,衝突のないグルーピングポーズ候補を生成することができる。
- 参考スコア(独自算出の注目度): 27.835192127214032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing a 3D scene capable of accommodating open-ended language queries, is a pivotal pursuit, particularly within the domain of robotics. Such technology facilitates robots in executing object manipulations based on human language directives. To tackle this challenge, some research efforts have been dedicated to the development of language-embedded implicit fields. However, implicit fields (e.g. NeRF) encounter limitations due to the necessity of processing a large number of input views for reconstruction, coupled with their inherent inefficiencies in inference. Thus, we present the GaussianGrasper, which utilizes 3D Gaussian Splatting to explicitly represent the scene as a collection of Gaussian primitives. Our approach takes a limited set of RGB-D views and employs a tile-based splatting technique to create a feature field. In particular, we propose an Efficient Feature Distillation (EFD) module that employs contrastive learning to efficiently and accurately distill language embeddings derived from foundational models. With the reconstructed geometry of the Gaussian field, our method enables the pre-trained grasping model to generate collision-free grasp pose candidates. Furthermore, we propose a normal-guided grasp module to select the best grasp pose. Through comprehensive real-world experiments, we demonstrate that GaussianGrasper enables robots to accurately query and grasp objects with language instructions, providing a new solution for language-guided manipulation tasks. Data and codes can be available at https://github.com/MrSecant/GaussianGrasper.
- Abstract(参考訳): オープンエンド言語クエリを収容できる3Dシーンの構築は、特にロボティクスの領域における重要な追求である。
このような技術は、人間の言語指示に基づくオブジェクト操作の実行をロボットに促進する。
この課題に取り組むために、言語に埋め込まれた暗黙のフィールドの開発にいくつかの研究努力が注がれている。
しかし、暗黙のフィールド(eg NeRF)は、多くの入力ビューを再構成するために処理する必要があるため、推論の本来の非効率さと相まって制限に遭遇する。
そこで,3次元ガウススプラッティングを用いてガウス原始体の集合としてシーンを明示的に表現するガウスグラフを提案する。
提案手法では,RGB-Dビューを限定的に取得し,タイルベースのスプラッティング技術を用いて特徴フィールドを作成する。
特に,基本モデルから派生した言語埋め込みを効率的に高精度に再現するために,コントラスト学習を用いた効率的な特徴蒸留(EFD)モジュールを提案する。
ガウス場の再構成幾何を用いて,事前学習したグルーピングモデルにより,衝突のないグルーピングポーズ候補を生成することができる。
さらに,最適なグリップポーズを選択するための正規誘導グリップモジュールを提案する。
実世界の総合的な実験を通して、GaussianGrasperはロボットが言語命令でオブジェクトを正確にクエリし、把握し、言語誘導操作タスクのための新しいソリューションを提供することを実証した。
データとコードはhttps://github.com/MrSecant/GaussianGrasper.comで入手できる。
関連論文リスト
- Beyond Bare Queries: Open-Vocabulary Object Grounding with 3D Scene Graph [0.3926357402982764]
本稿では,メカニカルエッジとセマンティックエッジを用いた3次元シーングラフ表現を構築するBBQというモジュラーアプローチを提案する。
BBQは、3Dオブジェクト中心のマップを構築するために、堅牢なDINO対応のアソシエーションを使用している。
BBQは,他のゼロショット法と比較して,オープンな3次元セマンティックセマンティックセマンティックセグメンテーションにおいて中心的な役割を担っていることを示す。
論文 参考訳(メタデータ) (2024-06-11T09:57:04Z) - $\textit{S}^3$Gaussian: Self-Supervised Street Gaussians for Autonomous Driving [82.82048452755394]
光リアルなストリートシーンの3D再構成は、現実の自動運転シミュレータを開発する上で重要な技術である。
既存のストリート3DGS法の多くは、静的および動的要素を分解するために、トラックされた3D車両バウンディングボックスを必要とする。
動的および静的な要素を4次元整合性から分解する自己教師付きストリートガウス(textitS3$Gaussian)手法を提案する。
論文 参考訳(メタデータ) (2024-05-30T17:57:08Z) - GOI: Find 3D Gaussians of Interest with an Optimizable Open-vocabulary Semantic-space Hyperplane [53.388937705785025]
3Dオープンボキャブラリのシーン理解は、拡張現実とロボット応用の推進に不可欠である。
GOIは2次元視覚言語基礎モデルから3次元ガウススプラッティング(3DGS)に意味的特徴を統合するフレームワークである。
提案手法では,特徴空間内の超平面分割として特徴選択処理を扱い,クエリに関連性の高い特徴のみを保持する。
論文 参考訳(メタデータ) (2024-05-27T18:57:18Z) - GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。
本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。
GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-05-27T17:59:51Z) - TIGER: Text-Instructed 3D Gaussian Retrieval and Coherent Editing [12.50147114409895]
本稿では,テキストによる3Dガウス検索と編集のための体系的アプローチ,すなわちTIGERを提案する。
本稿では,2次元画像編集拡散モデルと多視点拡散モデルを集約したコヒーレントスコア蒸留(CSD)を提案する。
論文 参考訳(メタデータ) (2024-05-23T11:37:17Z) - Semantic Gaussians: Open-Vocabulary Scene Understanding with 3D Gaussian Splatting [27.974762304763694]
セマンティック・ガウシアン(Semantic Gaussians)は,3次元ガウシアン・スプレイティングをベースとした,新しいオープン語彙シーン理解手法である。
既存の手法とは異なり、様々な2次元意味的特徴を3次元ガウスの新たな意味的構成要素にマッピングする多目的投影手法を設計する。
我々は,高速な推論のために,生の3Dガウスから意味成分を直接予測する3Dセマンティックネットワークを構築した。
論文 参考訳(メタデータ) (2024-03-22T21:28:19Z) - GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [60.33970027554299]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。
本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。
提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文 参考訳(メタデータ) (2023-12-18T18:59:12Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled Feature Fields [54.482261428543985]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting [113.37908093915837]
既存の方法は、スコア蒸留サンプリング(SDS)を通じてメッシュやニューラルフィールドのような3D表現を最適化する。
本稿では,高精細な形状とリアルな外観を持つ高品質な3D人間を創出する,効率的かつ効果的な枠組みであるHumanGaussianを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。