論文の概要: GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping
- arxiv url: http://arxiv.org/abs/2403.09637v1
- Date: Thu, 14 Mar 2024 17:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 18:57:03.151658
- Title: GaussianGrasper: 3D Language Gaussian Splatting for Open-vocabulary Robotic Grasping
- Title(参考訳): Gaussian Grasper:オープン語彙ロボットグラフ作成のための3D言語Gaussian Splatting
- Authors: Yuhang Zheng, Xiangyu Chen, Yupeng Zheng, Songen Gu, Runyi Yang, Bu Jin, Pengfei Li, Chengliang Zhong, Zengmao Wang, Lina Liu, Chao Yang, Dawei Wang, Zhen Chen, Xiaoxiao Long, Meiqing Wang,
- Abstract要約: 本稿では,ガウス的原始体のコレクションとして3次元シーンを表現したガウス的グラッパーについて述べる。
提案手法では,RGB-Dビューを限定的に取得し,タイルベースのスプラッティング技術を用いて特徴フィールドを作成する。
ガウス場の再構成幾何を用いて,事前学習したグルーピングモデルにより,衝突のないグルーピングポーズ候補を生成することができる。
- 参考スコア(独自算出の注目度): 27.835192127214032
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Constructing a 3D scene capable of accommodating open-ended language queries, is a pivotal pursuit, particularly within the domain of robotics. Such technology facilitates robots in executing object manipulations based on human language directives. To tackle this challenge, some research efforts have been dedicated to the development of language-embedded implicit fields. However, implicit fields (e.g. NeRF) encounter limitations due to the necessity of processing a large number of input views for reconstruction, coupled with their inherent inefficiencies in inference. Thus, we present the GaussianGrasper, which utilizes 3D Gaussian Splatting to explicitly represent the scene as a collection of Gaussian primitives. Our approach takes a limited set of RGB-D views and employs a tile-based splatting technique to create a feature field. In particular, we propose an Efficient Feature Distillation (EFD) module that employs contrastive learning to efficiently and accurately distill language embeddings derived from foundational models. With the reconstructed geometry of the Gaussian field, our method enables the pre-trained grasping model to generate collision-free grasp pose candidates. Furthermore, we propose a normal-guided grasp module to select the best grasp pose. Through comprehensive real-world experiments, we demonstrate that GaussianGrasper enables robots to accurately query and grasp objects with language instructions, providing a new solution for language-guided manipulation tasks. Data and codes can be available at https://github.com/MrSecant/GaussianGrasper.
- Abstract(参考訳): オープンエンド言語クエリを収容できる3Dシーンの構築は、特にロボティクスの領域における重要な追求である。
このような技術は、人間の言語指示に基づくオブジェクト操作の実行をロボットに促進する。
この課題に取り組むために、言語に埋め込まれた暗黙のフィールドの開発にいくつかの研究努力が注がれている。
しかし、暗黙のフィールド(eg NeRF)は、多くの入力ビューを再構成するために処理する必要があるため、推論の本来の非効率さと相まって制限に遭遇する。
そこで,3次元ガウススプラッティングを用いてガウス原始体の集合としてシーンを明示的に表現するガウスグラフを提案する。
提案手法では,RGB-Dビューを限定的に取得し,タイルベースのスプラッティング技術を用いて特徴フィールドを作成する。
特に,基本モデルから派生した言語埋め込みを効率的に高精度に再現するために,コントラスト学習を用いた効率的な特徴蒸留(EFD)モジュールを提案する。
ガウス場の再構成幾何を用いて,事前学習したグルーピングモデルにより,衝突のないグルーピングポーズ候補を生成することができる。
さらに,最適なグリップポーズを選択するための正規誘導グリップモジュールを提案する。
実世界の総合的な実験を通して、GaussianGrasperはロボットが言語命令でオブジェクトを正確にクエリし、把握し、言語誘導操作タスクのための新しいソリューションを提供することを実証した。
データとコードはhttps://github.com/MrSecant/GaussianGrasper.comで入手できる。
関連論文リスト
- Segment Anything in 3D Gaussians [69.68566640585671]
ニューラルレイディアンス場(NeRF)の代替3次元表現として3次元ガウス散乱が出現した
3Dガウス表現は未解析であるため、まずこの領域内でオブジェクトセグメンテーションを実行する必要がある。
本研究では,3次元ガウス空間における物体分割を,学習過程や学習パラメータを使わずに,対話的な手順で実現するための新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-31T14:19:03Z) - GAvatar: Animatable 3D Gaussian Avatars with Implicit Mesh Learning [63.36547802939503]
ガウススプラッティングは、明示的(メッシュ)と暗黙的(NeRF)の両方の3D表現の利点を利用する強力な3D表現として登場した。
本稿では,ガウススプラッティングを利用してテキスト記述から現実的なアニマタブルなアバターを生成する。
提案手法であるGAvatarは,テキストプロンプトのみを用いて,多様なアニマタブルアバターを大規模に生成する。
論文 参考訳(メタデータ) (2023-12-18T18:59:12Z) - GIR: 3D Gaussian Inverse Rendering for Relightable Scene Factorization [76.52007427483396]
GIRは3次元ガウス逆レンダリング法である。
本手法は,多視点画像から物体の材料特性,照明,形状を推定するために3次元ガウス法を用いる。
論文 参考訳(メタデータ) (2023-12-08T16:05:15Z) - Feature 3DGS: Supercharging 3D Gaussian Splatting to Enable Distilled
Feature Fields [56.29505969704035]
ニューラル・ラジアンス・フィールドを使用する手法は、新しいビュー合成のような従来のタスクに汎用的である。
3次元ガウシアンスプラッティングは, 実時間ラディアンス場レンダリングにおける最先端の性能を示した。
この問題を効果的に回避するために,アーキテクチャとトレーニングの変更を提案する。
論文 参考訳(メタデータ) (2023-12-06T00:46:30Z) - Language Embedded 3D Gaussians for Open-Vocabulary Scene Understanding [2.517953665531978]
オープン語彙クエリタスクのための新しいシーン表現であるLanguage Embedded 3D Gaussiansを紹介する。
我々の表現は、現在の言語埋め込み表現において、最高の視覚的品質と言語クエリの精度を達成する。
論文 参考訳(メタデータ) (2023-11-30T11:50:07Z) - HumanGaussian: Text-Driven 3D Human Generation with Gaussian Splatting [113.37908093915837]
既存の方法は、スコア蒸留サンプリング(SDS)を通じてメッシュやニューラルフィールドのような3D表現を最適化する。
本稿では,高精細な形状とリアルな外観を持つ高品質な3D人間を創出する,効率的かつ効果的な枠組みであるHumanGaussianを提案する。
論文 参考訳(メタデータ) (2023-11-28T18:59:58Z) - GaussianEditor: Swift and Controllable 3D Editing with Gaussian
Splatting [66.08674785436612]
3D編集は、ゲームや仮想現実など、多くの分野で重要な役割を担っている。
メッシュやポイントクラウドのような表現に依存した従来の3D編集手法は、複雑なシーンを現実的に描写するのに不足することが多い。
本稿では,新しい3D表現であるGaussian Splatting(GS)に基づく,革新的で効率的な3D編集アルゴリズムであるGaussianEditorを提案する。
論文 参考訳(メタデータ) (2023-11-24T14:46:59Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance
Grounding [20.308345257733894]
本稿では,言語指導型SHape grAsPingデータを用いた3D学習手法を提案する。
我々は、新しい2段階きめ細粒度ロボット把握ネットワーク(PIONEER)を設計する。
提案手法は, 参照識別, 割当推論, 3次元部分認識の把握において, 良好な性能と効率が得られることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。