論文の概要: SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images
- arxiv url: http://arxiv.org/abs/2412.02140v1
- Date: Tue, 03 Dec 2024 03:56:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:30.232178
- Title: SparseGrasp: Robotic Grasping via 3D Semantic Gaussian Splatting from Sparse Multi-View RGB Images
- Title(参考訳): SparseGrasp:スパースマルチビューRGB画像からの3Dセマンティックガウススプレイティングによるロボットグラフ作成
- Authors: Junqiu Yu, Xinlin Ren, Yongchong Gu, Haitao Lin, Tianyu Wang, Yi Zhu, Hang Xu, Yu-Gang Jiang, Xiangyang Xue, Yanwei Fu,
- Abstract要約: オープンボキャブラリ型ロボットグリップシステムであるSparseGraspを提案する。
SparseGraspはスパースビューのRGBイメージで効率的に動作し、シーン更新を高速に処理する。
SparseGraspは, 高速化と適応性の両方の観点から, 最先端の手法よりも優れていることを示す。
- 参考スコア(独自算出の注目度): 125.66499135980344
- License:
- Abstract: Language-guided robotic grasping is a rapidly advancing field where robots are instructed using human language to grasp specific objects. However, existing methods often depend on dense camera views and struggle to quickly update scenes, limiting their effectiveness in changeable environments. In contrast, we propose SparseGrasp, a novel open-vocabulary robotic grasping system that operates efficiently with sparse-view RGB images and handles scene updates fastly. Our system builds upon and significantly enhances existing computer vision modules in robotic learning. Specifically, SparseGrasp utilizes DUSt3R to generate a dense point cloud as the initialization for 3D Gaussian Splatting (3DGS), maintaining high fidelity even under sparse supervision. Importantly, SparseGrasp incorporates semantic awareness from recent vision foundation models. To further improve processing efficiency, we repurpose Principal Component Analysis (PCA) to compress features from 2D models. Additionally, we introduce a novel render-and-compare strategy that ensures rapid scene updates, enabling multi-turn grasping in changeable environments. Experimental results show that SparseGrasp significantly outperforms state-of-the-art methods in terms of both speed and adaptability, providing a robust solution for multi-turn grasping in changeable environment.
- Abstract(参考訳): 言語誘導型ロボットグルーピングは、ロボットに人間の言語を使って特定の物体を把握するように指示する、急速に進歩する分野である。
しかし、既存の手法は、しばしば密集したカメラビューに依存し、シーンの迅速な更新に苦慮し、変更可能な環境における有効性を制限している。
対照的に、スパースビューRGB画像を用いて効率的に動作し、シーン更新を高速に処理する、新しいオープン語彙ロボット把握システムであるSparseGraspを提案する。
我々のシステムは、ロボット学習における既存のコンピュータビジョンモジュールを構築し、大幅に強化する。
具体的には、SparseGraspはDUSt3Rを使用して、3Dガウススティング(3DGS)の初期化として密度の高い点雲を生成し、スパース監督下でさえ高い忠実性を維持する。
重要な点として、SparseGraspは、最近のビジョン基盤モデルからのセマンティックな認識を取り入れている。
処理効率をさらに向上するため,2次元モデルから特徴量を圧縮するために主成分分析(PCA)を再利用した。
さらに,高速なシーン更新を実現する新しいレンダリング・アンド・コンパレート戦略を導入し,変更可能な環境におけるマルチターンの把握を可能にする。
実験結果から,SparseGraspは速度と適応性の両方の観点から最先端の手法よりも優れており,変更可能な環境下でのマルチターングルーピングのための堅牢な解であることがわかった。
関連論文リスト
- SparseLGS: Sparse View Language Embedded Gaussian Splatting [49.187761358726675]
本研究では3次元シーン理解の課題に対して,ポーズレスでスパースなビュー入力画像を用いたSparseLGSを提案する。
提案手法は, 学習に基づく高密度ステレオモデルを用いて, ポーズフリー, スパース入力を処理する。
実験結果から,SparseLGSは少ない入力でセマンティックフィールドを再構築する際に,同等の品質が得られることがわかった。
論文 参考訳(メタデータ) (2024-12-03T08:18:56Z) - Large Spatial Model: End-to-end Unposed Images to Semantic 3D [79.94479633598102]
大空間モデル(LSM)は、RGB画像を直接意味的放射場に処理する。
LSMは、単一のフィードフォワード操作における幾何学、外観、意味を同時に推定する。
新しい視点で言語と対話することで、多目的ラベルマップを生成することができる。
論文 参考訳(メタデータ) (2024-10-24T17:54:42Z) - Memorize What Matters: Emergent Scene Decomposition from Multitraverse [54.487589469432706]
3次元ガウス写像は3次元ガウス写像をベースとしたカメラのみのオフラインマッピングフレームワークである。
3DGMは、同じ領域から複数のRGBビデオをガウスベースの環境マップに変換し、同時に2D短命なオブジェクトセグメンテーションを実行する。
We build the Mapverse benchmark, sourced from the Ithaca365 and nuPlan datasets, to evaluate our method in unsupervised 2D segmentation, 3D reconstruction, and Neural rendering。
論文 参考訳(メタデータ) (2024-05-27T14:11:17Z) - InstantSplat: Sparse-view SfM-free Gaussian Splatting in Seconds [91.77050739918037]
InstantSplatは、2〜3枚の画像から正確な3D表現を構築する、新規で高速なニューラルリコンストラクションシステムである。
InstantSplatは、フレーム間の密集したステレオ先行とコビジュアライザの関係を統合して、シーンを徐々に拡張することでピクセルアライメントを初期化する。
SSIMは3D-GSでCOLMAPよりも0.3755から0.7624に向上し、複数の3D表現と互換性がある。
論文 参考訳(メタデータ) (2024-03-29T17:29:58Z) - BAA-NGP: Bundle-Adjusting Accelerated Neural Graphics Primitives [6.431806897364565]
ロボットは2D画像から3D環境を理解することができる。
本稿では,バンドル調整型高速化ニューラルネットワークプリミティブ(BAA-NGP)というフレームワークを提案する。
その結果,他の束調整型ニューラルラジアンスフィールド法と比較して10~20倍の速度向上が得られた。
論文 参考訳(メタデータ) (2023-06-07T05:36:45Z) - Neural Implicit Dense Semantic SLAM [83.04331351572277]
本稿では,屋内シーンのメモリ効率,高密度な3次元形状,セマンティックセマンティックセグメンテーションをオンラインで学習する新しいRGBD vSLAMアルゴリズムを提案する。
私たちのパイプラインは、従来の3Dビジョンベースのトラッキングとループクローズとニューラルフィールドベースのマッピングを組み合わせたものです。
提案アルゴリズムはシーン認識を大幅に向上させ,様々なロボット制御問題を支援する。
論文 参考訳(メタデータ) (2023-04-27T23:03:52Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。