論文の概要: Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds
- arxiv url: http://arxiv.org/abs/2404.12440v1
- Date: Thu, 18 Apr 2024 18:01:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-22 17:04:06.784386
- Title: Spot-Compose: A Framework for Open-Vocabulary Object Retrieval and Drawer Manipulation in Point Clouds
- Title(参考訳): Spot-Compose: ポイントクラウドにおけるオープン語彙オブジェクト検索と描画操作のためのフレームワーク
- Authors: Oliver Lemke, Zuria Bauer, René Zurbrügg, Marc Pollefeys, Francis Engelmann, Hermann Blum,
- Abstract要約: この研究は、人間中心環境におけるロボットのインタラクションと操作のための包括的なフレームワークに、最近の手法を統合することを目的としている。
具体的には,コモディティ3Dスキャナの3次元再構成をオープン語彙のインスタンスセグメンテーションに活用する。
本研究では,動的オブジェクト検索と引き出し開口を含む実世界の2つの実験において,モデルの性能とロバスト性を示す。
- 参考スコア(独自算出の注目度): 45.87961177297602
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, modern techniques in deep learning and large-scale datasets have led to impressive progress in 3D instance segmentation, grasp pose estimation, and robotics. This allows for accurate detection directly in 3D scenes, object- and environment-aware grasp prediction, as well as robust and repeatable robotic manipulation. This work aims to integrate these recent methods into a comprehensive framework for robotic interaction and manipulation in human-centric environments. Specifically, we leverage 3D reconstructions from a commodity 3D scanner for open-vocabulary instance segmentation, alongside grasp pose estimation, to demonstrate dynamic picking of objects, and opening of drawers. We show the performance and robustness of our model in two sets of real-world experiments including dynamic object retrieval and drawer opening, reporting a 51% and 82% success rate respectively. Code of our framework as well as videos are available on: https://spot-compose.github.io/.
- Abstract(参考訳): 近年、ディープラーニングと大規模データセットの現代的な技術は、3Dインスタンスのセグメンテーション、把握ポーズ推定、ロボット工学において顕著な進歩をもたらしている。
これにより、3Dシーンで直接正確な検出、オブジェクトと環境を意識した把握予測、堅牢で反復可能なロボット操作が可能になる。
この研究は、最近の手法を人間中心環境におけるロボットインタラクションと操作のための包括的なフレームワークに統合することを目的としている。
具体的には,コモディティ3Dスキャナーからの3次元再構成を利用してオープン語彙のインスタンスセグメンテーションを行い,グリップポーズ推定を行い,オブジェクトの動的選択と引き出しの開放を実演する。
動的オブジェクト検索と引き出しオープニングを含む実世界の2つの実験において,本モデルの性能とロバスト性を示し,それぞれ51%,82%の成功率を報告した。
フレームワークのコードとビデオは、https://spot-compose.github.io/.com/で公開されている。
関連論文リスト
- S2O: Static to Openable Enhancement for Articulated 3D Objects [20.310491257189422]
本稿では,静的な3次元オブジェクトを静的なオブジェクトから生成するS2Oタスクを紹介する。
この課題に対処するための統一的なフレームワークを定式化し、オープンな3Dオブジェクトのデータセットをキュレートする。
論文 参考訳(メタデータ) (2024-09-27T16:34:13Z) - 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - AutoDecoding Latent 3D Diffusion Models [95.7279510847827]
本稿では,3次元オートデコーダをコアとした静的・明瞭な3次元アセットの生成に対して,新しいアプローチを提案する。
3D Autodecoderフレームワークは、ターゲットデータセットから学んだプロパティを潜時空間に埋め込む。
次に、適切な中間体積潜在空間を特定し、ロバストな正規化と非正規化演算を導入する。
論文 参考訳(メタデータ) (2023-07-07T17:59:14Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - RandomRooms: Unsupervised Pre-training from Synthetic Shapes and
Randomized Layouts for 3D Object Detection [138.2892824662943]
有望な解決策は、CADオブジェクトモデルで構成される合成データセットをよりよく利用して、実際のデータセットでの学習を促進することである。
最近の3次元事前学習の研究は、合成物体から他の実世界の応用へ学習した伝達特性が失敗することを示している。
本研究では,この目的を達成するためにRandomRoomsという新しい手法を提案する。
論文 参考訳(メタデータ) (2021-08-17T17:56:12Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。