論文の概要: A System for Generalized 3D Multi-Object Search
- arxiv url: http://arxiv.org/abs/2303.03178v1
- Date: Mon, 6 Mar 2023 14:47:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-07 15:46:54.736679
- Title: A System for Generalized 3D Multi-Object Search
- Title(参考訳): 一般化3次元多目的探索システム
- Authors: Kaiyu Zheng, Anirudha Paul, Stefanie Tellex
- Abstract要約: GenMOSは、ロボットに依存しない環境に依存しない3D領域における多目的探索のための汎用システムである。
例えば、Boston Dynamics Spotロボットは、ソファの下に隠れているおもちゃの猫を1分以内に見つけることができる。
- 参考スコア(独自算出の注目度): 10.40566214112389
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Searching for objects is a fundamental skill for robots. As such, we expect
object search to eventually become an off-the-shelf capability for robots,
similar to e.g., object detection and SLAM. In contrast, however, no system for
3D object search exists that generalizes across real robots and environments.
In this paper, building upon a recent theoretical framework that exploited the
octree structure for representing belief in 3D, we present GenMOS (Generalized
Multi-Object Search), the first general-purpose system for multi-object search
(MOS) in a 3D region that is robot-independent and environment-agnostic. GenMOS
takes as input point cloud observations of the local region, object detection
results, and localization of the robot's view pose, and outputs a 6D viewpoint
to move to through online planning. In particular, GenMOS uses point cloud
observations in three ways: (1) to simulate occlusion; (2) to inform occupancy
and initialize octree belief; and (3) to sample a belief-dependent graph of
view positions that avoid obstacles. We evaluate our system both in simulation
and on two real robot platforms. Our system enables, for example, a Boston
Dynamics Spot robot to find a toy cat hidden underneath a couch in under one
minute. We further integrate 3D local search with 2D global search to handle
larger areas, demonstrating the resulting system in a 25m$^2$ lobby area.
- Abstract(参考訳): オブジェクトの検索は、ロボットにとって基本的なスキルである。
そのため、オブジェクト検出やSLAMのように、オブジェクト検索が最終的にロボットの既製の能力になることを期待している。
対照的に、実際のロボットや環境にまたがって一般化する3Dオブジェクト探索システムは存在しない。
本稿では,octree構造を利用して3dの信念を表現する最近の理論的枠組みに基づいて,ロボット非依存かつ環境非依存な3d領域において,最初の多目的探索のための汎用システムであるgenmos(generalized multi-object search)を提案する。
GenMOSは、ローカル領域の入力ポイントクラウド観測、オブジェクト検出結果、ロボットのビューポーズのローカライズを行い、オンラインプランニングを通じて移動するための6D視点を出力する。
特にGenMOSは,(1)オクルージョンをシミュレートする,(2)オクルージョンを通知する,(3)オクトリーの信念を初期化する,(3)障害物を避ける視点位置の信念依存グラフをサンプリングする,という3つの方法で点雲観測を行っている。
我々はシミュレーションと2つの実ロボットプラットフォームでシステムを評価する。
例えば、Boston Dynamics Spotロボットは、ソファの下に隠れているおもちゃの猫を1分以内に見つけることができる。
さらに,3次元局所探索と2次元グローバルサーチを統合して,25m$^2$ロビーエリアでシステムを構築した。
関連論文リスト
- 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - Intent3D: 3D Object Detection in RGB-D Scans Based on Human Intention [86.39271731460927]
RGB-Dを用いた3次元物体検出における新たな課題として,「背中を支えたいもの」などの人間の意図に基づく3次元対象物検出がある。
ScanNetデータセットの1,042のシーンから209のきめ細かいクラスに関連付けられた44,990の意図的テキストからなる新しいIntent3Dデータセットを紹介した。
我々はまた、この意図に基づく検出問題に対処するために設計された、我々のユニークなアプローチであるIntentNetを提案する。
論文 参考訳(メタデータ) (2024-05-28T15:48:39Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - EmbodiedScan: A Holistic Multi-Modal 3D Perception Suite Towards
Embodied AI [88.03089807278188]
EmbodiedScanはマルチモーダルでエゴ中心の3D知覚データセットであり、総合的な3Dシーン理解のためのベンチマークである。
1Mのエゴ中心のRGB-Dビューをカプセル化した5kスキャン、1Mの言語プロンプト、760以上のカテゴリにまたがる160kの3D指向ボックスを含んでいる。
このデータベースに基づいて、Embodied Perceptronというベースラインフレームワークを導入します。
任意の数のマルチモーダル入力を処理でき、顕著な3D知覚能力を示す。
論文 参考訳(メタデータ) (2023-12-26T18:59:11Z) - ScanERU: Interactive 3D Visual Grounding based on Embodied Reference
Understanding [67.21613160846299]
Embodied Reference Understanding (ERU) はこの懸念に対して最初に設計されている。
ScanERUと呼ばれる新しいデータセットは、このアイデアの有効性を評価するために構築されている。
論文 参考訳(メタデータ) (2023-03-23T11:36:14Z) - SurroundOcc: Multi-Camera 3D Occupancy Prediction for Autonomous Driving [98.74706005223685]
3Dシーン理解は、視覚に基づく自動運転において重要な役割を果たす。
マルチカメラ画像を用いたSurroundOcc法を提案する。
論文 参考訳(メタデータ) (2023-03-16T17:59:08Z) - Generalized Object Search [0.9137554315375919]
この論文は、不確実な3次元環境における多目的探索のための方法とシステムを開発する。
ロボットに依存しない,環境に依存しない3次元物体探索システムを構築した。
私はBoston Dynamics Spotロボット、Kinova MOVOロボット、Universal Robots UR5eロボットアームにデプロイしました。
論文 参考訳(メタデータ) (2023-01-24T16:41:36Z) - Extracting Zero-shot Common Sense from Large Language Models for Robot
3D Scene Understanding [25.270772036342688]
本稿では,ラベリングルームのための大規模言語モデルに埋め込まれた共通感覚を活用する新しい手法を提案する。
提案アルゴリズムは,現代の空間認識システムによって生成された3次元シーングラフで動作する。
論文 参考訳(メタデータ) (2022-06-09T16:05:35Z) - Gait Recognition in the Wild with Dense 3D Representations and A
Benchmark [86.68648536257588]
既存の歩行認識の研究は、制約されたシーンにおける人間の体のシルエットや骨格のような2D表現によって支配されている。
本稿では,野生における歩行認識のための高密度な3次元表現の探索を目的とする。
大規模な3D表現に基づく歩行認識データセットGait3Dを構築した。
論文 参考訳(メタデータ) (2022-04-06T03:54:06Z) - Indoor Semantic Scene Understanding using Multi-modality Fusion [0.0]
本研究では,環境のセマンティックマップを生成するために,2次元および3次元検出枝を融合したセマンティックシーン理解パイプラインを提案する。
収集したデータセットで評価された以前の研究とは異なり、私たちはアクティブなフォトリアリスティックなロボット環境でパイプラインをテストする。
我々の新規性には、投影された2次元検出とオブジェクトサイズに基づくモダリティ融合を用いた3次元提案の修正が含まれる。
論文 参考訳(メタデータ) (2021-08-17T13:30:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。