論文の概要: 3D-Aware Object Goal Navigation via Simultaneous Exploration and
Identification
- arxiv url: http://arxiv.org/abs/2212.00338v1
- Date: Thu, 1 Dec 2022 07:55:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 17:08:04.101024
- Title: 3D-Aware Object Goal Navigation via Simultaneous Exploration and
Identification
- Title(参考訳): 同時探索と同定による3次元物体ゴールナビゲーション
- Authors: Jiazhao Zhang, Liu Dai, Fanpeng Meng, Qingnan Fan, Xuelin Chen, Kai
Xu, He Wang
- Abstract要約: 本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。
私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
- 参考スコア(独自算出の注目度): 19.125633699422117
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object goal navigation (ObjectNav) in unseen environments is a fundamental
task for Embodied AI. Agents in existing works learn ObjectNav policies based
on 2D maps, scene graphs, or image sequences. Considering this task happens in
3D space, a 3D-aware agent can advance its ObjectNav capability via learning
from fine-grained spatial information. However, leveraging 3D scene
representation can be prohibitively unpractical for policy learning in this
floor-level task, due to low sample efficiency and expensive computational
cost. In this work, we propose a framework for the challenging 3D-aware
ObjectNav based on two straightforward sub-policies. The two sub-polices,
namely corner-guided exploration policy and category-aware identification
policy, simultaneously perform by utilizing online fused 3D points as
observation. Through extensive experiments, we show that this framework can
dramatically improve the performance in ObjectNav through learning from 3D
scene representation. Our framework achieves the best performance among all
modular-based methods on the Matterport3D and Gibson datasets, while requiring
(up to 30x) less computational cost for training.
- Abstract(参考訳): 見えない環境でのオブジェクトゴールナビゲーション(ObjectNav)は、Embodied AIの基本的なタスクである。
既存の作業のエージェントは、2Dマップ、シーングラフ、イメージシーケンスに基づいてObjectNavポリシーを学ぶ。
このタスクが3D空間で発生することを考慮すれば、3Dエージェントは細かな空間情報から学習することでObjectNav能力を向上することができる。
しかし,このフロアレベルのタスクでは,サンプル効率の低さと計算コストの高騰から,3次元シーン表現の活用は禁止的に実践的ではない。
本研究では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。
2つのサブポリス、すなわちコーナー誘導探索政策とカテゴリー認識識別政策は、オンライン融合3Dポイントを観察として同時に実施する。
広範な実験を通じて,このフレームワークが3次元シーン表現から学習することで,objectnavの性能を劇的に向上できることを示す。
我々のフレームワークはmatterport3dとgibsonデータセット上のすべてのモジュールベースメソッドで最高のパフォーマンスを実現しますが、トレーニングに計算コスト(最大30倍)を必要とします。
関連論文リスト
- PonderV2: Pave the Way for 3D Foundation Model with A Universal
Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。
PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文 参考訳(メタデータ) (2023-10-12T17:59:57Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。
われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。
我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文 参考訳(メタデータ) (2023-05-28T16:18:41Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Attention-Based Depth Distillation with 3D-Aware Positional Encoding for
Monocular 3D Object Detection [10.84784828447741]
ADDは、3D対応の位置符号化を備えた注意に基づく深度知識蒸留フレームワークである。
教師の設計によると、私たちのフレームワークはシームレスで、ドメインギャップフリーで、実装が容易で、オブジェクト指向の地層深度と互換性があります。
我々は,3つの代表的な単分子検出器上でのフレームワークを実装し,予測計算コストの増大を伴わず,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-30T06:39:25Z) - Hierarchical Representations and Explicit Memory: Learning Effective
Navigation Policies on 3D Scene Graphs using Graph Neural Networks [16.19099481411921]
本稿では,ハイレベルな階層表現を活用してナビゲーションポリシーを学習する強化学習フレームワークを提案する。
本手法は,シーングラフの各ノードに対して,ロボット軌道の記憶を明示的に保持しつつ,占有度と意味的内容をキャプチャする機能を利用する。
論文 参考訳(メタデータ) (2021-08-02T21:21:27Z) - Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。
我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。
AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文 参考訳(メタデータ) (2021-04-23T17:59:28Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。