Fugu-MT 論文翻訳(概要): 3D-Aware Object Goal Navigation via Simultaneous Exploration and Identification

論文の概要: 3D-Aware Object Goal Navigation via Simultaneous Exploration and Identification

arxiv url: http://arxiv.org/abs/2212.00338v1
Date: Thu, 1 Dec 2022 07:55:56 GMT
ステータス: 翻訳完了
システム内更新日: 2022-12-02 17:08:04.101024
Title: 3D-Aware Object Goal Navigation via Simultaneous Exploration and Identification
Title（参考訳）: 同時探索と同定による3次元物体ゴールナビゲーション
Authors: Jiazhao Zhang, Liu Dai, Fanpeng Meng, Qingnan Fan, Xuelin Chen, Kai Xu, He Wang
Abstract要約: 本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
参考スコア（独自算出の注目度）: 19.125633699422117
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Object goal navigation (ObjectNav) in unseen environments is a fundamental task for Embodied AI. Agents in existing works learn ObjectNav policies based on 2D maps, scene graphs, or image sequences. Considering this task happens in 3D space, a 3D-aware agent can advance its ObjectNav capability via learning from fine-grained spatial information. However, leveraging 3D scene representation can be prohibitively unpractical for policy learning in this floor-level task, due to low sample efficiency and expensive computational cost. In this work, we propose a framework for the challenging 3D-aware ObjectNav based on two straightforward sub-policies. The two sub-polices, namely corner-guided exploration policy and category-aware identification policy, simultaneously perform by utilizing online fused 3D points as observation. Through extensive experiments, we show that this framework can dramatically improve the performance in ObjectNav through learning from 3D scene representation. Our framework achieves the best performance among all modular-based methods on the Matterport3D and Gibson datasets, while requiring (up to 30x) less computational cost for training.
Abstract（参考訳）: 見えない環境でのオブジェクトゴールナビゲーション(ObjectNav)は、Embodied AIの基本的なタスクである。既存の作業のエージェントは、2Dマップ、シーングラフ、イメージシーケンスに基づいてObjectNavポリシーを学ぶ。このタスクが3D空間で発生することを考慮すれば、3Dエージェントは細かな空間情報から学習することでObjectNav能力を向上することができる。しかし,このフロアレベルのタスクでは,サンプル効率の低さと計算コストの高騰から,3次元シーン表現の活用は禁止的に実践的ではない。本研究では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。 2つのサブポリス、すなわちコーナー誘導探索政策とカテゴリー認識識別政策は、オンライン融合3Dポイントを観察として同時に実施する。広範な実験を通じて,このフレームワークが3次元シーン表現から学習することで,objectnavの性能を劇的に向上できることを示す。我々のフレームワークはmatterport3dとgibsonデータセット上のすべてのモジュールベースメソッドで最高のパフォーマンスを実現しますが、トレーニングに計算コスト(最大30倍)を必要とします。

関連論文リスト

Move to Understand a 3D Scene: Bridging Visual Grounding and Exploration for Efficient and Versatile Embodied Navigation [54.04601077224252]
身近なシーン理解には、視覚空間情報の理解だけでなく、3D物理世界における次の探索場所の決定も必要である。アンダーラインテキストbf3D視覚言語学習は、エンボディエージェントが環境を効果的に探索し理解することを可能にする。モデルの汎用性は、カテゴリ、言語記述、参照イメージなど、多様な入力モダリティを使ったナビゲーションを可能にする。
論文参考訳（メタデータ） (2025-07-05T14:15:52Z)
HM3D-OVON: A Dataset and Benchmark for Open-Vocabulary Object Goal Navigation [39.54854283833085]
Habitat-Matterport 3D Open Vocabulary Object Goal Navigation データセット(HM3D-OVON)を提案する。 HM3D-OVONは、379の異なるカテゴリにわたる15k以上の注釈付きオブジェクトのインスタンスを組み込んでいる。我々は,HM3D-OVONを用いて,オープン語彙のObjectNavエージェントを訓練し,高い性能を実現し,最先端のObjectNavアプローチよりもローカライゼーションやアクティベーションノイズに頑健であることを確認した。
論文参考訳（メタデータ） (2024-09-22T02:12:29Z)
Task-oriented Sequential Grounding in 3D Scenes [35.90034571439091]
本稿では,3次元シーンにおけるタスク指向の逐次グラウンド(Sequential Grounding)を提案する。エージェントは、屋内のシーンにターゲットオブジェクトのシーケンスを配置することで、日々の活動を完了するための詳細なステップバイステップの指示に従う必要がある。 SG3Dは22,346のタスクと112,236のステップが4,895の現実世界の3Dシーンにまたがる大規模データセットである。
論文参考訳（メタデータ） (2024-08-07T18:30:18Z)
Volumetric Environment Representation for Vision-Language Navigation [66.04379819772764]
視覚言語ナビゲーション(VLN)は、視覚的な観察と自然言語の指示に基づいて、エージェントが3D環境をナビゲートする必要がある。本研究では,物理世界を3次元構造細胞にボクセル化するボリューム環境表現(VER)を提案する。 VERは3D占有率、3D部屋レイアウト、および3Dバウンディングボックスを共同で予測する。
論文参考訳（メタデータ） (2024-03-21T06:14:46Z)
PonderV2: Pave the Way for 3D Foundation Model with A Universal Pre-training Paradigm [114.47216525866435]
本稿では,効率的な3D表現の獲得を容易にするために,新しいユニバーサル3D事前学習フレームワークを提案する。 PonderV2は、11の室内および屋外ベンチマークで最先端のパフォーマンスを達成したことで、その効果が示唆された。
論文参考訳（メタデータ） (2023-10-12T17:59:57Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
NeurOCS: Neural NOCS Supervision for Monocular 3D Object Localization [80.3424839706698]
入力として3Dボックスをインスタンスマスクとして使用するNeurOCSを提案する。われわれのアプローチは、実際の運転シーンから直接カテゴリレベルの形状を学習する際の洞察に依存している。我々は、オブジェクト中心の視点からオブジェクト座標をより効果的に学習するための重要な設計選択を行う。
論文参考訳（メタデータ） (2023-05-28T16:18:41Z)
Hierarchical Representations and Explicit Memory: Learning Effective Navigation Policies on 3D Scene Graphs using Graph Neural Networks [16.19099481411921]
本稿では,ハイレベルな階層表現を活用してナビゲーションポリシーを学習する強化学習フレームワークを提案する。本手法は,シーングラフの各ノードに対して,ロボット軌道の記憶を明示的に保持しつつ,占有度と意味的内容をキャプチャする機能を利用する。
論文参考訳（メタデータ） (2021-08-02T21:21:27Z)
Learnable Online Graph Representations for 3D Multi-Object Tracking [156.58876381318402]
3D MOT問題に対する統一型学習型アプローチを提案します。我々は、完全にトレーニング可能なデータアソシエーションにNeural Message Passing Networkを使用します。 AMOTAの65.6%の最先端性能と58%のIDスウィッチを達成して、公開可能なnuScenesデータセットに対する提案手法のメリットを示す。
論文参考訳（メタデータ） (2021-04-23T17:59:28Z)
Improving Target-driven Visual Navigation with Attention on 3D Spatial Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。 AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文参考訳（メタデータ） (2020-04-29T08:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。