論文の概要: Prioritized Semantic Learning for Zero-shot Instance Navigation
- arxiv url: http://arxiv.org/abs/2403.11650v2
- Date: Tue, 16 Jul 2024 18:13:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 22:29:24.683538
- Title: Prioritized Semantic Learning for Zero-shot Instance Navigation
- Title(参考訳): ゼロショットインスタンスナビゲーションのための優先順位付きセマンティック学習
- Authors: Xinyu Sun, Lizhao Liu, Hongyan Zhi, Ronghe Qiu, Junwei Liang,
- Abstract要約: 我々はゼロショットのインスタンスナビゲーションについて研究し、エージェントはトレーニングにオブジェクトアノテーションを使わずに特定のオブジェクトにナビゲートする。
本稿では,ナビゲーションエージェントのセマンティック理解能力を向上させるために,優先度付き意味学習(PSL)手法を提案する。
我々のPSLエージェントは、0ショットのObjectNavにおいて、0ショットのObjectNavを66%上回り、新しいInstanceNavタスクよりも優れている。
- 参考スコア(独自算出の注目度): 2.537056548731396
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study zero-shot instance navigation, in which the agent navigates to a specific object without using object annotations for training. Previous object navigation approaches apply the image-goal navigation (ImageNav) task (go to the location of an image) for pretraining, and transfer the agent to achieve object goals using a vision-language model. However, these approaches lead to issues of semantic neglect, where the model fails to learn meaningful semantic alignments. In this paper, we propose a Prioritized Semantic Learning (PSL) method to improve the semantic understanding ability of navigation agents. Specifically, a semantic-enhanced PSL agent is proposed and a prioritized semantic training strategy is introduced to select goal images that exhibit clear semantic supervision and relax the reward function from strict exact view matching. At inference time, a semantic expansion inference scheme is designed to preserve the same granularity level of the goal semantic as training. Furthermore, for the popular HM3D environment, we present an Instance Navigation (InstanceNav) task that requires going to a specific object instance with detailed descriptions, as opposed to the Object Navigation (ObjectNav) task where the goal is defined merely by the object category. Our PSL agent outperforms the previous state-of-the-art by 66% on zero-shot ObjectNav in terms of success rate and is also superior on the new InstanceNav task. Code will be released at https://github.com/XinyuSun/PSL-InstanceNav.
- Abstract(参考訳): 我々はゼロショットのインスタンスナビゲーションについて研究し、エージェントはトレーニングにオブジェクトアノテーションを使わずに特定のオブジェクトにナビゲートする。
従来のオブジェクトナビゲーション手法では、事前トレーニングのためにImage-goal Navigation (ImageNav) タスクを適用し、エージェントを移動して視覚言語モデルを用いてオブジェクト目標を達成する。
しかし、これらのアプローチは意味的無視の問題を招き、モデルが意味的な意味的アライメントを学ばない。
本稿では,ナビゲーションエージェントのセマンティック理解能力を向上させるために,優先度付き意味学習(PSL)手法を提案する。
具体的には、セマンティック強化PSLエージェントを提案し、明確なセマンティックインスペクションを示すゴールイメージを選択し、厳密な正確なビューマッチングから報酬関数を緩和するために、優先順位付けされたセマンティックトレーニング戦略を導入する。
推論時には、目標セマンティクスの粒度レベルをトレーニングと同一に保つために意味拡張推論スキームが設計される。
さらに、一般的なHM3D環境では、目的が単にオブジェクトカテゴリによって定義されるObject Navigation(ObjectNav)タスクとは対照的に、特定のオブジェクトインスタンスに詳細な説明をする必要のあるインスタンスナビゲーション(InstanceNav)タスクを提示します。
我々のPSLエージェントは、0ショットのObjectNavにおいて、0ショットのObjectNavを66%上回り、新しいInstanceNavタスクよりも優れている。
コードはhttps://github.com/XinyuSun/PSL-InstanceNav.comでリリースされる。
関連論文リスト
- SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation [88.84058353659107]
インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された指定されたオブジェクトにナビゲートすることを目的としている。
本稿では、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE)を提案する。
我々の手法は従来の最先端の手法を超越し、古典的セグメンテーションモデル(0.684対0.561成功)またはロバストモデル(0.702対0.561成功)を用いる。
論文 参考訳(メタデータ) (2024-02-25T07:59:10Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Instance-Specific Image Goal Navigation: Training Embodied Agents to
Find Object Instances [90.61897965658183]
画像ゴールによる視覚ナビゲーションの具体化問題(ImageNav)について考察する。
関連するナビゲーションタスクとは異なり、ImageNavはメソッド間の比較を難しくする標準化されたタスク定義を持っていない。
これらの制限に対処するために、インスタンス固有のImageNavタスク(ImageNav)を提示します。
論文 参考訳(メタデータ) (2022-11-29T02:29:35Z) - Learning to Map for Active Semantic Goal Navigation [40.193928212509356]
本稿では,エージェントの視野外のセマンティックマップ生成を積極的に学習する新しいフレームワークを提案する。
我々は、エクスプロイトとエクスプロイトのバランスをとることで、異なる目的をどのように定義できるかを示す。
本手法は,Matterport3Dデータセットによって提供される視覚的に現実的な環境において検証される。
論文 参考訳(メタデータ) (2021-06-29T18:01:30Z) - SSCNav: Confidence-Aware Semantic Scene Completion for Visual Semantic
Navigation [22.0915442335966]
本稿では,アクティブエージェントが未知の環境で特定の対象オブジェクトカテゴリにナビゲートするためのアクションを生成するタスクであるビジュアルセマンティックナビゲーションに焦点を当てる。
SSCNavは,自信を意識したセマンティックシーン補完モジュールを用いて,シーン先行を明示的にモデル化するアルゴリズムである。
実験により,提案したシーン補完モジュールは,下流ナビゲーションポリシーの効率を向上することを示した。
論文 参考訳(メタデータ) (2020-12-08T15:59:47Z) - ObjectNav Revisited: On Evaluation of Embodied Agents Navigating to
Objects [119.46959413000594]
この文書は、ObjectNavのワーキンググループのコンセンサスレコメンデーションを要約します。
評価基準の微妙だが重要な詳細について推奨する。
CVPR 2020のEmbodied AIワークショップで実施された課題において、これらの推奨事項のインスタンス化について、詳細な説明を行う。
論文 参考訳(メタデータ) (2020-06-23T17:18:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。