論文の概要: SSCNav: Confidence-Aware Semantic Scene Completion for Visual Semantic
Navigation
- arxiv url: http://arxiv.org/abs/2012.04512v2
- Date: Mon, 22 Mar 2021 01:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-16 20:58:48.279085
- Title: SSCNav: Confidence-Aware Semantic Scene Completion for Visual Semantic
Navigation
- Title(参考訳): sscnav: ビジュアル意味ナビゲーションのための信頼度対応意味シーン補完
- Authors: Yiqing Liang, Boyuan Chen, Shuran Song
- Abstract要約: 本稿では,アクティブエージェントが未知の環境で特定の対象オブジェクトカテゴリにナビゲートするためのアクションを生成するタスクであるビジュアルセマンティックナビゲーションに焦点を当てる。
SSCNavは,自信を意識したセマンティックシーン補完モジュールを用いて,シーン先行を明示的にモデル化するアルゴリズムである。
実験により,提案したシーン補完モジュールは,下流ナビゲーションポリシーの効率を向上することを示した。
- 参考スコア(独自算出の注目度): 22.0915442335966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on visual semantic navigation, the task of producing
actions for an active agent to navigate to a specified target object category
in an unknown environment. To complete this task, the algorithm should
simultaneously locate and navigate to an instance of the category. In
comparison to the traditional point goal navigation, this task requires the
agent to have a stronger contextual prior to indoor environments. We introduce
SSCNav, an algorithm that explicitly models scene priors using a
confidence-aware semantic scene completion module to complete the scene and
guide the agent's navigation planning. Given a partial observation of the
environment, SSCNav first infers a complete scene representation with semantic
labels for the unobserved scene together with a confidence map associated with
its own prediction. Then, a policy network infers the action from the scene
completion result and confidence map. Our experiments demonstrate that the
proposed scene completion module improves the efficiency of the downstream
navigation policies. Video, code, and data: https://sscnav.cs.columbia.edu/
- Abstract(参考訳): 本稿では、未知環境において、アクティブエージェントが特定の対象オブジェクトカテゴリにナビゲートするためのアクションを生成するタスクである視覚意味ナビゲーションに焦点を当てる。
このタスクを完了するには、アルゴリズムはカテゴリのインスタンスを同時に見つけてナビゲートする必要がある。
従来のポイントゴールナビゲーションと比較して、このタスクはエージェントが屋内環境に先立ってより強いコンテキストを持つ必要がある。
SSCNavは、自信を意識したセマンティックシーン補完モジュールを用いて、シーンの完了とエージェントのナビゲーション計画の導出を明示的にモデル化するアルゴリズムである。
環境を部分的に観察すると、SSCNavはまず、観測されていないシーンのセマンティックラベルで完全なシーン表現と、自身の予測に関連付けられた信頼マップを推測する。
そして、ポリシーネットワークは、シーン完了結果と信頼度マップからアクションを推測する。
実験により,提案したシーン補完モジュールは,下流ナビゲーションポリシーの効率を向上することを示した。
ビデオ、コード、データ: https://sscnav.cs.columbia.edu/
関連論文リスト
- SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Prioritized Semantic Learning for Zero-shot Instance Navigation [2.537056548731396]
我々はゼロショットのインスタンスナビゲーションについて研究し、エージェントはトレーニングにオブジェクトアノテーションを使わずに特定のオブジェクトにナビゲートする。
本稿では,ナビゲーションエージェントのセマンティック理解能力を向上させるために,優先度付き意味学習(PSL)手法を提案する。
我々のPSLエージェントは、0ショットのObjectNavにおいて、0ショットのObjectNavを66%上回り、新しいInstanceNavタスクよりも優れている。
論文 参考訳(メタデータ) (2024-03-18T10:45:50Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Explore and Tell: Embodied Visual Captioning in 3D Environments [83.00553567094998]
現実のシナリオでは、ひとつのイメージは良い視点を与えず、きめ細かいシーン理解を妨げる可能性がある。
本稿では,視覚的キャプションモデルにナビゲーション機能を持たせるEmbodied Captioningという新しいタスクを提案する。
本稿では,この課題に対処するために,ナビゲータとキャプタを組み合わせたCascade Embodied Captioning Model (CaBOT)を提案する。
論文 参考訳(メタデータ) (2023-08-21T03:46:04Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - ESceme: Vision-and-Language Navigation with Episodic Scene Memory [72.69189330588539]
ヴィジュアル・アンド・ランゲージ・ナビゲーション(VLN)は、現実世界のシーンで自然言語のナビゲーション指示に従う視覚エージェントをシミュレートする。
本稿では,VLNにおける情景記憶(esceme)のメカニズムについて紹介する。
論文 参考訳(メタデータ) (2023-03-02T07:42:07Z) - Predicting Dense and Context-aware Cost Maps for Semantic Robot
Navigation [35.45993685414002]
本研究では,対象がセマンティックラベルで指定された未知環境における目標ナビゲーションの課題について検討する。
本稿では,意味的コンテキストを暗黙的に含む高コストマップを予測するために,ディープニューラルネットワークアーキテクチャとロス関数を提案する。
また、コストマップ予測のためのセマンティックなヒントを提供するために、アーキテクチャに中間レベルの視覚表現を融合する新しい方法を提案する。
論文 参考訳(メタデータ) (2022-10-17T11:43:19Z) - VTNet: Visual Transformer Network for Object Goal Navigation [36.15625223586484]
ナビゲーションにおける情報的視覚表現を学習するためのVisual Transformer Network(VTNet)を導入する。
簡単に言うと、VTNetはオブジェクトとリージョンの機能を、空間認識ディスクリプタとして位置キューで埋め込む。
人工環境におけるAI2-Thorの実験は、VTNetが目に見えないテスト環境で最先端の手法を著しく上回っていることを実証している。
論文 参考訳(メタデータ) (2021-05-20T01:23:15Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。