論文の概要: Memory Proxy Maps for Visual Navigation
- arxiv url: http://arxiv.org/abs/2411.09893v1
- Date: Fri, 15 Nov 2024 02:37:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-18 15:38:20.772837
- Title: Memory Proxy Maps for Visual Navigation
- Title(参考訳): ビジュアルナビゲーションのためのメモリプロキシマップ
- Authors: Faith Johnson, Bryan Bo Cao, Ashwin Ashok, Shubham Jain, Kristin Dana,
- Abstract要約: 視覚的なナビゲーションは人間からインスピレーションを受け、視覚を使って、詳細な環境マップを使わずに、これまで見えなかった環境をナビゲートする。
これに触発されて、封建的学習を用いた視覚ナビゲーションのための、No-RL、No-graph、No-odometryアプローチを導入し、3つのタイレッドエージェントを構築した。
- 参考スコア(独自算出の注目度): 6.1190419149081245
- License:
- Abstract: Visual navigation takes inspiration from humans, who navigate in previously unseen environments using vision without detailed environment maps. Inspired by this, we introduce a novel no-RL, no-graph, no-odometry approach to visual navigation using feudal learning to build a three tiered agent. Key to our approach is a memory proxy map (MPM), an intermediate representation of the environment learned in a self-supervised manner by the high-level manager agent that serves as a simplified memory, approximating what the agent has seen. We demonstrate that recording observations in this learned latent space is an effective and efficient memory proxy that can remove the need for graphs and odometry in visual navigation tasks. For the mid-level manager agent, we develop a waypoint network (WayNet) that outputs intermediate subgoals, or waypoints, imitating human waypoint selection during local navigation. For the low-level worker agent, we learn a classifier over a discrete action space that avoids local obstacles and moves the agent towards the WayNet waypoint. The resulting feudal navigation network offers a novel approach with no RL, no graph, no odometry, and no metric map; all while achieving SOTA results on the image goal navigation task.
- Abstract(参考訳): 視覚的なナビゲーションは人間からインスピレーションを受け、視覚を使って、詳細な環境マップを使わずに、これまで見えなかった環境をナビゲートする。
これに触発されて、封建的学習を用いた視覚ナビゲーションのための、No-RL、No-graph、No-odometryアプローチを導入し、3つのタイレッドエージェントを構築した。
我々のアプローチの鍵となるのが、メモリプロキシマップ(MPM)である。これは、エージェントが見たものを近似し、単純化されたメモリとして機能する高レベルのマネージャエージェントによって、自己管理的に学習された環境の中間表現である。
この学習された潜伏空間における観測記録は、視覚ナビゲーションタスクにおけるグラフや計測器の必要性を排除し、効率的かつ効率的なメモリプロキシであることを示す。
中級管理エージェントでは、中間部分ゴール(ウェイポイント)を出力するウェイポイントネットワーク(WayNet)を開発し、ローカルナビゲーション中に人間のウェイポイント選択を模倣する。
低レベルのワーカーエージェントでは、ローカルな障害を避ける離散的なアクション空間上の分類器を学習し、エージェントをWayNetのウェイポイントへ移動させる。
得られた封建的ナビゲーションネットワークは、画像目標ナビゲーションタスクでSOTA結果を達成する一方で、RL、グラフ、オドメトリー、およびメートル法マップのない新しいアプローチを提供する。
関連論文リスト
- Prioritized Semantic Learning for Zero-shot Instance Navigation [2.537056548731396]
我々はゼロショットのインスタンスナビゲーションについて研究し、エージェントはトレーニングにオブジェクトアノテーションを使わずに特定のオブジェクトにナビゲートする。
本稿では,ナビゲーションエージェントのセマンティック理解能力を向上させるために,優先度付き意味学習(PSL)手法を提案する。
我々のPSLエージェントは、0ショットのObjectNavにおいて、0ショットのObjectNavを66%上回り、新しいInstanceNavタスクよりも優れている。
論文 参考訳(メタデータ) (2024-03-18T10:45:50Z) - MemoNav: Working Memory Model for Visual Navigation [47.011190883888446]
イメージゴールナビゲーションは、不慣れな環境でイメージによって示されるゴールにエージェントがナビゲートする必要がある、困難なタスクである。
様々な場面の記憶を利用する既存の手法は、すべての歴史的観察を意思決定に用いているため、非効率な探索に苦しむ。
動作メモリにインスパイアされたパイプラインを用いてナビゲーション性能を向上させる,イメージゴールナビゲーションのための新しいメモリモデルであるMemoNavを提案する。
論文 参考訳(メタデータ) (2024-02-29T13:45:13Z) - Feudal Networks for Visual Navigation [6.1190419149081245]
封建的学習を用いた視覚ナビゲーションの新しいアプローチを提案する。
各レベルのエージェントはタスクの異なる側面を見て、異なる空間的および時間的スケールで操作する。
得られた封建的なナビゲーションネットワークは、SOTAの性能に近い。
論文 参考訳(メタデータ) (2024-02-19T20:05:41Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Navigating to Objects Specified by Images [86.9672766351891]
シミュレーションと実世界の両方でタスクを実行できるシステムを提案する。
我々のモジュラー手法は探索,ゴールインスタンスの再識別,ゴールローカライゼーション,ローカルナビゲーションのサブタスクを解決する。
HM3D InstanceImageNavベンチマークでは、このシステムはベースラインのエンドツーエンドのRLポリシー7xと最先端のImageNavモデル2.3xを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:00Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - GraphMapper: Efficient Visual Navigation by Scene Graph Generation [13.095640044666348]
本研究では,自律エージェントが環境の3次元シーングラフを蓄積する学習を学習する手法を提案する。
当社のアプローチであるGraphMapperは,既存のLearningベースのソリューションと連携して動作するモジュール式シーンエンコーダとして機能することを示します。
論文 参考訳(メタデータ) (2022-05-17T13:21:20Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。