論文の概要: Feudal Networks for Visual Navigation
- arxiv url: http://arxiv.org/abs/2402.12498v1
- Date: Mon, 19 Feb 2024 20:05:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 18:25:09.692339
- Title: Feudal Networks for Visual Navigation
- Title(参考訳): ビジュアルナビゲーションのためのフェイダルネットワーク
- Authors: Faith Johnson, Bryan Bo Cao, Kristin Dana, Shubham Jain, Ashwin Ashok
- Abstract要約: 封建的学習を用いた視覚ナビゲーションの新しいアプローチを提案する。
各レベルのエージェントはタスクの異なる側面を見て、異なる空間的および時間的スケールで操作する。
得られた封建的なナビゲーションネットワークは、SOTAの性能に近い。
- 参考スコア(独自算出の注目度): 6.564789361460195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual navigation follows the intuition that humans can navigate without
detailed maps. A common approach is interactive exploration while building a
topological graph with images at nodes that can be used for planning. Recent
variations learn from passive videos and can navigate using complex social and
semantic cues. However, a significant number of training videos are needed,
large graphs are utilized, and scenes are not unseen since odometry is
utilized. We introduce a new approach to visual navigation using feudal
learning, which employs a hierarchical structure consisting of a worker agent,
a mid-level manager, and a high-level manager. Key to the feudal learning
paradigm, agents at each level see a different aspect of the task and operate
at different spatial and temporal scales. Two unique modules are developed in
this framework. For the high- level manager, we learn a memory proxy map in a
self supervised manner to record prior observations in a learned latent space
and avoid the use of graphs and odometry. For the mid-level manager, we develop
a waypoint network that outputs intermediate subgoals imitating human waypoint
selection during local navigation. This waypoint network is pre-trained using a
new, small set of teleoperation videos that we make publicly available, with
training environments different from testing environments. The resulting feudal
navigation network achieves near SOTA performance, while providing a novel
no-RL, no-graph, no-odometry, no-metric map approach to the image goal
navigation task.
- Abstract(参考訳): 視覚ナビゲーションは、人間が詳細な地図なしでナビゲートできる直感に従う。
一般的なアプローチはインタラクティブな探索であり、計画に使用できるノードの画像を備えたトポロジカルグラフを構築している。
最近のバリエーションは受動的ビデオから学び、複雑な社会的および意味的な手がかりを使ってナビゲートできる。
しかし、かなりの数のトレーニングビデオが必要であり、大きなグラフが使われ、オドメトリが利用されるため、シーンは見当たらない。
本稿では,労働者エージェント,中間レベルマネージャ,ハイレベルマネージャからなる階層構造を用いた封建学習による視覚ナビゲーションの新たなアプローチを提案する。
封建的学習パラダイムの鍵 それぞれのレベルのエージェントはタスクの異なる側面を見て、異なる空間的および時間的スケールで動作します。
このフレームワークでは2つのユニークなモジュールが開発されている。
高レベルのマネージャでは、自己教師付きでメモリプロキシマップを学習し、学習された潜伏空間における事前観測を記録し、グラフやオードメトリの使用を避ける。
中間レベルマネージャのために,局所ナビゲーション中に人間のウェイポイント選択を模倣した中間サブゴールを出力するウェイポイントネットワークを開発した。
このウェイポイントネットワークは、テスト環境とは異なるトレーニング環境で、私たちが公開している、新しい小さな遠隔操作ビデオを使って事前トレーニングされています。
得られた封建的ナビゲーションネットワークは、画像目標ナビゲーションタスクに対して、新規なno-RL、no-graph、no-odometry、no-metric mapアプローチを提供しながら、SOTAの性能に近い。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Interactive Semantic Map Representation for Skill-based Visual Object
Navigation [43.71312386938849]
本稿では,室内環境との相互作用にともなうシーンセマンティックマップの表現について紹介する。
我々はこの表現をSkillTronと呼ばれる本格的なナビゲーション手法に実装した。
提案手法により,ロボット探索の中間目標とオブジェクトナビゲーションの最終目標の両方を形成できる。
論文 参考訳(メタデータ) (2023-11-07T16:30:12Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - ReVoLT: Relational Reasoning and Voronoi Local Graph Planning for
Target-driven Navigation [1.0896567381206714]
Embodied AIは、知的な実体と現実世界の相互作用を強調する必然的なトレンドである。
グラフニューラルネットワーク(GNN)によるレイアウト関係の活用に関する研究
このタスクを分離し、階層的なフレームワークであるReVoLTを提案する。
論文 参考訳(メタデータ) (2023-01-06T05:19:56Z) - GraphMapper: Efficient Visual Navigation by Scene Graph Generation [13.095640044666348]
本研究では,自律エージェントが環境の3次元シーングラフを蓄積する学習を学習する手法を提案する。
当社のアプローチであるGraphMapperは,既存のLearningベースのソリューションと連携して動作するモジュール式シーンエンコーダとして機能することを示します。
論文 参考訳(メタデータ) (2022-05-17T13:21:20Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - Lifelong Topological Visual Navigation [16.41858724205884]
本稿では,生涯ナビゲーション性能を時間とともに向上させるグラフ更新戦略を用いた学習型ビジュアルナビゲーション手法を提案する。
画像に基づくトポロジグラフを構築するためのサンプリングベースの計画アルゴリズムから着想を得た結果,スペーサーグラフはベースライン法に比べてナビゲーション性能が高い。
固定的なトレーニング環境から学習するコントローラとは異なり、ロボットが配置される実環境から比較的小さなデータセットを使ってモデルを微調整できることが示される。
論文 参考訳(メタデータ) (2021-10-16T06:16:14Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。