論文の概要: Pathdreamer: A World Model for Indoor Navigation
- arxiv url: http://arxiv.org/abs/2105.08756v1
- Date: Tue, 18 May 2021 18:13:53 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-20 14:00:14.428247
- Title: Pathdreamer: A World Model for Indoor Navigation
- Title(参考訳): Pathdreamer: 室内ナビゲーションのための世界モデル
- Authors: Jing Yu Koh, Honglak Lee, Yinfei Yang, Jason Baldridge, Peter Anderson
- Abstract要約: 本研究では,新しい屋内環境をナビゲートするエージェントの視覚的世界モデルPathdreamerを紹介する。
過去に1つ以上の視覚観測がなされると、パスドレーマーは可視性の高い高解像度の360度視覚観測を生成する。
不確実性の高い地域では、Pathdreamerは多様なシーンを予測でき、エージェントは複数の現実的な結果をサンプリングすることができる。
- 参考スコア(独自算出の注目度): 62.78410447776939
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: People navigating in unfamiliar buildings take advantage of myriad visual,
spatial and semantic cues to efficiently achieve their navigation goals.
Towards equipping computational agents with similar capabilities, we introduce
Pathdreamer, a visual world model for agents navigating in novel indoor
environments. Given one or more previous visual observations, Pathdreamer
generates plausible high-resolution 360 visual observations (RGB, semantic
segmentation and depth) for viewpoints that have not been visited, in buildings
not seen during training. In regions of high uncertainty (e.g. predicting
around corners, imagining the contents of an unseen room), Pathdreamer can
predict diverse scenes, allowing an agent to sample multiple realistic outcomes
for a given trajectory. We demonstrate that Pathdreamer encodes useful and
accessible visual, spatial and semantic knowledge about human environments by
using it in the downstream task of Vision-and-Language Navigation (VLN).
Specifically, we show that planning ahead with Pathdreamer brings about half
the benefit of looking ahead at actual observations from unobserved parts of
the environment. We hope that Pathdreamer will help unlock model-based
approaches to challenging embodied navigation tasks such as navigating to
specified objects and VLN.
- Abstract(参考訳): 不慣れな建物をナビゲートする人々は、無数の視覚的、空間的、セマンティックな手がかりを利用して、ナビゲーション目標を効率的に達成します。
同様の能力を持つ計算エージェントの装備に向けて,新しい屋内環境を探索するエージェントの視覚的世界モデルPathdreamerを紹介した。
ひとつ以上の視覚的な観察から、pathdreamerは、訓練中に見えない建物において、訪問されていない視点に対して、おそらく高解像度の360度視覚観察(rgb、セマンティックセグメンテーション、深さ)を生成する。
不確実性の高い地域では(例えば)
隅々を予測し、目に見えない部屋の内容を想像すると、Pathdreamerは多様なシーンを予測でき、エージェントは与えられた軌道に対して複数の現実的な結果をサンプリングすることができる。
Pathdreamerは視覚・言語ナビゲーション(VLN)の下流タスクにおいて、人間の環境に関する有用な視覚的・空間的・意味的な知識を符号化する。
具体的には、Pathdreamerの今後の計画が、環境の観測されていない部分からの実際の観測に先んじることの利点の半分をもたらすことを示す。
pathdreamerは、特定のオブジェクトやvlnへのナビゲートなど、具体化されたナビゲーションタスクに挑戦するためのモデルベースのアプローチのアンロックを支援することを願っている。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - A Landmark-Aware Visual Navigation Dataset [6.564789361460195]
ランドマークを意識したビジュアルナビゲーションデータセットを提示し、人中心の探索ポリシーと地図構築の教師あり学習を可能にする。
我々は,仮想環境と実環境を探索するアノテータとして,RGB観測と人間のポイントクリックペアを収集する。
私たちのデータセットは、屋内環境の部屋や屋外の通路など、幅広い場面をカバーしています。
論文 参考訳(メタデータ) (2024-02-22T04:43:20Z) - LangNav: Language as a Perceptual Representation for Navigation [63.90602960822604]
視覚・言語ナビゲーション(VLN)における知覚表現としての言語の利用について検討する。
提案手法では,画像キャプションや物体検出に市販の視覚システムを用いて,エージェントのエゴセントリックなパノラマビューを各ステップで自然言語記述に変換する。
論文 参考訳(メタデータ) (2023-10-11T20:52:30Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - VELMA: Verbalization Embodiment of LLM Agents for Vision and Language
Navigation in Street View [81.58612867186633]
視覚と言語ナビゲーション(VLN)は、視覚的および自然言語の理解と空間的および時間的推論能力を必要とする。
VELMAは,2つのコンテキスト内例のみを用いて,ストリートビューでのナビゲーション指示に従うことができることを示す。
数千の例でLLMエージェントをさらに微調整し、従来の2つのデータセットのタスク完了に対する25%-30%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-07-12T11:08:24Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。