論文の概要: Deep Learning for Embodied Vision Navigation: A Survey
- arxiv url: http://arxiv.org/abs/2108.04097v4
- Date: Mon, 11 Oct 2021 08:48:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-23 04:08:03.422334
- Title: Deep Learning for Embodied Vision Navigation: A Survey
- Title(参考訳): 身近な視覚ナビゲーションのためのディープラーニング:サーベイ
- Authors: Fengda Zhu, Yi Zhu, Vincent CS Lee, Xiaodan Liang and Xiaojun Chang
- Abstract要約: 身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
- 参考スコア(独自算出の注目度): 108.13766213265069
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: "Embodied visual navigation" problem requires an agent to navigate in a 3D
environment mainly rely on its first-person observation. This problem has
attracted rising attention in recent years due to its wide application in
autonomous driving, vacuum cleaner, and rescue robot. A navigation agent is
supposed to have various intelligent skills, such as visual perceiving,
mapping, planning, exploring and reasoning, etc. Building such an agent that
observes, thinks, and acts is a key to real intelligence. The remarkable
learning ability of deep learning methods empowered the agents to accomplish
embodied visual navigation tasks. Despite this, embodied visual navigation is
still in its infancy since a lot of advanced skills are required, including
perceiving partially observed visual input, exploring unseen areas, memorizing
and modeling seen scenarios, understanding cross-modal instructions, and
adapting to a new environment, etc. Recently, embodied visual navigation has
attracted rising attention of the community, and numerous works has been
proposed to learn these skills. This paper attempts to establish an outline of
the current works in the field of embodied visual navigation by providing a
comprehensive literature survey. We summarize the benchmarks and metrics,
review different methods, analysis the challenges, and highlight the
state-of-the-art methods. Finally, we discuss unresolved challenges in the
field of embodied visual navigation and give promising directions in pursuing
future research.
- Abstract(参考訳): 身体視覚ナビゲーション」問題では,エージェントが3d環境をナビゲートするには,主にその一人称観察に依存する必要がある。
この問題は、自動運転、掃除機、救助ロボットに広く応用されているため、近年注目を集めている。
ナビゲーションエージェントは、視覚的知覚、マッピング、計画、探索、推論など、さまざまなインテリジェントなスキルを持つことが求められている。
そのようなエージェントの構築、思考、行動は、真の知性の鍵である。
深層学習手法の顕著な学習能力は、エージェントに具体化された視覚的ナビゲーションタスクを遂行する権限を与えた。
これにもかかわらず、部分的に観察された視覚入力の知覚、見えない領域の探索、見えるシナリオの記憶とモデリング、クロスモーダルな指示の理解、新しい環境への適応など、多くの高度なスキルが必要とされるため、具体化された視覚ナビゲーションはまだ初期段階にある。
近年,視覚ナビゲーションの具体化がコミュニティの注目を集め,これらの技術を学ぶために多くの作品が提案されている。
本稿では,包括的文献調査を行うことにより,具体的視覚ナビゲーションの分野における現在の研究の概要を確立することを試みる。
ベンチマークとメトリクスを要約し、異なるメソッドをレビューし、課題を分析し、最先端のメソッドを強調します。
最後に,視覚ナビゲーションの分野における未解決課題について議論し,今後の研究を進める上で有望な方向性を示す。
関連論文リスト
- Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Towards self-attention based visual navigation in the real world [0.0]
視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。
シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。
これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
論文 参考訳(メタデータ) (2022-09-15T04:51:42Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Augmented reality navigation system for visual prosthesis [67.09251544230744]
反応ナビゲーションと経路計画のソフトウェアを組み込んだ視覚補綴用拡張現実ナビゲーションシステムを提案する。
対象を地図上に配置し、対象の軌道を計画し、対象に示し、障害なく再計画する。
その結果,目標を達成するための時間と距離を減らし,障害物衝突の回数を大幅に減らし,航法性能の向上を図っている。
論文 参考訳(メタデータ) (2021-09-30T09:41:40Z) - Building Intelligent Autonomous Navigation Agents [18.310643564200525]
この論文の目標は、物理的な知能を持つアルゴリズムの設計に向けて前進することである」。
論文の前半では、エンドツーエンドの強化学習を用いた短期ナビゲーションについて論じる。
第2部では,モジュール型学習と構造化された明示的地図表現に基づくナビゲーション手法について述べる。
論文 参考訳(メタデータ) (2021-06-25T04:10:58Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。