論文の概要: Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2110.08571v1
- Date: Sat, 16 Oct 2021 13:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:34:56.556917
- Title: Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation
- Title(参考訳): 移動前の探索: 身体的ナビゲーションのためのパス推定とメモリリコールフレームワーク
- Authors: Yang Wu, Shirui Feng, Guanbin Li, Liang Lin
- Abstract要約: ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
- 参考スコア(独自算出の注目度): 117.26891277593205
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An embodied task such as embodied question answering (EmbodiedQA), requires
an agent to explore the environment and collect clues to answer a given
question that related with specific objects in the scene. The solution of such
task usually includes two stages, a navigator and a visual Q&A module. In this
paper, we focus on the navigation and solve the problem of existing navigation
algorithms lacking experience and common sense, which essentially results in a
failure finding target when robot is spawn in unknown environments.
Inspired by the human ability to think twice before moving and conceive
several feasible paths to seek a goal in unfamiliar scenes, we present a route
planning method named Path Estimation and Memory Recalling (PEMR) framework.
PEMR includes a "looking ahead" process, \textit{i.e.} a visual feature
extractor module that estimates feasible paths for gathering 3D navigational
information, which is mimicking the human sense of direction. PEMR contains
another process ``looking behind'' process that is a memory recall mechanism
aims at fully leveraging past experience collected by the feature extractor.
Last but not the least, to encourage the navigator to learn more accurate prior
expert experience, we improve the original benchmark dataset and provide a
family of evaluation metrics for diagnosing both navigation and question
answering modules. We show strong experimental results of PEMR on the
EmbodiedQA navigation task.
- Abstract(参考訳): 具体的質問応答(Embodied QA)のような具体的タスクでは、エージェントが環境を探索し、シーン内の特定のオブジェクトに関連する特定の質問に答えるために手がかりを集める必要がある。
このようなタスクのソリューションは通常、ナビゲータとビジュアルQ&Aモジュールの2つのステージを含む。
本稿では,既存のナビゲーションアルゴリズムが経験や常識を欠くという課題に着目し,ロボットが未知の環境に出現した場合の目標探索に支障をきたす。
未知の場面で目標を達成するために,複数の実行可能な経路を移動前に2回思考する人間の能力に触発され,経路推定およびメモリリコール(pemr)フレームワークと呼ばれる経路計画手法を提案する。
pemrには、人間の方向感覚を模倣した3dナビゲーション情報を収集するための実現可能な経路を推定する視覚特徴抽出モジュール、"look ahead"プロセスが含まれている。
PEMRには、機能抽出器が収集した過去の経験を十分に活用することを目的とした、メモリリコール機構である ``look behind' プロセスがある。
最後に、ナビゲータがより正確な事前のエキスパートエクスペリエンスを学ぶように促すために、オリジナルのベンチマークデータセットを改善し、ナビゲーションと質問応答モジュールの両方を診断するための一連の評価メトリクスを提供する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
関連論文リスト
- Instance-aware Exploration-Verification-Exploitation for Instance
ImageGoal Navigation [95.31226060831546]
インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された指定されたオブジェクトにナビゲートすることを目的としている。
本稿では、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE)を提案する。
論文 参考訳(メタデータ) (2024-02-25T07:59:10Z) - Towards self-attention based visual navigation in the real world [0.0]
視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。
シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。
これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
論文 参考訳(メタデータ) (2022-09-15T04:51:42Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。