論文の概要: Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation
- arxiv url: http://arxiv.org/abs/2110.08571v1
- Date: Sat, 16 Oct 2021 13:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-19 16:34:56.556917
- Title: Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation
- Title(参考訳): 移動前の探索: 身体的ナビゲーションのためのパス推定とメモリリコールフレームワーク
- Authors: Yang Wu, Shirui Feng, Guanbin Li, Liang Lin
- Abstract要約: ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
- 参考スコア(独自算出の注目度): 117.26891277593205
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: An embodied task such as embodied question answering (EmbodiedQA), requires
an agent to explore the environment and collect clues to answer a given
question that related with specific objects in the scene. The solution of such
task usually includes two stages, a navigator and a visual Q&A module. In this
paper, we focus on the navigation and solve the problem of existing navigation
algorithms lacking experience and common sense, which essentially results in a
failure finding target when robot is spawn in unknown environments.
Inspired by the human ability to think twice before moving and conceive
several feasible paths to seek a goal in unfamiliar scenes, we present a route
planning method named Path Estimation and Memory Recalling (PEMR) framework.
PEMR includes a "looking ahead" process, \textit{i.e.} a visual feature
extractor module that estimates feasible paths for gathering 3D navigational
information, which is mimicking the human sense of direction. PEMR contains
another process ``looking behind'' process that is a memory recall mechanism
aims at fully leveraging past experience collected by the feature extractor.
Last but not the least, to encourage the navigator to learn more accurate prior
expert experience, we improve the original benchmark dataset and provide a
family of evaluation metrics for diagnosing both navigation and question
answering modules. We show strong experimental results of PEMR on the
EmbodiedQA navigation task.
- Abstract(参考訳): 具体的質問応答(Embodied QA)のような具体的タスクでは、エージェントが環境を探索し、シーン内の特定のオブジェクトに関連する特定の質問に答えるために手がかりを集める必要がある。
このようなタスクのソリューションは通常、ナビゲータとビジュアルQ&Aモジュールの2つのステージを含む。
本稿では,既存のナビゲーションアルゴリズムが経験や常識を欠くという課題に着目し,ロボットが未知の環境に出現した場合の目標探索に支障をきたす。
未知の場面で目標を達成するために,複数の実行可能な経路を移動前に2回思考する人間の能力に触発され,経路推定およびメモリリコール(pemr)フレームワークと呼ばれる経路計画手法を提案する。
pemrには、人間の方向感覚を模倣した3dナビゲーション情報を収集するための実現可能な経路を推定する視覚特徴抽出モジュール、"look ahead"プロセスが含まれている。
PEMRには、機能抽出器が収集した過去の経験を十分に活用することを目的とした、メモリリコール機構である ``look behind' プロセスがある。
最後に、ナビゲータがより正確な事前のエキスパートエクスペリエンスを学ぶように促すために、オリジナルのベンチマークデータセットを改善し、ナビゲーションと質問応答モジュールの両方を診断するための一連の評価メトリクスを提供する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
関連論文リスト
- Hierarchical end-to-end autonomous navigation through few-shot waypoint detection [0.0]
人間のナビゲーションはランドマークと行動の関連によって促進される。
現在の自律ナビゲーション方式は、正確な位置決め装置とアルゴリズム、および環境から収集されたセンサーデータの広範なストリームに依存している。
本研究では,移動ロボットがこれまで知られていなかった環境をナビゲートできる階層型メタ学習手法を提案する。
論文 参考訳(メタデータ) (2024-09-23T00:03:39Z) - Two-Stage Depth Enhanced Learning with Obstacle Map For Object Navigation [11.667940255053582]
本稿では,RGBとトレーニングシーンの深度情報を用いて特徴抽出器の事前訓練を行い,ナビゲーション効率を向上する。
提案手法をAI2-ThorとRobothorで評価し,成功率と航法効率において最先端(SOTA)法を著しく上回っていることを示した。
論文 参考訳(メタデータ) (2024-06-20T08:35:10Z) - Explore until Confident: Efficient Exploration for Embodied Question Answering [32.27111287314288]
我々は、大きな視覚言語モデルの強力な意味推論機能を活用して、質問を効率的に探索し、答える。
深度情報とVLMの視覚的プロンプトに基づいて,まずシーンのセマンティックマップを構築する手法を提案する。
次に、コンフォメーション予測を用いて、自信に答えるVLMの質問を校正し、いつ探索を中止するかをロボットが知ることができるようにする。
論文 参考訳(メタデータ) (2024-03-23T22:04:03Z) - Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation [88.84058353659107]
インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された指定されたオブジェクトにナビゲートすることを目的としている。
本稿では、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE)を提案する。
我々の手法は従来の最先端の手法を超越し、古典的セグメンテーションモデル(0.684対0.561成功)またはロバストモデル(0.702対0.561成功)を用いる。
論文 参考訳(メタデータ) (2024-02-25T07:59:10Z) - JPerceiver: Joint Perception Network for Depth, Pose and Layout
Estimation in Driving Scenes [75.20435924081585]
JPerceiverは、モノクロビデオシーケンスからスケール認識深度とVOとBEVレイアウトを同時に推定することができる。
クロスビュー幾何変換(CGT)を利用して、絶対スケールを道路レイアウトから奥行きとVOに伝播させる。
Argoverse、Nuscenes、KITTIの実験は、上記の3つのタスクの全てにおいて、既存のメソッドよりもJPerceiverの方が優れていることを示している。
論文 参考訳(メタデータ) (2022-07-16T10:33:59Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Structured Scene Memory for Vision-Language Navigation [155.63025602722712]
視覚言語ナビゲーション(VLN)のための重要なアーキテクチャを提案する。
ナビゲーション中に知覚を正確に記憶できるほど区画化されている。
また、環境内の視覚的および幾何学的な手がかりを捉え、取り除く、構造化されたシーン表現としても機能する。
論文 参考訳(メタデータ) (2021-03-05T03:41:00Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。