論文の概要: Towards Navigation by Reasoning over Spatial Configurations
- arxiv url: http://arxiv.org/abs/2105.06839v1
- Date: Fri, 14 May 2021 14:04:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-17 12:46:29.052835
- Title: Towards Navigation by Reasoning over Spatial Configurations
- Title(参考訳): 空間構成の推論によるナビゲーションに向けて
- Authors: Yue Zhang, Quan Guo, Parisa Kordjamshidi
- Abstract要約: ナビゲーション指示を視覚知覚に接地する上で,空間的意味論の重要性を示す。
本稿では,空間構成の要素を利用したニューラルエージェントを提案し,ナビゲーションエージェントの推論能力への影響について検討する。
- 参考スコア(独自算出の注目度): 20.324906029170457
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We deal with the navigation problem where the agent follows natural language
instructions while observing the environment. Focusing on language
understanding, we show the importance of spatial semantics in grounding
navigation instructions into visual perceptions. We propose a neural agent that
uses the elements of spatial configurations and investigate their influence on
the navigation agent's reasoning ability. Moreover, we model the sequential
execution order and align visual objects with spatial configurations in the
instruction. Our neural agent improves strong baselines on the seen
environments and shows competitive performance on the unseen environments.
Additionally, the experimental results demonstrate that explicit modeling of
spatial semantic elements in the instructions can improve the grounding and
spatial reasoning of the model.
- Abstract(参考訳): エージェントが環境を観察しながら自然言語の指示に従うようなナビゲーション問題に対処する。
言語理解に重点を置き,ナビゲーション指示を視覚知覚に接地する上で,空間的意味論の重要性を示す。
本稿では,空間構成の要素を利用したニューラルエージェントを提案し,ナビゲーションエージェントの推論能力への影響について検討する。
さらに、逐次実行順序をモデル化し、視覚オブジェクトを命令中の空間構成にアラインする。
我々のニューラルエージェントは、目に見えない環境における強いベースラインを改善し、目に見えない環境における競争性能を示す。
さらに, 実験により, 空間的意味要素の明示的なモデル化により, モデルの基底化と空間的推論が向上することを示した。
関連論文リスト
- Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - NavHint: Vision and Language Navigation Agent with a Hint Generator [31.322331792911598]
我々は、詳細な視覚的記述を提供するヒント生成装置を通じて、ナビゲーションエージェントに対して間接的な監視を行う。
ヒントジェネレータは、ナビゲーションエージェントが視覚環境のグローバルな理解を開発するのを支援する。
提案手法をR2RとR4Rのデータセット上で評価し,いくつかの指標で最先端を実現する。
論文 参考訳(メタデータ) (2024-02-04T16:23:16Z) - Kefa: A Knowledge Enhanced and Fine-grained Aligned Speaker for
Navigation Instruction Generation [70.76686546473994]
ナビゲーション命令生成のための新しい話者モデルtextscKefaを提案する。
提案したKEFA話者は,屋内および屋外の両方で最先端の指示生成性能を実現する。
論文 参考訳(メタデータ) (2023-07-25T09:39:59Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Structured Exploration Through Instruction Enhancement for Object
Navigation [0.0]
本稿では,オブジェクトナビゲーションのための階層型学習手法を提案する。
トップレベルはハイレベルなプランニングが可能で、フロアプランレベルでメモリを構築することができる。
本研究では,本手法が動的家庭環境に与える影響を実証する。
論文 参考訳(メタデータ) (2022-11-15T19:39:22Z) - LOViS: Learning Orientation and Visual Signals for Vision and Language
Navigation [23.84492755669486]
本稿では,明示的なオリエンテーションとビジョンモジュールを持つニューラルエージェントを設計する。
これらのモジュールは空間的な情報に基づいて学習し、視覚環境への指示のランドマークをより効果的に記述する。
提案手法はRoom2room (R2R) とRoom4room (R4R) の両方のデータセットで評価し,両ベンチマークで得られた技術結果の状態を検証した。
論文 参考訳(メタデータ) (2022-09-26T14:26:50Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - Occupancy Anticipation for Efficient Exploration and Navigation [97.17517060585875]
そこで我々は,エージェントが自我中心のRGB-D観測を用いて,その占有状態を可視領域を超えて推定する,占有予測を提案する。
エゴセントリックなビューとトップダウンマップの両方でコンテキストを活用することで、私たちのモデルは環境のより広いマップを予測できます。
われわれのアプローチは、2020 Habitat PointNav Challengeの優勝だ。
論文 参考訳(メタデータ) (2020-08-21T03:16:51Z) - Neural Topological SLAM for Visual Navigation [112.73876869904]
意味論を生かし、近似幾何学的推論を行う空間のトポロジ的表現を設計する。
本稿では,ノイズのあるアクティベーションの下でそのような表現を構築し,維持し,使用することができる教師付き学習ベースアルゴリズムについて述べる。
論文 参考訳(メタデータ) (2020-05-25T17:56:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。