論文の概要: Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships
- arxiv url: http://arxiv.org/abs/2005.02153v1
- Date: Wed, 29 Apr 2020 08:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 10:15:56.441795
- Title: Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships
- Title(参考訳): 3次元空間関係に着目した目標駆動視覚ナビゲーションの改善
- Authors: Yunlian Lv, Ning Xie, Yimin Shi, Zijiao Wang, and Heng Tao Shen
- Abstract要約: 3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
- 参考スコア(独自算出の注目度): 52.72020203771489
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Embodied artificial intelligence (AI) tasks shift from tasks focusing on
internet images to active settings involving embodied agents that perceive and
act within 3D environments. In this paper, we investigate the target-driven
visual navigation using deep reinforcement learning (DRL) in 3D indoor scenes,
whose navigation task aims to train an agent that can intelligently make a
series of decisions to arrive at a pre-specified target location from any
possible starting positions only based on egocentric views. However, most
navigation methods currently struggle against several challenging problems,
such as data efficiency, automatic obstacle avoidance, and generalization.
Generalization problem means that agent does not have the ability to transfer
navigation skills learned from previous experience to unseen targets and
scenes. To address these issues, we incorporate two designs into classic DRL
framework: attention on 3D knowledge graph (KG) and target skill extension
(TSE) module. On the one hand, our proposed method combines visual features and
3D spatial representations to learn navigation policy. On the other hand, TSE
module is used to generate sub-targets which allow agent to learn from
failures. Specifically, our 3D spatial relationships are encoded through
recently popular graph convolutional network (GCN). Considering the real world
settings, our work also considers open action and adds actionable targets into
conventional navigation situations. Those more difficult settings are applied
to test whether DRL agent really understand its task, navigating environment,
and can carry out reasoning. Our experiments, performed in the AI2-THOR, show
that our model outperforms the baselines in both SR and SPL metrics, and
improves generalization ability across targets and scenes.
- Abstract(参考訳): 身体的人工知能(AI)タスクは、インターネットイメージに焦点を当てたタスクから、3D環境内で知覚し行動するエンボディエージェントを含むアクティブな設定へとシフトする。
本稿では,3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討する。ナビゲーションタスクは,エゴセントリックな視点からのみ可能な開始位置から,所定の目標地点に到達するための知的意思決定を行うエージェントを訓練することを目的としている。
しかし、現在ほとんどのナビゲーション手法は、データ効率、自動障害物回避、一般化などいくつかの困難な問題に直面している。
一般化問題は、エージェントが以前の経験から学んだナビゲーションスキルを、見えないターゲットやシーンに転送する能力を持たないことを意味する。
これらの課題に対処するため,従来のDRLフレームワークに3次元知識グラフ(KG)とターゲットスキル拡張(TSE)モジュールの2つの設計を組み込んだ。
一方,提案手法では,視覚特徴と3次元空間表現を組み合わせてナビゲーション方針を学習する。
一方、TSEモジュールはサブターゲットを生成するために使用され、エージェントは障害から学ぶことができる。
具体的には,最近普及したグラフ畳み込みネットワーク (gcn) を用いて3次元空間関係を符号化する。
現実世界の設定を考えると、オープンアクションも考慮し、従来のナビゲーション状況にアクション可能なターゲットを追加する。
DRLエージェントがそのタスクを本当に理解し、環境をナビゲートし、推論を実行できるかどうかをテストするために、これらのより困難な設定を適用する。
我々の実験はAI2-THORで行われ、SRとSPLの指標のベースラインよりも優れており、ターゲットとシーン間の一般化能力が改善されている。
関連論文リスト
- Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - 3D-Aware Object Goal Navigation via Simultaneous Exploration and
Identification [19.125633699422117]
本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。
私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-12-01T07:55:56Z) - Towards self-attention based visual navigation in the real world [0.0]
視覚誘導ナビゲーションでは、タスク指向の意思決定を知らせるために複雑な視覚情報を処理する必要がある。
シミュレーションで訓練された深層強化学習エージェントは、現実世界に配備された時に満足のいく結果を示すことが多い。
これは、4000以下のパラメータを使って3Dアクション空間をナビゲートする訓練に成功した、自己注意型エージェントの最初のデモンストレーションである。
論文 参考訳(メタデータ) (2022-09-15T04:51:42Z) - Zero Experience Required: Plug & Play Modular Transfer Learning for
Semantic Visual Navigation [97.17517060585875]
新たなモジュール移動学習モデルを用いて視覚ナビゲーションに統一的な手法を提案する。
我々のモデルは、1つのソースタスクから経験を効果的に活用し、複数のターゲットタスクに適用することができる。
我々のアプローチはより速く学習し、より良く一般化し、大きなマージンでSoTAモデルを上回っます。
論文 参考訳(メタデータ) (2022-02-05T00:07:21Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Pushing it out of the Way: Interactive Visual Navigation [62.296686176988125]
エージェントが目標に合わせてより効率的にナビゲートするために環境を変更することを学ぶインタラクティブナビゲーションの問題を研究します。
エージェントの行動によって引き起こされる環境の変化を明示的に予測するために,neural interaction engine(nie)を導入する。
計画中の変更をモデル化することで、エージェントがナビゲーション能力を大幅に改善できることが分かりました。
論文 参考訳(メタデータ) (2021-04-28T22:46:41Z) - Diagnosing Vision-and-Language Navigation: What Really Matters [61.72935815656582]
視覚言語ナビゲーション(VLN)は、エージェントが自然言語の指示に従って視覚環境をナビゲートするマルチモーダルタスクである。
近年の研究では、室内および屋外のVLNタスクのパフォーマンス改善が鈍化している。
本研究では,ナビゲーション中のエージェントの焦点を明らかにするための一連の診断実験を行う。
論文 参考訳(メタデータ) (2021-03-30T17:59:07Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Active Visual Information Gathering for Vision-Language Navigation [115.40768457718325]
視覚言語ナビゲーション(VLN)は、エージェントがフォトリアリスティックな環境の中でナビゲーションの指示を行うためのタスクである。
VLNの重要な課題の1つは、曖昧な指示による不確実性を緩和し、環境の観察を不十分にすることで、堅牢なナビゲーションを行う方法である。
この研究は、人間のナビゲーション行動からインスピレーションを得て、よりインテリジェントなVLNポリシーのためのアクティブな情報収集能力を持つエージェントを提供する。
論文 参考訳(メタデータ) (2020-07-15T23:54:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。