論文の概要: TDANet: Target-Directed Attention Network For Object-Goal Visual Navigation With Zero-Shot Ability
- arxiv url: http://arxiv.org/abs/2404.08353v1
- Date: Fri, 12 Apr 2024 09:44:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-15 15:26:16.013833
- Title: TDANet: Target-Directed Attention Network For Object-Goal Visual Navigation With Zero-Shot Ability
- Title(参考訳): TDANet:ゼロショット機能を備えたオブジェクト指向視覚ナビゲーションのためのターゲット指向アテンションネットワーク
- Authors: Shiwei Lian, Feitian Zhang,
- Abstract要約: 目標指向アテンションネットワーク (TDANet) が提案され, エンド・ツー・エンドのビジュアルナビゲーションポリシーを学習する。
TDANetは、オブジェクト間の空間的および意味的な関係を学習し、TDANetが最も関連性の高い観測対象にフォーカスするのに役立つ新しいターゲットアテンション(TA)モジュールを備えている。
TDANetのナビゲーション性能を評価するため,AI2-THORを具体化したAI環境で広範囲な実験を行った。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The generalization of the end-to-end deep reinforcement learning (DRL) for object-goal visual navigation is a long-standing challenge since object classes and placements vary in new test environments. Learning domain-independent visual representation is critical for enabling the trained DRL agent with the ability to generalize to unseen scenes and objects. In this letter, a target-directed attention network (TDANet) is proposed to learn the end-to-end object-goal visual navigation policy with zero-shot ability. TDANet features a novel target attention (TA) module that learns both the spatial and semantic relationships among objects to help TDANet focus on the most relevant observed objects to the target. With the Siamese architecture (SA) design, TDANet distinguishes the difference between the current and target states and generates the domain-independent visual representation. To evaluate the navigation performance of TDANet, extensive experiments are conducted in the AI2-THOR embodied AI environment. The simulation results demonstrate a strong generalization ability of TDANet to unseen scenes and target objects, with higher navigation success rate (SR) and success weighted by length (SPL) than other state-of-the-art models.
- Abstract(参考訳): オブジェクト指向ビジュアルナビゲーションのためのエンドツーエンド深層学習(DRL)の一般化は、新しいテスト環境においてオブジェクトクラスと配置が異なるため、長年にわたる課題である。
ドメインに依存しない視覚表現の学習は、訓練されたDRLエージェントが見えないシーンやオブジェクトに一般化できるために重要である。
本稿では,目標指向アテンションネットワーク(TDANet)を提案する。
TDANetは、オブジェクト間の空間的および意味的な関係を学習し、TDANetが最も関連性の高い観測対象にフォーカスするのに役立つ新しいターゲットアテンション(TA)モジュールを備えている。
Siameseアーキテクチャ(SA)設計では、TDANetは現在の状態とターゲット状態の違いを区別し、ドメインに依存しない視覚表現を生成する。
TDANetのナビゲーション性能を評価するため,AI2-THORを具体化したAI環境で広範囲な実験を行った。
シミュレーションの結果,TDANetのシーンや対象物への一般化能力が強く,航法成功率(SR)が向上し,SPLが他の最先端モデルよりも重み付けされた。
関連論文リスト
- Learning Object-Centric Representation via Reverse Hierarchy Guidance [73.05170419085796]
OCL(Object-Centric Learning)は、ニューラルネットワークが視覚的なシーンで個々のオブジェクトを識別できるようにする。
RHGNetは、トレーニングと推論プロセスにおいて、さまざまな方法で機能するトップダウンパスを導入している。
我々のモデルは、よく使われる複数のデータセット上でSOTA性能を達成する。
論文 参考訳(メタデータ) (2024-05-17T07:48:27Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Can an Embodied Agent Find Your "Cat-shaped Mug"? LLM-Guided Exploration
for Zero-Shot Object Navigation [58.3480730643517]
言語駆動型ゼロショットオブジェクトゴールナビゲーション(L-ZSON)のための新しいアルゴリズムLGXを提案する。
このアプローチでは、このタスクにLarge Language Models(LLM)を使用します。
現状のゼロショットオブジェクトナビゲーションをRoboTHOR上で実現し,現在のベースラインよりも27%以上の成功率(SR)向上を実現した。
論文 参考訳(メタデータ) (2023-03-06T20:19:19Z) - Network Comparison Study of Deep Activation Feature Discriminability
with Novel Objects [0.5076419064097732]
最先端のコンピュータビジョンアルゴリズムは、Deep Neural Networks(DNN)を特徴抽出に取り入れ、Deep Convolutional Activation Features(DeCAF)を作成する。
本研究では、6つの主要な視覚認識DNNアーキテクチャのDeCAF空間に符号化された新しい物体の視覚的外観の一般的な識別可能性について分析する。
論文 参考訳(メタデータ) (2022-02-08T07:40:53Z) - VTNet: Visual Transformer Network for Object Goal Navigation [36.15625223586484]
ナビゲーションにおける情報的視覚表現を学習するためのVisual Transformer Network(VTNet)を導入する。
簡単に言うと、VTNetはオブジェクトとリージョンの機能を、空間認識ディスクリプタとして位置キューで埋め込む。
人工環境におけるAI2-Thorの実験は、VTNetが目に見えないテスト環境で最先端の手法を著しく上回っていることを実証している。
論文 参考訳(メタデータ) (2021-05-20T01:23:15Z) - Location-Sensitive Visual Recognition with Cross-IOU Loss [177.86369890708457]
本稿では,オブジェクト検出,インスタンスセグメンテーション,ポーズ推定のための位置感知ネットワーク (LSNet) という統合ソリューションを提案する。
ディープニューラルネットワークをバックボーンとして、LSNetは、ターゲットオブジェクトの形状を一緒に定義するアンカーポイントとランドマークのセットを予測します。
論文 参考訳(メタデータ) (2021-04-11T02:17:14Z) - Improving Target-driven Visual Navigation with Attention on 3D Spatial
Relationships [52.72020203771489]
3次元屋内シーンにおける深部強化学習(DRL)を用いた目標駆動型視覚ナビゲーションについて検討した。
提案手法は視覚特徴と3次元空間表現を組み合わせてナビゲーションポリシーを学習する。
AI2-THORで実施した我々の実験は、SRとSPLの指標において、モデルがベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2020-04-29T08:46:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。