論文の概要: Visual Navigation with Spatial Attention
- arxiv url: http://arxiv.org/abs/2104.09807v1
- Date: Tue, 20 Apr 2021 07:39:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 13:49:55.796001
- Title: Visual Navigation with Spatial Attention
- Title(参考訳): 空間的注意を伴う視覚ナビゲーション
- Authors: Bar Mayo, Tamir Hazan and Ayellet Tal
- Abstract要約: この作業は、オブジェクト目標のビジュアルナビゲーションに焦点を当て、与えられたクラスからオブジェクトの場所を見つけることを目指しています。
強化学習アルゴリズムを用いてエージェントのポリシーを学習することを提案する。
我々の重要な貢献は、視覚ナビゲーションタスクのための新しい注意確率モデルである。
- 参考スコア(独自算出の注目度): 26.888916048408895
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work focuses on object goal visual navigation, aiming at finding the
location of an object from a given class, where in each step the agent is
provided with an egocentric RGB image of the scene. We propose to learn the
agent's policy using a reinforcement learning algorithm. Our key contribution
is a novel attention probability model for visual navigation tasks. This
attention encodes semantic information about observed objects, as well as
spatial information about their place. This combination of the "what" and the
"where" allows the agent to navigate toward the sought-after object
effectively. The attention model is shown to improve the agent's policy and to
achieve state-of-the-art results on commonly-used datasets.
- Abstract(参考訳): 本研究は,あるクラスからオブジェクトの位置を見つけることを目的としたオブジェクトゴール視覚ナビゲーションに焦点を当て,各ステップでエージェントにシーンのエゴセントリックなRGB画像を提供する。
強化学習アルゴリズムを用いてエージェントの方針を学ぶことを提案する。
我々の重要な貢献は視覚ナビゲーションタスクのための新しい注意確率モデルである。
この注意は、観測対象に関する意味情報と、その場所に関する空間情報とをエンコードする。
この "what" と "where" の組み合わせにより、エージェントは後続のオブジェクトを効果的にナビゲートできる。
注意モデルは、エージェントのポリシーを改善し、一般的に使用されるデータセットの最先端結果を達成するために示される。
関連論文リスト
- Augmented Commonsense Knowledge for Remote Object Grounding [67.30864498454805]
エージェントナビゲーションを改善するための時間的知識グラフとして,コモンセンス情報を活用するための拡張コモンセンス知識モデル(ACK)を提案する。
ACKは知識グラフ対応のクロスモーダルとコンセプトアグリゲーションモジュールで構成され、視覚的表現と視覚的テキストデータアライメントを強化する。
我々は、より正確な局所的な行動予測につながるコモンセンスに基づく意思決定プロセスのための新しいパイプラインを追加します。
論文 参考訳(メタデータ) (2024-06-03T12:12:33Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Building Category Graphs Representation with Spatial and Temporal
Attention for Visual Navigation [35.13932194789583]
視覚ナビゲーションは、興味のある対象が与えられたとき、部分的な観察の順序に基づいて物体の位置に到達することを目的としている。
この目的のために, エージェントは, 1) 学習中の世界のオブジェクトカテゴリの関係について, ある特定の知識を学習し, 2) 学習前のオブジェクトカテゴリ関係と現在目に見えない環境における移動軌跡に基づいて対象オブジェクトを探す必要がある。
対象のカテゴリ配置に関する知識を学習するためのカテゴリ関係グラフ(CRG)と,オブジェクトの長期的空間的依存関係を知覚するTSRアテンションアーキテクチャ(TSR)を提案する。
論文 参考訳(メタデータ) (2023-12-06T07:28:43Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - KERM: Knowledge Enhanced Reasoning for Vision-and-Language Navigation [61.08389704326803]
VLN(Vision-and-Language Navigation)は、実シーンにおける自然言語命令に続く遠隔地への移動を可能にするタスクである。
以前のアプローチのほとんどは、ナビゲート可能な候補を表現するために、機能全体やオブジェクト中心の機能を利用している。
本稿では,知識を活用したエージェントナビゲーション能力向上のための知識強化推論モデル(KERM)を提案する。
論文 参考訳(メタデータ) (2023-03-28T08:00:46Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。