論文の概要: Building Category Graphs Representation with Spatial and Temporal
Attention for Visual Navigation
- arxiv url: http://arxiv.org/abs/2312.03327v1
- Date: Wed, 6 Dec 2023 07:28:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-07 15:55:10.215123
- Title: Building Category Graphs Representation with Spatial and Temporal
Attention for Visual Navigation
- Title(参考訳): 視覚ナビゲーションのための空間的および時間的注意を伴うカテゴリグラフ表現の構築
- Authors: Xiaobo Hu, Youfang Lin, HeHe Fan, Shuo Wang, Zhihao Wu, Kai Lv
- Abstract要約: 視覚ナビゲーションは、興味のある対象が与えられたとき、部分的な観察の順序に基づいて物体の位置に到達することを目的としている。
この目的のために, エージェントは, 1) 学習中の世界のオブジェクトカテゴリの関係について, ある特定の知識を学習し, 2) 学習前のオブジェクトカテゴリ関係と現在目に見えない環境における移動軌跡に基づいて対象オブジェクトを探す必要がある。
対象のカテゴリ配置に関する知識を学習するためのカテゴリ関係グラフ(CRG)と,オブジェクトの長期的空間的依存関係を知覚するTSRアテンションアーキテクチャ(TSR)を提案する。
- 参考スコア(独自算出の注目度): 35.13932194789583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Given an object of interest, visual navigation aims to reach the object's
location based on a sequence of partial observations. To this end, an agent
needs to 1) learn a piece of certain knowledge about the relations of object
categories in the world during training and 2) look for the target object based
on the pre-learned object category relations and its moving trajectory in the
current unseen environment. In this paper, we propose a Category Relation Graph
(CRG) to learn the knowledge of object category layout relations and a
Temporal-Spatial-Region (TSR) attention architecture to perceive the long-term
spatial-temporal dependencies of objects helping the navigation. We learn prior
knowledge of object layout, establishing a category relationship graph to
deduce the positions of specific objects. Subsequently, we introduced TSR to
capture the relationships of objects in temporal, spatial, and regions within
the observation trajectories. Specifically, we propose a Temporal attention
module (T) to model the temporal structure of the observation sequence, which
implicitly encodes the historical moving or trajectory information. Then, a
Spatial attention module (S) is used to uncover the spatial context of the
current observation objects based on the category relation graph and past
observations. Last, a Region attention module (R) shifts the attention to the
target-relevant region. Based on the visual representation extracted by our
method, the agent can better perceive the environment and easily learn superior
navigation policy. Experiments on AI2-THOR demonstrate our CRG-TSR method
significantly outperforms existing methods regarding both effectiveness and
efficiency. The code has been included in the supplementary material and will
be publicly available.
- Abstract(参考訳): 視覚ナビゲーションは、興味のある対象が与えられたとき、部分的な観察の順序に基づいて物体の位置に到達することを目的としている。
この目的のためには エージェントは
1)訓練中の世界における対象カテゴリーの関係に関する特定の知識を学習し、
2)現在目に見えない環境において,事前学習対象カテゴリー関係とその移動軌跡に基づいて対象対象物を探す。
本稿では,オブジェクトのカテゴリ配置関係の知識を学習するカテゴリ関係グラフ (crg) と,ナビゲーション支援対象の長期的空間的・時間的依存関係を知覚する時間空間的アテンションアーキテクチャ (tsr) を提案する。
我々は、オブジェクトレイアウトの事前知識を学び、特定のオブジェクトの位置を推測するカテゴリ関係グラフを確立する。
その後, 観測軌道内の時間的, 空間的, 領域における物体の関係を捉えるためにTSRを導入した。
具体的には,過去の移動や軌道情報を暗黙的にエンコードする観測シーケンスの時間的構造をモデル化する時間的注意モジュール(t)を提案する。
次に、カテゴリ関係グラフと過去の観測に基づいて、現在の観測対象の空間的文脈を明らかにするために空間的注意モジュール(s)を用いる。
最後に、領域注意モジュール(R)は、対象領域に注意を移す。
本手法によって抽出された視覚的表現に基づき,エージェントは環境をよりよく認識し,優れたナビゲーションポリシーを容易に学習することができる。
ai2-thorの実験では、crg-tsr法が有効性と効率の両面で既存の方法を大幅に上回っています。
コードは補足資料に含まれており、一般公開される予定である。
関連論文リスト
- Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation [11.372544701050044]
VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。
エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。
論文 参考訳(メタデータ) (2024-03-23T02:44:43Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Tracking Objects and Activities with Attention for Temporal Sentence
Grounding [51.416914256782505]
時間文 (TSG) は、意味的に自然言語のクエリと一致した時間セグメントを、トリミングされていないセグメントでローカライズすることを目的としている。
本稿では,(A)マルチモーダル・検索空間を生成するクロスモーダル・ターゲット・ジェネレータと(B)マルチモーダル・ターゲットの動作を追跡し,クエリ関連セグメントを予測するテンポラル・センセント・トラッカーとを含む,新しいテンポラル・センセント・トラッカー・ネットワーク(TSTNet)を提案する。
論文 参考訳(メタデータ) (2023-02-21T16:42:52Z) - Spatio-Temporal Relation Learning for Video Anomaly Detection [35.59510027883497]
異常識別は、オブジェクトとシーンの関係に大きく依存する。
本稿では,ビデオ異常検出タスクに対処するための空間時間関係学習フレームワークを提案する。
3つの公開データセットで実験を行い、最先端手法よりも優れた性能を示し、本手法の有効性を実証した。
論文 参考訳(メタデータ) (2022-09-27T02:19:31Z) - Bi-directional Object-context Prioritization Learning for Saliency
Ranking [60.62461793691836]
既存のアプローチは、オブジェクトオブジェクトかオブジェクトシーンの関係を学ぶことに集中しています。
我々は,人間の視覚認識システムにおいて,空間的注意と物体に基づく注意が同時に機能することが観察された。
本稿では,空間的注意を統一する新たな双方向手法を提案する。
論文 参考訳(メタデータ) (2022-03-17T16:16:03Z) - Visual Navigation with Spatial Attention [26.888916048408895]
この作業は、オブジェクト目標のビジュアルナビゲーションに焦点を当て、与えられたクラスからオブジェクトの場所を見つけることを目指しています。
強化学習アルゴリズムを用いてエージェントのポリシーを学習することを提案する。
我々の重要な貢献は、視覚ナビゲーションタスクのための新しい注意確率モデルである。
論文 参考訳(メタデータ) (2021-04-20T07:39:52Z) - Spatial-Temporal Correlation and Topology Learning for Person
Re-Identification in Videos [78.45050529204701]
クロススケール空間時空間相関をモデル化し, 識別的, 堅牢な表現を追求する新しい枠組みを提案する。
CTLはCNNバックボーンとキーポイント推定器を使用して人体から意味的局所的特徴を抽出する。
グローバルな文脈情報と人体の物理的接続の両方を考慮して、多スケールグラフを構築するためのコンテキスト強化トポロジーを探求する。
論文 参考訳(メタデータ) (2021-04-15T14:32:12Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Exploiting Scene-specific Features for Object Goal Navigation [9.806910643086043]
ナビゲーションモデルのトレーニングを高速化するデータセットを新たに導入する。
提案したデータセットは,オンライン構築マップを合理的な時間で活用しないモデルのトレーニングを可能にする。
本研究では,SMTSCモデルを提案する。
論文 参考訳(メタデータ) (2020-08-21T10:16:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。