論文の概要: Agent-Centric Relation Graph for Object Visual Navigation
- arxiv url: http://arxiv.org/abs/2111.14422v1
- Date: Mon, 29 Nov 2021 10:06:31 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-30 17:41:52.958835
- Title: Agent-Centric Relation Graph for Object Visual Navigation
- Title(参考訳): オブジェクト視覚ナビゲーションのためのエージェント中心関係グラフ
- Authors: Hu Xiaobo, Wu Zhihao, Lv Kai, Wang Shuo, Lin Youfang
- Abstract要約: 環境の関連性に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を提案する。
ACRGは、オブジェクト間の関係とエージェントとターゲットの関係という2つの関係からなる、非常に効果的で合理的な構造である。
人工環境におけるAI2-Thorの実験結果から、ACRGは目に見えないテスト環境で、他の最先端の手法を著しく上回っていることが示された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object visual navigation aims to steer an agent towards a target object based
on visual observations of the agent. It is highly desirable to reasonably
perceive the environment and accurately control the agent. In the navigation
task, we introduce an Agent-Centric Relation Graph (ACRG) for learning the
visual representation based on the relationships in the environment. ACRG is a
highly effective and reasonable structure that consists of two relationships,
i.e., the relationship among objects and the relationship between the agent and
the target. On the one hand, we design the Object Horizontal Relationship Graph
(OHRG) that stores the relative horizontal location among objects. Note that
the vertical relationship is not involved in OHRG, and we argue that OHRG is
suitable for the control strategy. On the other hand, we propose the
Agent-Target Depth Relationship Graph (ATDRG) that enables the agent to
perceive the distance to the target. To achieve ATDRG, we utilize image depth
to represent the distance. Given the above relationships, the agent can
perceive the environment and output navigation actions. Given the visual
representations constructed by ACRG and position-encoded global features, the
agent can capture the target position to perform navigation actions.
Experimental results in the artificial environment AI2-Thor demonstrate that
ACRG significantly outperforms other state-of-the-art methods in unseen testing
environments.
- Abstract(参考訳): object visual navigationは、エージェントの視覚的な観察に基づいて、ターゲットオブジェクトに向かってエージェントを操ることを目的としている。
環境を合理的に認識し、エージェントを正確に制御することが極めて望ましい。
ナビゲーションタスクでは,環境内の関係に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を導入する。
ACRGは、オブジェクト間の関係とエージェントとターゲットの関係という2つの関係からなる、非常に効果的で合理的な構造である。
一方,オブジェクト間の相対的水平位置を格納するオブジェクト水平関係グラフ(OHRG)を設計する。
垂直関係はOHRGには関与せず、OHRGは制御戦略に適していると論じる。
一方,エージェント・ターゲット深度関係グラフ (ATDRG) では,エージェントがターゲットまでの距離を知覚できる。
ATDRGを実現するために,画像深度を用いて距離を表現する。
上記の関係から、エージェントは環境を認識し、ナビゲーションアクションを出力することができる。
ACRGによって構築された視覚的表現と位置エンコードされたグローバルな特徴を考えると、エージェントは目標位置をキャプチャしてナビゲーションアクションを実行することができる。
人工環境における実験結果 ai2-thor は acrg が未発見のテスト環境において他の最先端手法を大きく上回っていることを証明している。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation [11.372544701050044]
VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。
エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。
論文 参考訳(メタデータ) (2024-03-23T02:44:43Z) - Building Category Graphs Representation with Spatial and Temporal
Attention for Visual Navigation [35.13932194789583]
視覚ナビゲーションは、興味のある対象が与えられたとき、部分的な観察の順序に基づいて物体の位置に到達することを目的としている。
この目的のために, エージェントは, 1) 学習中の世界のオブジェクトカテゴリの関係について, ある特定の知識を学習し, 2) 学習前のオブジェクトカテゴリ関係と現在目に見えない環境における移動軌跡に基づいて対象オブジェクトを探す必要がある。
対象のカテゴリ配置に関する知識を学習するためのカテゴリ関係グラフ(CRG)と,オブジェクトの長期的空間的依存関係を知覚するTSRアテンションアーキテクチャ(TSR)を提案する。
論文 参考訳(メタデータ) (2023-12-06T07:28:43Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Task-Driven Graph Attention for Hierarchical Relational Object
Navigation [25.571175038938527]
大きなシーンにいる身体を持つAIエージェントは、オブジェクトを見つけるためにナビゲートする必要があることが多い。
対象ナビゲーションタスクHRON(hierarchical object navigation)の自然に現れる変種について検討する。
本稿では、シーングラフを入力の一部として使用し、グラフニューラルネットワークをバックボーンとして統合するソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-23T19:50:48Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。