論文の概要: Agent-Centric Relation Graph for Object Visual Navigation
- arxiv url: http://arxiv.org/abs/2111.14422v3
- Date: Mon, 21 Aug 2023 03:13:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 03:25:54.374956
- Title: Agent-Centric Relation Graph for Object Visual Navigation
- Title(参考訳): オブジェクト視覚ナビゲーションのためのエージェント中心関係グラフ
- Authors: Xiaobo Hu, Youfang Lin, Shuo Wang, Zhihao Wu, Kai Lv
- Abstract要約: 環境の関連性に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を提案する。
ACRGは、オブジェクト間の水平関係とエージェントとオブジェクト間の距離関係という2つの関係からなる、非常に効果的な構造である。
上記のグラフでは、エージェントは環境を認識し、ナビゲーションアクションを出力することができる。
- 参考スコア(独自算出の注目度): 25.097165101483284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Object visual navigation aims to steer an agent toward a target object based
on visual observations. It is highly desirable to reasonably perceive the
environment and accurately control the agent. In the navigation task, we
introduce an Agent-Centric Relation Graph (ACRG) for learning the visual
representation based on the relationships in the environment. ACRG is a highly
effective structure that consists of two relationships, i.e., the horizontal
relationship among objects and the distance relationship between the agent and
objects . On the one hand, we design the Object Horizontal Relationship Graph
(OHRG) that stores the relative horizontal location among objects. On the other
hand, we propose the Agent-Target Distance Relationship Graph (ATDRG) that
enables the agent to perceive the distance between the target and objects. For
ATDRG, we utilize image depth to obtain the target distance and imply the
vertical location to capture the distance relationship among objects in the
vertical direction. With the above graphs, the agent can perceive the
environment and output navigation actions. Experimental results in the
artificial environment AI2-THOR demonstrate that ACRG significantly outperforms
other state-of-the-art methods in unseen testing environments.
- Abstract(参考訳): object visual navigationは、視覚的な観察に基づいて、ターゲットオブジェクトに向かってエージェントを操ることを目的としている。
環境を合理的に認識し、エージェントを正確に制御することが極めて望ましい。
ナビゲーションタスクでは,環境内の関係に基づいて視覚表現を学習するためのエージェント・中心関係グラフ(ACRG)を導入する。
ACRGは、オブジェクト間の水平関係とエージェントとオブジェクト間の距離関係という2つの関係からなる、非常に効果的な構造である。
一方,オブジェクト間の相対的水平位置を格納するオブジェクト水平関係グラフ(OHRG)を設計する。
一方,エージェント・ターゲット距離関係グラフ (ATDRG) では,エージェントが対象物との距離を知覚できる。
ATDRGでは、画像深度を利用して目標距離と垂直位置を求め、垂直方向の物体間の距離関係を捉える。
上記グラフにより、エージェントは環境を知覚し、ナビゲーションアクションを出力することができる。
人工環境における実験結果 ai2-thor は acrg が未発見のテスト環境において他の最先端手法を大きく上回っていることを証明している。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Temporal-Spatial Object Relations Modeling for Vision-and-Language Navigation [11.372544701050044]
VLN(Vision-and-Language Navigation)は、エージェントが視覚観察を通して記述された自然言語にナビゲートする必要がある課題である。
エージェントのナビゲーション能力は、通常内部オブジェクトまたは外部データセットを使用して学習されるオブジェクト間の関係によって強化することができる。
論文 参考訳(メタデータ) (2024-03-23T02:44:43Z) - Building Category Graphs Representation with Spatial and Temporal
Attention for Visual Navigation [35.13932194789583]
視覚ナビゲーションは、興味のある対象が与えられたとき、部分的な観察の順序に基づいて物体の位置に到達することを目的としている。
この目的のために, エージェントは, 1) 学習中の世界のオブジェクトカテゴリの関係について, ある特定の知識を学習し, 2) 学習前のオブジェクトカテゴリ関係と現在目に見えない環境における移動軌跡に基づいて対象オブジェクトを探す必要がある。
対象のカテゴリ配置に関する知識を学習するためのカテゴリ関係グラフ(CRG)と,オブジェクトの長期的空間的依存関係を知覚するTSRアテンションアーキテクチャ(TSR)を提案する。
論文 参考訳(メタデータ) (2023-12-06T07:28:43Z) - Zero-Shot Object Goal Visual Navigation With Class-Independent Relationship Network [3.0820097046465285]
ゼロショット(Zero-shot)とは、エージェントが探すべきターゲットがトレーニングフェーズ中にトレーニングされないことを意味する。
本研究では,学習中の目標特徴とナビゲーション能力の結合の問題に対処するために,クラス独立関係ネットワーク(CIRN)を提案する。
本手法は、ゼロショット目標視覚ナビゲーションタスクにおける最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2023-10-15T16:42:14Z) - Task-Driven Graph Attention for Hierarchical Relational Object
Navigation [25.571175038938527]
大きなシーンにいる身体を持つAIエージェントは、オブジェクトを見つけるためにナビゲートする必要があることが多い。
対象ナビゲーションタスクHRON(hierarchical object navigation)の自然に現れる変種について検討する。
本稿では、シーングラフを入力の一部として使用し、グラフニューラルネットワークをバックボーンとして統合するソリューションを提案する。
論文 参考訳(メタデータ) (2023-06-23T19:50:48Z) - Relation Regularized Scene Graph Generation [206.76762860019065]
SGG(Scene Graph Generation)は、検出されたオブジェクトの上に構築され、オブジェクトのペアの視覚的関係を予測する。
本稿では,2つのオブジェクト間の関係を予測できる関係正規化ネットワーク(R2-Net)を提案する。
我々のR2-Netはオブジェクトラベルを効果的に洗練し、シーングラフを生成する。
論文 参考訳(メタデータ) (2022-02-22T11:36:49Z) - Exploiting Scene Graphs for Human-Object Interaction Detection [81.49184987430333]
ヒューマン・オブジェクト・インタラクション(Human-Object Interaction,HOI)検出は、人間とオブジェクト間のインタラクションのローカライズと認識を目的とした、基本的な視覚的タスクである。
そこで本研究では,シーングラフを用いたヒューマン・オブジェクト・インタラクション(SG2HOI)検出タスクのための新しい手法を提案する。
SG2HOIはSG情報を2つの方法で組み込む:(1)シーングラフを世界的文脈の手がかりに埋め込み、シーン固有の環境コンテキストとして機能し、(2)オブジェクトの近傍から関係を収集し、それらを対話に転送するリレーショナル・アウェア・メッセージ・パッシング・モジュールを構築する。
論文 参考訳(メタデータ) (2021-08-19T09:40:50Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - Language and Visual Entity Relationship Graph for Agent Navigation [54.059606864535304]
VLN(Vision-and-Language Navigation)は、エージェントが自然言語の指示に従って現実世界の環境をナビゲートする必要がある。
テキストと視覚間のモーダル関係をモデル化するための新しい言語とビジュアルエンティティ関係グラフを提案する。
実験によって、私たちは最先端技術よりも改善できる関係を利用しています。
論文 参考訳(メタデータ) (2020-10-19T08:25:55Z) - ConsNet: Learning Consistency Graph for Zero-Shot Human-Object
Interaction Detection [101.56529337489417]
画像中のHuman, Action, Object>の形のHOIインスタンスを検出・認識することを目的としたHuman-Object Interaction (HOI) Detectionの問題点を考察する。
我々は、オブジェクト、アクション、インタラクション間の多レベルコンパレンシーは、稀な、あるいは以前には見られなかったHOIのセマンティック表現を生成するための強力な手がかりであると主張している。
提案モデルでは,人-対象のペアの視覚的特徴とHOIラベルの単語埋め込みを入力とし,それらを視覚-意味的関節埋め込み空間にマッピングし,類似度を計測して検出結果を得る。
論文 参考訳(メタデータ) (2020-08-14T09:11:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。