論文の概要: Hierarchical Object-to-Zone Graph for Object Navigation
- arxiv url: http://arxiv.org/abs/2109.02066v2
- Date: Thu, 9 Sep 2021 08:59:23 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-10 10:25:59.923732
- Title: Hierarchical Object-to-Zone Graph for Object Navigation
- Title(参考訳): オブジェクトナビゲーションのための階層型オブジェクトツーゾーングラフ
- Authors: Sixian Zhang, Xinhang Song, Yubing Bai, Weijie Li, Yakui Chu, Shuqiang
Jiang
- Abstract要約: 目に見えない環境では、対象のオブジェクトが自我中心のビューにない場合、エージェントは賢明な決定を下すことができないかもしれない。
エージェントを粗大に誘導する階層的オブジェクト・ツー・ゾーングラフ(HOZ)を提案する。
オンライン学習機構は、新しい環境におけるリアルタイム観測に応じてHOZを更新するためにも提案されている。
- 参考スコア(独自算出の注目度): 43.558927774552295
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The goal of object navigation is to reach the expected objects according to
visual information in the unseen environments. Previous works usually implement
deep models to train an agent to predict actions in real-time. However, in the
unseen environment, when the target object is not in egocentric view, the agent
may not be able to make wise decisions due to the lack of guidance. In this
paper, we propose a hierarchical object-to-zone (HOZ) graph to guide the agent
in a coarse-to-fine manner, and an online-learning mechanism is also proposed
to update HOZ according to the real-time observation in new environments. In
particular, the HOZ graph is composed of scene nodes, zone nodes and object
nodes. With the pre-learned HOZ graph, the real-time observation and the target
goal, the agent can constantly plan an optimal path from zone to zone. In the
estimated path, the next potential zone is regarded as sub-goal, which is also
fed into the deep reinforcement learning model for action prediction. Our
methods are evaluated on the AI2-Thor simulator. In addition to widely used
evaluation metrics SR and SPL, we also propose a new evaluation metric of SAE
that focuses on the effective action rate. Experimental results demonstrate the
effectiveness and efficiency of our proposed method.
- Abstract(参考訳): オブジェクトナビゲーションの目標は、目に見えない環境の視覚情報に従って、期待されるオブジェクトに到達することである。
従来の作業は通常、エージェントを訓練してリアルタイムでアクションを予測するディープモデルを実装する。
しかし、目に見えない環境では、対象のオブジェクトが自我中心の視点にない場合、エージェントはガイダンスの欠如により賢明な判断を下せない可能性がある。
本稿では,エージェントを粗大に誘導する階層的オブジェクト・ツー・ゾーン(HOZ)グラフを提案するとともに,新しい環境におけるリアルタイム観測に基づいてHOZを更新するためのオンライン学習機構も提案する。
特にHOZグラフはシーンノード、ゾーンノード、オブジェクトノードで構成されている。
事前学習したHOZグラフ、リアルタイム観測、目標目標を用いて、エージェントはゾーンからゾーンへの最適な経路を常に計画することができる。
推定された経路では、次のポテンシャルゾーンはサブゴールと見なされ、アクション予測のための深層強化学習モデルにも供給される。
提案手法はAI2-Thorシミュレータを用いて評価する。
また,広く用いられている評価指標srとsplに加えて,効果的な行動率に着目したsaeの新しい評価指標を提案する。
実験の結果,提案手法の有効性と有効性を示した。
関連論文リスト
- Goal-conditioned Offline Planning from Curious Exploration [28.953718733443143]
本研究では,教師なし探索技術の産物から目標条件付き行動を抽出することの課題について考察する。
従来の目標条件強化学習手法では,この困難なオフライン環境では,値関数とポリシの抽出が不十分であることがわかった。
そこで本研究では,学習した値のランドスケープに対するモデルベース計画と,グラフベースの値アグリゲーション手法を組み合わせることを提案する。
論文 参考訳(メタデータ) (2023-11-28T17:48:18Z) - Probable Object Location (POLo) Score Estimation for Efficient Object
Goal Navigation [15.623723522165731]
本稿では,POLo(Probable Object Location)スコアを中心とした新しいフレームワークを提案する。
計算集約的なPOLoスコアを近似するためにトレーニングされたニューラルネットワークであるPOLoNetを導入することで、フレームワークの実用性をさらに向上する。
OVMM 2023チャレンジの第1フェーズを含む実験では,POLoNetを組み込んだエージェントが,幅広いベースライン手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2023-11-14T08:45:32Z) - Object-centric Video Representation for Long-term Action Anticipation [33.115854386196126]
主な動機は、オブジェクトが人間とオブジェクトの相互作用を認識し予測するための重要な手がかりを提供することである。
我々は、視覚言語事前学習モデルを利用して、オブジェクト中心のビデオ表現を構築することを提案する。
人間と物体の相互作用を認識し予測するために、Transformerベースのニューラルアーキテクチャを用いる。
論文 参考訳(メタデータ) (2023-10-31T22:54:31Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - ReVoLT: Relational Reasoning and Voronoi Local Graph Planning for
Target-driven Navigation [1.0896567381206714]
Embodied AIは、知的な実体と現実世界の相互作用を強調する必然的なトレンドである。
グラフニューラルネットワーク(GNN)によるレイアウト関係の活用に関する研究
このタスクを分離し、階層的なフレームワークであるReVoLTを提案する。
論文 参考訳(メタデータ) (2023-01-06T05:19:56Z) - Object Manipulation via Visual Target Localization [64.05939029132394]
オブジェクトを操作するための訓練エージェントは、多くの課題を提起します。
本研究では,対象物体を探索する環境を探索し,位置が特定されると3次元座標を計算し,対象物が見えない場合でも3次元位置を推定する手法を提案する。
評価の結果,同じ感覚スイートにアクセス可能なモデルに比べて,成功率が3倍に向上したことが示された。
論文 参考訳(メタデータ) (2022-03-15T17:59:01Z) - Online Grounding of PDDL Domains by Acting and Sensing in Unknown
Environments [62.11612385360421]
本稿では,エージェントが異なるタスクを実行できるフレームワークを提案する。
機械学習モデルを統合して、感覚データを抽象化し、目標達成のためのシンボリックプランニング、ナビゲーションのためのパスプランニングを行う。
提案手法を,RGB-Dオンボードカメラ,GPS,コンパスなど,正確なシミュレーション環境で評価する。
論文 参考訳(メタデータ) (2021-12-18T21:48:20Z) - Learning Long-term Visual Dynamics with Region Proposal Interaction
Networks [75.06423516419862]
オブジェクト間およびオブジェクト環境間の相互作用を長距離にわたってキャプチャするオブジェクト表現を構築します。
単純だが効果的なオブジェクト表現のおかげで、我々の手法は先行手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2020-08-05T17:48:00Z) - Optimistic Agent: Accurate Graph-Based Value Estimation for More
Successful Visual Navigation [18.519303422753534]
先行知識(または経験)の取り込み、観察された視覚的手がかりを用いた新しい環境への適応、そして早期に諦めることなく楽観的に探索することの3つの主な理由により、この能力は大きいと論じる。
これは現在、強化学習(RL)に基づく最先端のビジュアルナビゲーション手法に欠けている。
本稿では,相対的対象位置の事前知識を外部から学習し,ニューラルグラフを構築してモデルに統合することを提案する。
論文 参考訳(メタデータ) (2020-04-07T09:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。