論文の概要: SOON: Scenario Oriented Object Navigation with Graph-based Exploration
- arxiv url: http://arxiv.org/abs/2103.17138v1
- Date: Wed, 31 Mar 2021 15:01:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 20:23:15.849787
- Title: SOON: Scenario Oriented Object Navigation with Graph-based Exploration
- Title(参考訳): SOON: グラフベースの探索によるシナリオ指向オブジェクトナビゲーション
- Authors: Fengda Zhu, Xiwen Liang, Yi Zhu, Xiaojun Chang, Xiaodan Liang
- Abstract要約: 人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
- 参考スコア(独自算出の注目度): 102.74649829684617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability to navigate like a human towards a language-guided target from
anywhere in a 3D embodied environment is one of the 'holy grail' goals of
intelligent robots. Most visual navigation benchmarks, however, focus on
navigating toward a target from a fixed starting point, guided by an elaborate
set of instructions that depicts step-by-step. This approach deviates from
real-world problems in which human-only describes what the object and its
surrounding look like and asks the robot to start navigation from anywhere.
Accordingly, in this paper, we introduce a Scenario Oriented Object Navigation
(SOON) task. In this task, an agent is required to navigate from an arbitrary
position in a 3D embodied environment to localize a target following a scene
description. To give a promising direction to solve this task, we propose a
novel graph-based exploration (GBE) method, which models the navigation state
as a graph and introduces a novel graph-based exploration approach to learn
knowledge from the graph and stabilize training by learning sub-optimal
trajectories. We also propose a new large-scale benchmark named From Anywhere
to Object (FAO) dataset. To avoid target ambiguity, the descriptions in FAO
provide rich semantic scene information includes: object attribute, object
relationship, region description, and nearby region description. Our
experiments reveal that the proposed GBE outperforms various state-of-the-arts
on both FAO and R2R datasets. And the ablation studies on FAO validates the
quality of the dataset.
- Abstract(参考訳): 人間のように3Dエンボディ環境のどこからでも、言語誘導されたターゲットに向かって移動できる能力は、インテリジェントなロボットの「ホット・ゴリラ」目標の1つだ。
しかし、ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
そこで本稿では,Scenario Oriented Object Navigation (SOON)タスクを紹介する。
このタスクでは、エージェントは3dエンボディ環境において任意の位置からナビゲートし、シーン記述に従ってターゲットをローカライズする必要がある。
この課題を解決するための有望な方向を与えるために,ナビゲーション状態をグラフとしてモデル化する新しいグラフベース探索法(GBE)を提案し,グラフから知識を学習し,準最適軌道学習によるトレーニングを安定化させる新しいグラフベースの探索手法を提案する。
また、Anywhere to Object (FAO) データセットと呼ばれる新しい大規模ベンチマークも提案する。
対象の曖昧さを避けるため、FAOにおける記述は、オブジェクト属性、オブジェクト関係、領域記述、近隣の領域記述を含むリッチなセマンティックシーン情報を提供する。
実験の結果,提案したGBEはFAOとR2Rの両方のデータセット上で,様々な最先端技術よりも優れていることがわかった。
FAOのアブレーション研究は、データセットの品質を検証する。
関連論文リスト
- GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - VLFM: Vision-Language Frontier Maps for Zero-Shot Semantic Navigation [36.31724466541213]
ゼロショットナビゲーションアプローチであるビジョンランゲージフロンティアマップ(VLFM)を導入する。
VLFMは人間の推論にインスパイアされ、新しい環境における見えないセマンティックなオブジェクトにナビゲートするように設計されている。
我々は,ギブソン,ハビタット・マテルポート3D (HM3D) およびマターポート3D (MP3D) のシミュレータを用いて,写真実写環境における VLFM の評価を行った。
論文 参考訳(メタデータ) (2023-12-06T04:02:28Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Weakly-Supervised Multi-Granularity Map Learning for Vision-and-Language
Navigation [87.52136927091712]
我々は,ロボットエージェントが言語指導によって記述された経路をたどって,環境の中をナビゲートするよう訓練する,現実的かつ困難な問題に対処する。
高精度かつ効率的なナビゲーションを実現するためには,環境オブジェクトの空間的位置と意味情報の両方を正確に表現した地図を構築することが重要である。
より包括的にオブジェクトを表現するために,オブジェクトの細粒度(色,テクスチャなど)とセマンティッククラスの両方を含む多粒度マップを提案する。
論文 参考訳(メタデータ) (2022-10-14T04:23:27Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。