論文の概要: Hierarchical Representations and Explicit Memory: Learning Effective
Navigation Policies on 3D Scene Graphs using Graph Neural Networks
- arxiv url: http://arxiv.org/abs/2108.01176v1
- Date: Mon, 2 Aug 2021 21:21:27 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-04 13:56:51.556616
- Title: Hierarchical Representations and Explicit Memory: Learning Effective
Navigation Policies on 3D Scene Graphs using Graph Neural Networks
- Title(参考訳): 階層表現と明示記憶:グラフニューラルネットワークを用いた3次元シーングラフの効果的なナビゲーションポリシーの学習
- Authors: Zachary Ravichandran, Lisa Peng, Nathan Hughes, J. Daniel Griffith,
Luca Carlone
- Abstract要約: 本稿では,ハイレベルな階層表現を活用してナビゲーションポリシーを学習する強化学習フレームワークを提案する。
本手法は,シーングラフの各ノードに対して,ロボット軌道の記憶を明示的に保持しつつ,占有度と意味的内容をキャプチャする機能を利用する。
- 参考スコア(独自算出の注目度): 16.19099481411921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Representations are crucial for a robot to learn effective navigation
policies. Recent work has shown that mid-level perceptual abstractions, such as
depth estimates or 2D semantic segmentation, lead to more effective policies
when provided as observations in place of raw sensor data (e.g., RGB images).
However, such policies must still learn latent three-dimensional scene
properties from mid-level abstractions. In contrast, high-level, hierarchical
representations such as 3D scene graphs explicitly provide a scene's geometry,
topology, and semantics, making them compelling representations for navigation.
In this work, we present a reinforcement learning framework that leverages
high-level hierarchical representations to learn navigation policies. Towards
this goal, we propose a graph neural network architecture and show how to embed
a 3D scene graph into an agent-centric feature space, which enables the robot
to learn policies for low-level action in an end-to-end manner. For each node
in the scene graph, our method uses features that capture occupancy and
semantic content, while explicitly retaining memory of the robot trajectory. We
demonstrate the effectiveness of our method against commonly used visuomotor
policies in a challenging object search task. These experiments and supporting
ablation studies show that our method leads to more effective object search
behaviors, exhibits improved long-term memory, and successfully leverages
hierarchical information to guide its navigation objectives.
- Abstract(参考訳): 表現は、ロボットが効果的なナビゲーションポリシーを学ぶために不可欠である。
近年の研究では、深度推定や2次元セマンティックセグメンテーションのような中レベルの知覚的抽象化が、生センサデータ(例えばRGB画像)の代わりに観測として提供される場合、より効果的なポリシーをもたらすことが示されている。
しかし、そのようなポリシーは、中レベルの抽象から潜在的な3次元の情景特性を学ばなければならない。
対照的に、3Dシーングラフのような高レベルの階層表現は、シーンの幾何学、トポロジ、セマンティクスを明示的に提供し、ナビゲーションに魅力的な表現を与える。
本稿では,高レベルの階層表現を活用し,ナビゲーションポリシーを学習する強化学習フレームワークを提案する。
この目的に向けて,グラフニューラルネットワークアーキテクチャを提案し,エージェント中心の機能空間に3次元シーングラフを埋め込む方法を示す。
シーングラフの各ノードに対して,ロボットの軌跡の記憶を明示的に保持しつつ,占有率と意味的コンテントをキャプチャする機能を用いる。
対象探索課題において,一般的なビジュモータポリシーに対する提案手法の有効性を実証する。
これらの実験とアブレーション研究により,本手法はより効果的な対象探索行動をもたらし,長期記憶が向上し,階層的な情報を利用してナビゲーションの目的を導出することを示す。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Generalized Label-Efficient 3D Scene Parsing via Hierarchical Feature
Aligned Pre-Training and Region-Aware Fine-tuning [55.517000360348725]
本研究は,ラベル付きシーンが極めて限定された場合の3次元シーン理解のためのフレームワークを提案する。
事前学習された視覚言語モデルから新しいカテゴリーの知識を抽出するために,階層的特徴整合型事前学習と知識蒸留戦略を提案する。
室内と屋外の両方で実験を行ったところ、データ効率のよい学習とオープンワールドの複数ショット学習の両方において、我々のアプローチの有効性が示された。
論文 参考訳(メタデータ) (2023-12-01T15:47:04Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - 3D-Aware Object Goal Navigation via Simultaneous Exploration and
Identification [19.125633699422117]
本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。
私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2022-12-01T07:55:56Z) - SEAL: Self-supervised Embodied Active Learning using Exploration and 3D
Consistency [122.18108118190334]
本稿では,SEAL(Self-Embodied Embodied Active Learning)というフレームワークを提案する。
インターネットイメージ上で訓練された知覚モデルを使用して、積極的な探索ポリシーを学ぶ。
我々は3Dセマンティックマップを用いて、行動と知覚の両方を、完全に自己管理された方法で学習する。
論文 参考訳(メタデータ) (2021-12-02T06:26:38Z) - Spot What Matters: Learning Context Using Graph Convolutional Networks
for Weakly-Supervised Action Detection [0.0]
ビデオにおける人間の行動検出を改善するために,自己注意と畳み込みネットワークに基づくアーキテクチャを導入する。
我々のモデルは、学習したコンテキストを注意マップとして可視化することで、トレーニング中に見つからないアクションやオブジェクトに対しても説明しやすくする。
実験結果から, 文脈的アプローチはビデオ・mAPの2点以上で, ベースライン動作検出手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2021-07-28T21:37:18Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - MaAST: Map Attention with Semantic Transformersfor Efficient Visual
Navigation [4.127128889779478]
この作業は、自律エージェントの視覚ナビゲーションのための既存の学習ベースのソリューションよりも良く、または匹敵するパフォーマンスに重点を置いています。
本稿では,重要シーンのセマンティクスを意味的に理解し,トップダウンのエゴセントリックな地図表現にエンコードする手法を提案する。
本研究では,3次元再構成した屋内ポイントゴーア視覚ナビゲーション実験を行い,その効果を実証する。
論文 参考訳(メタデータ) (2021-03-21T12:01:23Z) - Where2Act: From Pixels to Actions for Articulated 3D Objects [54.19638599501286]
可動部を有する関節物体の押出しや引抜き等の基本動作に関連する高度に局所化された動作可能な情報を抽出する。
シミュレーションでネットワークをトレーニングできるオンラインデータサンプリング戦略を備えた学習から対話までのフレームワークを提案します。
私たちの学習モデルは、現実世界のデータにも転送します。
論文 参考訳(メタデータ) (2021-01-07T18:56:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。