論文の概要: Memory-Augmented Reinforcement Learning for Image-Goal Navigation
- arxiv url: http://arxiv.org/abs/2101.05181v1
- Date: Wed, 13 Jan 2021 16:30:20 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-30 07:56:52.519283
- Title: Memory-Augmented Reinforcement Learning for Image-Goal Navigation
- Title(参考訳): 画像ナビゲーションのためのメモリ型強化学習
- Authors: Lina Mezghani, Sainbayar Sukhbaatar, Thibaut Lavril, Oleksandr
Maksymets, Dhruv Batra, Piotr Bojanowski, Karteek Alahari
- Abstract要約: 本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
- 参考スコア(独自算出の注目度): 67.3963444878746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we address the problem of image-goal navigation in the context
of visually-realistic 3D environments. This task involves navigating to a
location indicated by a target image in a previously unseen environment.
Earlier attempts, including RL-based and SLAM-based approaches, have either
shown poor generalization performance, or are heavily-reliant on pose/depth
sensors. We present a novel method that leverages a cross-episode memory to
learn to navigate. We first train a state-embedding network in a
self-supervised fashion, and then use it to embed previously-visited states
into a memory. In order to avoid overfitting, we propose to use data
augmentation on the RGB input during training. We validate our approach through
extensive evaluations, showing that our data-augmented memory-based model
establishes a new state of the art on the image-goal navigation task in the
challenging Gibson dataset. We obtain this competitive performance from RGB
input only, without access to additional sensors such as position or depth.
- Abstract(参考訳): 本研究では,視覚現実的な3D環境における画像ゴールナビゲーションの問題に対処する。
このタスクは、以前目にしたことのない環境でターゲットイメージが示す場所にナビゲートすることを含む。
rlベースやslamベースのアプローチを含む初期の試みでは、一般化性能が低かったり、ポーズ/深度センサーに依存していたりしている。
本稿では,クロスエピソードメモリを利用してナビゲートを学ぶ新しい手法を提案する。
まず,ステートエンベディングネットワークを自己教師あり方式でトレーニングし,それをメモリに予め訪問した状態を埋め込む。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
我々は、広範囲な評価を通じてアプローチを検証するとともに、我々のデータ拡張メモリベースのモデルが、挑戦的なGibsonデータセットにおける画像ゴールナビゲーションタスクの新たな状態を確立することを示す。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
関連論文リスト
- GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Geometric-aware Pretraining for Vision-centric 3D Object Detection [77.7979088689944]
GAPretrainと呼ばれる新しい幾何学的事前学習フレームワークを提案する。
GAPretrainは、複数の最先端検出器に柔軟に適用可能なプラグアンドプレイソリューションとして機能する。
BEVFormer法を用いて, nuScenes val の 46.2 mAP と 55.5 NDS を実現し, それぞれ 2.7 と 2.1 点を得た。
論文 参考訳(メタデータ) (2023-04-06T14:33:05Z) - Depth Monocular Estimation with Attention-based Encoder-Decoder Network
from Single Image [7.753378095194288]
ビジョンベースのアプローチは最近多くの注目を集めており、これらの欠点を克服することができる。
本研究では,格子状アーチファクトやぼやけたエッジに悩まされている1つの単眼画像から深度マップを推定する。
我々の新しいアプローチは、最小限のオーバーヘッドで現在の画像の焦点を見つけることができ、奥行き特性の損失を避けることができる。
論文 参考訳(メタデータ) (2022-10-24T23:01:25Z) - GoToNet: Fast Monocular Scene Exposure and Exploration [0.6204265638103346]
リアルタイム環境探索のための新しい手法を提案する。
我々の方法は良い戦術的な決定を下すのに一面(イメージ)しか必要としない。
GotoとLookatと呼ばれる画素が特徴である2つの方向予測が,本手法のコアを構成する。
論文 参考訳(メタデータ) (2022-06-13T08:28:31Z) - Simple and Effective Synthesis of Indoor 3D Scenes [78.95697556834536]
1枚以上の画像から3D屋内シーンを没入する問題について検討する。
我々の狙いは、新しい視点から高解像度の画像とビデオを作成することである。
本稿では,不完全点雲の再投影から高解像度のRGB-D画像へ直接マップするイメージ・ツー・イメージのGANを提案する。
論文 参考訳(メタデータ) (2022-04-06T17:54:46Z) - Refer-it-in-RGBD: A Bottom-up Approach for 3D Visual Grounding in RGBD
Images [69.5662419067878]
RGBD画像における接地参照表現は新たな分野である。
本稿では,参照する物体が閉塞により部分的にスキャンされる場合が多い単視点rgbd画像における3次元視覚グランド化の新たな課題を提案する。
提案手法はまず,RGBD画像内の関連領域をローカライズするヒートマップを生成するために,下層の言語と視覚的特徴を融合させる。
次に、ヒートマップに基づく適応的特徴学習を行い、他のビジオ言語融合とオブジェクトレベルのマッチングを行い、最後に参照したオブジェクトを接地する。
論文 参考訳(メタデータ) (2021-03-14T11:18:50Z) - City-Scale Visual Place Recognition with Deep Local Features Based on
Multi-Scale Ordered VLAD Pooling [5.274399407597545]
本稿では,コンテンツに基づく画像検索に基づいて,都市規模で位置認識を行うシステムを提案する。
まず,視覚的位置認識の包括的分析を行い,その課題を概観する。
次に,画像表現ベクトルに空間情報を埋め込むために,畳み込み型ニューラルネットワークアクティベーションを用いた単純なプーリング手法を提案する。
論文 参考訳(メタデータ) (2020-09-19T15:21:59Z) - Learning to Visually Navigate in Photorealistic Environments Without any
Supervision [37.22924101745505]
外部の監督や報酬を伴わずに画像入力から学習するための新しいアプローチを導入する。
我々のアプローチは3つの段階から構成される: 一人称視点の優れた表現を学習し、次に記憶を用いて探索することを学ぶ。
エージェントを訓練して、RGB入力のみでギブソンデータセットから挑戦的な写真リアリスティック環境をナビゲートすることで、このアプローチの利点を示す。
論文 参考訳(メタデータ) (2020-04-10T08:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。