論文の概要: FGPrompt: Fine-grained Goal Prompting for Image-goal Navigation
- arxiv url: http://arxiv.org/abs/2310.07473v1
- Date: Wed, 11 Oct 2023 13:19:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 07:25:20.814882
- Title: FGPrompt: Fine-grained Goal Prompting for Image-goal Navigation
- Title(参考訳): fgprompt: 画像ナビゲーションのための細粒度目標プロンプト
- Authors: Xinyu Sun, Peihao Chen, Jugang Fan, Thomas H. Li, Jian Chen, Mingkui
Tan
- Abstract要約: 画像ゴールナビゲーションのための細粒度ゴールプロンプト法(FGPrompt)を提案する。
FGPromptはゴール画像の詳細な情報を保存し、観測エンコーダにゴール関連領域に注意を払うよう誘導する。
提案手法は3つのベンチマークデータセットに対して大幅な性能向上をもたらす。
- 参考スコア(独自算出の注目度): 54.25416624924669
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning to navigate to an image-specified goal is an important but
challenging task for autonomous systems. The agent is required to reason the
goal location from where a picture is shot. Existing methods try to solve this
problem by learning a navigation policy, which captures semantic features of
the goal image and observation image independently and lastly fuses them for
predicting a sequence of navigation actions. However, these methods suffer from
two major limitations. 1) They may miss detailed information in the goal image,
and thus fail to reason the goal location. 2) More critically, it is hard to
focus on the goal-relevant regions in the observation image, because they
attempt to understand observation without goal conditioning. In this paper, we
aim to overcome these limitations by designing a Fine-grained Goal Prompting
(FGPrompt) method for image-goal navigation. In particular, we leverage
fine-grained and high-resolution feature maps in the goal image as prompts to
perform conditioned embedding, which preserves detailed information in the goal
image and guides the observation encoder to pay attention to goal-relevant
regions. Compared with existing methods on the image-goal navigation benchmark,
our method brings significant performance improvement on 3 benchmark datasets
(i.e., Gibson, MP3D, and HM3D). Especially on Gibson, we surpass the
state-of-the-art success rate by 8% with only 1/50 model size. Project page:
https://xinyusun.github.io/fgprompt-pages
- Abstract(参考訳): 画像特定目標への道順を学ぶことは、自律システムにとって重要だが難しい課題だ。
エージェントは、写真が撮影された場所からゴール位置を推論する必要がある。
既存の手法では、目標画像と観測画像の意味的特徴を独立して捉えるナビゲーションポリシーを学習し、ナビゲーションアクションのシーケンスを予測するためにそれらを融合することでこの問題を解決しようとする。
しかし、これらの方法には2つの大きな制限がある。
1) 目標画像の詳細な情報を見逃し、その結果、目標位置の推論に失敗する可能性がある。
2) より重要なことは, 目標条件なしで観察を理解しようとするため, 観察画像の目標関連領域に焦点を合わせることは困難である。
本稿では、画像ゴールナビゲーションのためのFGPrompt法を設計し、これらの制約を克服することを目的とする。
特に,目標画像の細粒度・高解像度の特徴マップを,目標画像の詳細な情報を保存し,目標関連領域に注意を払って観察エンコーダを誘導する条件付き埋め込みの実行を促すために活用する。
image-goal navigation benchmarkの既存の手法と比較して、3つのベンチマークデータセット(gibson, mp3d, hm3d)のパフォーマンスが大幅に向上している。
特にギブソンでは、最先端の成功率を8%上回り、モデルサイズはわずか1/50でした。
プロジェクトページ: https://xinyusun.github.io/fgprompt-pages
関連論文リスト
- Transformers for Image-Goal Navigation [0.0]
本稿では,画像目標,カメラ観測,ロボットの過去の動作を共同でモデル化し,将来の行動を予測するための生成トランスフォーマーモデルを提案する。
本モデルでは,長期間の地平線上での視覚情報の収集と関連性を実証し,ナビゲーションの効率化に寄与する。
論文 参考訳(メタデータ) (2024-05-23T03:01:32Z) - GOAT-Bench: A Benchmark for Multi-Modal Lifelong Navigation [65.71524410114797]
GOAT-BenchはユニバーサルナビゲーションタスクGO to AnyThing(GOAT)のベンチマークである。
GOATでは、エージェントはカテゴリ名、言語記述、イメージによって指定されたターゲットのシーケンスにナビゲートするように指示される。
我々はGOATタスク上でモノリシックなRLおよびモジュラーメソッドをベンチマークし、その性能をモダリティにわたって分析する。
論文 参考訳(メタデータ) (2024-04-09T20:40:00Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
我々のフレームワークは3次元ガウススプラッティングに基づく新しい地図表現を構築する(3DGS)
我々のフレームワークは、Habitat-Matterport 3D(HM3D)データセットに挑戦するPath Length(SPL)が0.252から0.578に重み付けしたSuccessの増加によって証明された、パフォーマンスの著しい飛躍を示す。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - HIQL: Offline Goal-Conditioned RL with Latent States as Actions [81.67963770528753]
オフラインデータからゴール条件付きRLの階層的アルゴリズムを提案する。
この階層的な分解によって、推定値関数のノイズに頑健になることを示す。
提案手法は,従来の手法を巧みに操り,高次元画像観察にスケールできるとともに,アクションフリーなデータを容易に利用することができる。
論文 参考訳(メタデータ) (2023-07-22T00:17:36Z) - Navigating to Objects Specified by Images [86.9672766351891]
シミュレーションと実世界の両方でタスクを実行できるシステムを提案する。
我々のモジュラー手法は探索,ゴールインスタンスの再識別,ゴールローカライゼーション,ローカルナビゲーションのサブタスクを解決する。
HM3D InstanceImageNavベンチマークでは、このシステムはベースラインのエンドツーエンドのRLポリシー7xと最先端のImageNavモデル2.3xを上回っている。
論文 参考訳(メタデータ) (2023-04-03T17:58:00Z) - Last-Mile Embodied Visual Navigation [31.622495628224403]
本稿では,画像ゴールナビゲーションシステムの性能向上を目的としたSlingを提案する。
我々は、ラストマイルナビゲーションに焦点をあて、ニューラルディスクリプタ問題の基礎となる幾何学的構造を活用する。
標準化された画像ゴールナビゲーションベンチマークでは、ポリシー、シーン、エピソードの複雑さにまたがるパフォーマンスを改善し、最先端の45%から55%の成功率に引き上げる。
論文 参考訳(メタデータ) (2022-11-21T18:59:58Z) - SGoLAM: Simultaneous Goal Localization and Mapping for Multi-Object Goal
Navigation [5.447924312563365]
マルチオブジェクトゴールナビゲーションのためのシンプルで効率的なアルゴリズムであるSGoLAMを提案する。
RGB-DカメラとGPS/センサーを装備したエージェントを前提として,現実的な3D環境下でターゲットオブジェクトの列に移動させることが目的である。
SGoLAMはCVPR 2021 MultiON(Multi-Object Goal Navigation)の2位にランクインしている。
論文 参考訳(メタデータ) (2021-10-14T06:15:14Z) - Memory-Augmented Reinforcement Learning for Image-Goal Navigation [67.3963444878746]
本論文では,クロスエピソードメモリを活用したナビゲーション学習法を提案する。
オーバーフィッティングを避けるため、トレーニング中にRGB入力にデータ拡張を適用することを提案する。
この競合性能はRGB入力のみから得られるが,位置や深度などのセンサは利用できない。
論文 参考訳(メタデータ) (2021-01-13T16:30:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。