論文の概要: REGNav: Room Expert Guided Image-Goal Navigation
- arxiv url: http://arxiv.org/abs/2502.10785v1
- Date: Sat, 15 Feb 2025 12:32:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:11:33.387781
- Title: REGNav: Room Expert Guided Image-Goal Navigation
- Title(参考訳): REGNav: ルームエキスパートによる画像ゴールナビゲーション
- Authors: Pengna Li, Kangyi Wu, Jingwen Fu, Sanping Zhou,
- Abstract要約: Image-Goalナビゲーションは、イメージによって指定されたゴール位置に向けてエージェントを操縦することを目的としている。
従来の手法では、目標と観測画像の視覚的特徴を抽出するナビゲーションポリシーを学習し、その類似性を比較し、行動を予測する。
目標画像と観測画像が同一室で撮影されているかどうかを解析する能力を持つエージェントを装備するための,Room Expert Guided Image-Goal Navigation Model (REGNav)を提案する。
- 参考スコア(独自算出の注目度): 13.618245691630143
- License:
- Abstract: Image-goal navigation aims to steer an agent towards the goal location specified by an image. Most prior methods tackle this task by learning a navigation policy, which extracts visual features of goal and observation images, compares their similarity and predicts actions. However, if the agent is in a different room from the goal image, it's extremely challenging to identify their similarity and infer the likely goal location, which may result in the agent wandering around. Intuitively, when humans carry out this task, they may roughly compare the current observation with the goal image, having an approximate concept of whether they are in the same room before executing the actions. Inspired by this intuition, we try to imitate human behaviour and propose a Room Expert Guided Image-Goal Navigation model (REGNav) to equip the agent with the ability to analyze whether goal and observation images are taken in the same room. Specifically, we first pre-train a room expert with an unsupervised learning technique on the self-collected unlabelled room images. The expert can extract the hidden room style information of goal and observation images and predict their relationship about whether they belong to the same room. In addition, two different fusion approaches are explored to efficiently guide the agent navigation with the room relation knowledge. Extensive experiments show that our REGNav surpasses prior state-of-the-art works on three popular benchmarks.
- Abstract(参考訳): Image-Goalナビゲーションは、イメージによって指定されたゴール位置に向けてエージェントを操縦することを目的としている。
従来の手法では、目標と観測画像の視覚的特徴を抽出するナビゲーションポリシーを学習し、その類似性を比較し、行動を予測する。
しかし、エージェントがゴール画像と異なる部屋にいる場合、その類似点を特定して、おそらくゴール位置を推測することは極めて困難であり、エージェントが歩き回る可能性がある。
直感的には、人間がこのタスクを行う際には、現在の観察とゴールイメージとを概ね比較し、アクションを実行する前に同じ部屋にいるかどうかを近似した概念を持つことができる。
この直感に触発されて、我々は人間の振る舞いを模倣し、同じ部屋で目標と観測画像が撮影されているかどうかを分析できるようにエージェントを装備するRoom Expert Guided Image-Goal Navigation Model (REGNav)を提案する。
具体的には,まず,教師なし学習技術を用いた室内画像の事前学習を行う。
専門家は、目標と観測画像の隠された部屋スタイル情報を抽出し、それらが同じ部屋に属しているかどうかについてそれらの関係を予測できる。
さらに,室内関係知識を用いてエージェントナビゲーションを効率的に誘導するための2つの異なる融合手法について検討した。
大規模な実験により、我々のREGNavは3つの人気のあるベンチマークにおける最先端の作業を上回っていることがわかった。
関連論文リスト
- Transformers for Image-Goal Navigation [0.0]
本稿では,画像目標,カメラ観測,ロボットの過去の動作を共同でモデル化し,将来の行動を予測するための生成トランスフォーマーモデルを提案する。
本モデルでは,長期間の地平線上での視覚情報の収集と関連性を実証し,ナビゲーションの効率化に寄与する。
論文 参考訳(メタデータ) (2024-05-23T03:01:32Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation [88.84058353659107]
インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された指定されたオブジェクトにナビゲートすることを目的としている。
本稿では、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE)を提案する。
我々の手法は従来の最先端の手法を超越し、古典的セグメンテーションモデル(0.684対0.561成功)またはロバストモデル(0.702対0.561成功)を用いる。
論文 参考訳(メタデータ) (2024-02-25T07:59:10Z) - FGPrompt: Fine-grained Goal Prompting for Image-goal Navigation [54.25416624924669]
画像ゴールナビゲーションのための細粒度ゴールプロンプト法(FGPrompt)を提案する。
FGPromptはゴール画像の詳細な情報を保存し、観測エンコーダにゴール関連領域に注意を払うよう誘導する。
提案手法は3つのベンチマークデータセットに対して大幅な性能向上をもたらす。
論文 参考訳(メタデータ) (2023-10-11T13:19:29Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - Instance-Specific Image Goal Navigation: Training Embodied Agents to
Find Object Instances [90.61897965658183]
画像ゴールによる視覚ナビゲーションの具体化問題(ImageNav)について考察する。
関連するナビゲーションタスクとは異なり、ImageNavはメソッド間の比較を難しくする標準化されたタスク定義を持っていない。
これらの制限に対処するために、インスタンス固有のImageNavタスク(ImageNav)を提示します。
論文 参考訳(メタデータ) (2022-11-29T02:29:35Z) - Last-Mile Embodied Visual Navigation [31.622495628224403]
本稿では,画像ゴールナビゲーションシステムの性能向上を目的としたSlingを提案する。
我々は、ラストマイルナビゲーションに焦点をあて、ニューラルディスクリプタ問題の基礎となる幾何学的構造を活用する。
標準化された画像ゴールナビゲーションベンチマークでは、ポリシー、シーン、エピソードの複雑さにまたがるパフォーマンスを改善し、最先端の45%から55%の成功率に引き上げる。
論文 参考訳(メタデータ) (2022-11-21T18:59:58Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Scene-Intuitive Agent for Remote Embodied Visual Grounding [89.73786309180139]
人間は生命の出来事から学び、視覚環境や言語を理解するための直感を形成する。
このような人間の行動を模倣するエージェントを紹介します。
論文 参考訳(メタデータ) (2021-03-24T02:37:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。