論文の概要: What does really matter in image goal navigation?
- arxiv url: http://arxiv.org/abs/2507.01667v1
- Date: Wed, 02 Jul 2025 12:50:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.234374
- Title: What does really matter in image goal navigation?
- Title(参考訳): 画像のゴールナビゲーションで何が重要なのか?
- Authors: Gianluca Monaci, Philippe Weinzaepfel, Christian Wolf,
- Abstract要約: RLを用いた完全エージェントのエンドツーエンドトレーニングにより,この課題を効果的に解決できるかどうかを検討した。
肯定的な答えは、Embodied AIを超えて影響します。
- 参考スコア(独自算出の注目度): 21.23421707462711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image goal navigation requires two different skills: firstly, core navigation skills, including the detection of free space and obstacles, and taking decisions based on an internal representation; and secondly, computing directional information by comparing visual observations to the goal image. Current state-of-the-art methods either rely on dedicated image-matching, or pre-training of computer vision modules on relative pose estimation. In this paper, we study whether this task can be efficiently solved with end-to-end training of full agents with RL, as has been claimed by recent work. A positive answer would have impact beyond Embodied AI and allow training of relative pose estimation from reward for navigation alone. In a large study we investigate the effect of architectural choices like late fusion, channel stacking, space-to-depth projections and cross-attention, and their role in the emergence of relative pose estimators from navigation training. We show that the success of recent methods is influenced up to a certain extent by simulator settings, leading to shortcuts in simulation. However, we also show that these capabilities can be transferred to more realistic setting, up to some extend. We also find evidence for correlations between navigation performance and probed (emerging) relative pose estimation performance, an important sub skill.
- Abstract(参考訳): 画像ゴールナビゲーションには、第一に、自由空間と障害物の検出を含むコアナビゲーションスキルと、内部表現に基づく意思決定、第二に、視覚的な観察と目標画像を比較することで、方向情報を計算する2つの異なるスキルが必要である。
現在の最先端の手法は、専用の画像マッチングや、相対的なポーズ推定によるコンピュータビジョンモジュールの事前訓練に依存する。
本稿では,本課題がRLを用いたエンド・ツー・エンド・エンド・トレーニングで効果的に解決できるかどうかを検討する。
肯定的な答えは、Embodied AIを超えて影響を受け、ナビゲーション単独での報酬からの相対的なポーズ推定のトレーニングを可能にする。
本研究では,後期融合,チャネル積み重ね,空間間投射,交差注意といった建築的選択がナビゲーショントレーニングから相対的ポーズ推定装置の出現に与える影響について検討した。
近年の手法の成功は,シミュレータの設定によってある程度影響を受けており,シミュレーションのショートカットに繋がることを示す。
しかし、これらの機能はいくつかの拡張まで、より現実的な設定に移行可能であることも示しています。
また,ナビゲーション性能と探索された相対ポーズ推定性能の相関関係が,重要なサブスキルであることを示す。
関連論文リスト
- Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - How To Not Train Your Dragon: Training-free Embodied Object Goal
Navigation with Semantic Frontiers [94.46825166907831]
Embodied AIにおけるオブジェクトゴールナビゲーション問題に対処するためのトレーニング不要のソリューションを提案する。
本手法は,古典的な視覚的同時ローカライゼーションとマッピング(V-SLAM)フレームワークに基づく,構造化されたシーン表現を構築する。
本手法は,言語先行情報とシーン統計に基づいてシーングラフのセマンティクスを伝搬し,幾何学的フロンティアに意味知識を導入する。
論文 参考訳(メタデータ) (2023-05-26T13:38:33Z) - Last-Mile Embodied Visual Navigation [31.622495628224403]
本稿では,画像ゴールナビゲーションシステムの性能向上を目的としたSlingを提案する。
我々は、ラストマイルナビゲーションに焦点をあて、ニューラルディスクリプタ問題の基礎となる幾何学的構造を活用する。
標準化された画像ゴールナビゲーションベンチマークでは、ポリシー、シーン、エピソードの複雑さにまたがるパフォーマンスを改善し、最先端の45%から55%の成功率に引き上げる。
論文 参考訳(メタデータ) (2022-11-21T18:59:58Z) - Image-based Navigation in Real-World Environments via Multiple Mid-level
Representations: Fusion Models, Benchmark and Efficient Evaluation [13.207579081178716]
近年の学習に基づくナビゲーション手法では,エージェントのシーン理解とナビゲーション能力が同時に実現されている。
残念ながら、シミュレーターがナビゲーションポリシーを訓練する効率的なツールであるとしても、現実の世界に移動すると、結果のモデルは失敗することが多い。
可能な解決策の1つは、シーンの重要なドメイン不変性を含む中間レベルの視覚表現を備えたナビゲーションモデルを提供することである。
論文 参考訳(メタデータ) (2022-02-02T15:00:44Z) - Explore before Moving: A Feasible Path Estimation and Memory Recalling
Framework for Embodied Navigation [117.26891277593205]
ナビゲーションに焦点をあて,経験や常識に欠ける既存のナビゲーションアルゴリズムの問題を解決する。
移動前に2回思考する能力に触発されて、不慣れな場面で目標を追求する実現可能な経路を考案し、パス推定とメモリリコールフレームワークと呼ばれる経路計画手法を提案する。
EmbodiedQAナビゲーションタスクにおけるPEMRの強力な実験結果を示す。
論文 参考訳(メタデータ) (2021-10-16T13:30:55Z) - Deep Learning for Embodied Vision Navigation: A Survey [108.13766213265069]
身体的視覚ナビゲーション」問題では、エージェントが3D環境をナビゲートする必要がある。
本稿では、総合的な文献調査を提供することで、視覚ナビゲーションの具体的分野における現在の研究の概要を確立することを試みる。
論文 参考訳(メタデータ) (2021-07-07T12:09:04Z) - Rapid Exploration for Open-World Navigation with Latent Goal Models [78.45339342966196]
多様なオープンワールド環境における自律的な探索とナビゲーションのためのロボット学習システムについて述べる。
本手法のコアとなるのは、画像の非パラメトリックトポロジカルメモリとともに、距離と行動の学習された潜在変数モデルである。
学習方針を規則化するために情報ボトルネックを使用し、(i)目標のコンパクトな視覚的表現、(ii)一般化能力の向上、(iii)探索のための実行可能な目標をサンプリングするためのメカニズムを提供する。
論文 参考訳(メタデータ) (2021-04-12T23:14:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。