論文の概要: PIG-Nav: Key Insights for Pretrained Image Goal Navigation Models
- arxiv url: http://arxiv.org/abs/2507.17220v1
- Date: Wed, 23 Jul 2025 05:34:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-24 22:33:14.86895
- Title: PIG-Nav: Key Insights for Pretrained Image Goal Navigation Models
- Title(参考訳): PIG-Nav: 事前訓練画像目標ナビゲーションモデルのためのキーポイント
- Authors: Jiansong Wan, Chengming Zhou, Jinkua Liu, Xiangge Huang, Xiaoyu Chen, Xiaohan Yi, Qisen Yang, Baiting Zhu, Xin-Qiang Cai, Lixing Liu, Rushuai Yang, Chuheng Zhang, Sherif Abdelfattah, Hayong Shin, Pushi Zhang, Li Zhao, Jiang Bian,
- Abstract要約: PIG-Nav(Pretrained Image-Goal Navigation)は、視覚に基づくナビゲーションモデルの事前学習戦略をさらに研究する新しいアプローチである。
事前訓練されたナビゲーションモデルの性能を一貫して改善する2つの重要な設計選択を同定する。
我々のモデルは、ゼロショット設定の平均22.6%の改善と、既存のビジュアルナビゲーション基盤モデルよりも37.5%の微調整設定の改善を実現している。
- 参考スコア(独自算出の注目度): 16.820485795257195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent studies have explored pretrained (foundation) models for vision-based robotic navigation, aiming to achieve generalizable navigation and positive transfer across diverse environments while enhancing zero-shot performance in unseen settings. In this work, we introduce PIG-Nav (Pretrained Image-Goal Navigation), a new approach that further investigates pretraining strategies for vision-based navigation models and contributes in two key areas. Model-wise, we identify two critical design choices that consistently improve the performance of pretrained navigation models: (1) integrating an early-fusion network structure to combine visual observations and goal images via appropriately pretrained Vision Transformer (ViT) image encoder, and (2) introducing suitable auxiliary tasks to enhance global navigation representation learning, thus further improving navigation performance. Dataset-wise, we propose a novel data preprocessing pipeline for efficiently labeling large-scale game video datasets for navigation model training. We demonstrate that augmenting existing open navigation datasets with diverse gameplay videos improves model performance. Our model achieves an average improvement of 22.6% in zero-shot settings and a 37.5% improvement in fine-tuning settings over existing visual navigation foundation models in two complex simulated environments and one real-world environment. These results advance the state-of-the-art in pretrained image-goal navigation models. Notably, our model maintains competitive performance while requiring significantly less fine-tuning data, highlighting its potential for real-world deployment with minimal labeled supervision.
- Abstract(参考訳): 近年の研究では、視覚に基づくロボットナビゲーションのための事前訓練(基礎)モデルについて検討されている。
本研究では,PIG-Nav(Pretrained Image-Goal Navigation)という,視覚に基づくナビゲーションモデルの事前学習戦略をさらに研究し,二つの重要な領域に貢献する手法を紹介する。
モデルワイドでは,(1)視覚的観察と目標像を適切に事前学習したビジョントランスフォーマー(ViT)画像エンコーダで組み合わせた早期融合ネットワーク構造と,(2)グローバルなナビゲーション表現学習を改善するための適切な補助的タスクを導入し,ナビゲーション性能を向上する。
ナビゲーションモデルトレーニングのための大規模ゲームビデオデータセットを効率的にラベル付けするための新しいデータ前処理パイプラインを提案する。
既存のオープンナビゲーションデータセットを多種多様なゲームプレイビデオで拡張することで、モデルの性能が向上することを示す。
本モデルでは,2つの複雑なシミュレーション環境と1つの実環境において,ゼロショット設定の平均22.6%,既存のビジュアルナビゲーション基盤モデルよりも37.5%の微調整設定の改善を実現している。
これらの結果は、事前訓練された画像ゴールナビゲーションモデルにおける最先端の技術を推し進める。
特に、当社のモデルは、微調整データを大幅に削減しつつ、競争性能を維持しており、最小限のラベル付き監視による実世界の展開の可能性を強調している。
関連論文リスト
- From Seeing to Experiencing: Scaling Navigation Foundation Models with Reinforcement Learning [59.88543114325153]
本稿では,航法基礎モデルの強化学習能力を高めるためのSeeing-to-Experiencingフレームワークを提案する。
S2Eは、ビデオの事前トレーニングとRLによるポストトレーニングの長所を組み合わせたものだ。
実世界のシーンを3DGSで再現した3D画像に基づく総合的なエンドツーエンド評価ベンチマークであるNavBench-GSを構築した。
論文 参考訳(メタデータ) (2025-07-29T17:26:10Z) - NavigateDiff: Visual Predictors are Zero-Shot Navigation Assistants [24.689242976554482]
慣れ親しんだ環境をナビゲートすることは、家庭用ロボットにとって大きな課題となる。
既存の強化学習手法は、直接新しい環境に移行することはできない。
我々は、事前学習された基礎モデルの論理知識と一般化能力をゼロショットナビゲーションに転送しようと試みる。
論文 参考訳(メタデータ) (2025-02-19T17:27:47Z) - T2V-Turbo-v2: Enhancing Video Generation Model Post-Training through Data, Reward, and Conditional Guidance Design [79.7289790249621]
提案手法であるT2V-Turbo-v2は、様々な監視信号を統合することにより、大幅な進歩をもたらす。
特定の学習目標に対するデータセットの調整の重要性を強調した。
トレーニングデータセットから動作ガイダンスを抽出し,ODEソルバに組み込むことにより,このアプローチの可能性を示す。
論文 参考訳(メタデータ) (2024-10-08T04:30:06Z) - VANP: Learning Where to See for Navigation with Self-Supervised Vision-Action Pre-Training [8.479135285935113]
人間は、ナビゲーションに関連する特定の視覚領域に焦点を当てることで、衝突することなく、群衆を効率的にナビゲートする。
ほとんどのロボットビジュアルナビゲーション手法は、視覚タスクで事前訓練されたディープラーニングモデルに依存しており、これは有能な物体を優先する。
視覚ナビゲーション事前訓練(VANP)のためのセルフ・スーパービジョン・ビジョン・アクション・モデルを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:08Z) - NoMaD: Goal Masked Diffusion Policies for Navigation and Exploration [57.15811390835294]
本稿では,目標指向ナビゲーションと目標非依存探索の両方を扱うために,単一の統合拡散政策をトレーニングする方法について述べる。
この統一された政策は、新しい環境における目標を視覚的に示す際に、全体的な性能が向上することを示す。
実世界の移動ロボットプラットフォーム上で実施した実験は,5つの代替手法と比較して,見えない環境における効果的なナビゲーションを示す。
論文 参考訳(メタデータ) (2023-10-11T21:07:14Z) - Scaling Data Generation in Vision-and-Language Navigation [116.95534559103788]
本稿では,学習のための大規模データ生成に有効なパラダイムを提案する。
我々は、HM3DとGibsonのデータセットから1200以上のフォトリアリスティック環境を適用し、490万の命令軌道対を合成する。
我々の大規模データセットのおかげで、既存のエージェントの性能は(以前のSoTAでは+11%絶対)、単純な模倣学習によってR2Rテストの分割で80%の単ラン成功率で大幅に向上できる。
論文 参考訳(メタデータ) (2023-07-28T16:03:28Z) - Learning Navigational Visual Representations with Semantic Map
Supervision [85.91625020847358]
エージェントの自我中心のビューとセマンティックマップを対比してナビゲーション固有の視覚表現学習法を提案する。
Ego$2$-Map学習は、オブジェクト、構造、遷移などのコンパクトでリッチな情報を、ナビゲーションのためのエージェントのエゴセントリックな表現に転送する。
論文 参考訳(メタデータ) (2023-07-23T14:01:05Z) - ViNT: A Foundation Model for Visual Navigation [52.2571739391896]
Visual Navigation Transformer (ViNT) は視覚に基づくロボットナビゲーションの基礎モデルである。
ViNTは、任意のナビゲーションデータセットで使用可能な、汎用的な目標達成目標でトレーニングされている。
特定のデータセットでトレーニングされたスペシャリストモデルよりも優れた、肯定的な転送を示す。
論文 参考訳(メタデータ) (2023-06-26T16:57:03Z) - Perceptual underwater image enhancement with deep learning and physical
priors [35.37760003463292]
本稿では,2つの知覚強調モデルを提案する。
トレーニングデータの欠如により, 物理的先行とデータ駆動的手がかりを融合したハイブリッド水中画像合成モデルが提案され, トレーニングデータを合成する。
実験結果から,提案手法は実環境および合成水中データセット上でのいくつかの最先端手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-08-21T22:11:34Z) - Learning View and Target Invariant Visual Servoing for Navigation [9.873635079670093]
ローカルな移動ロボットナビゲーションのための視点不変と目標不変の視覚サーボを学習する。
我々は、目的を達成するために深層畳み込みネットワークコントローラを訓練する。
論文 参考訳(メタデータ) (2020-03-04T20:36:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。