論文の概要: YOPO-Nav: Visual Navigation using 3DGS Graphs from One-Pass Videos
- arxiv url: http://arxiv.org/abs/2512.09903v1
- Date: Wed, 10 Dec 2025 18:32:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.637004
- Title: YOPO-Nav: Visual Navigation using 3DGS Graphs from One-Pass Videos
- Title(参考訳): YOPO-Nav:ワンパスビデオの3DGSグラフによるビジュアルナビゲーション
- Authors: Ryan Meegan, Adam D'Souza, Bryan Bo Cao, Shubham Jain, Kristin Dana,
- Abstract要約: 本稿では,環境を3次元ガウススプラッティング(3DGS)モデルと相互接続した空間表現に符号化するYOPO-Navを提案する。
ナビゲーション中、このフレームワークはロボットの現在の視覚的観察をこの表現と整列させ、それを実証された軌道に戻す行動を予測する。
本稿では,Clearpath Jackal ロボットを用いた YOPO-Campus のトラジェクトリに対する最近の視覚ナビゲーション手法のベンチマークを行った。
- 参考スコア(独自算出の注目度): 5.7772802828964664
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual navigation has emerged as a practical alternative to traditional robotic navigation pipelines that rely on detailed mapping and path planning. However, constructing and maintaining 3D maps is often computationally expensive and memory-intensive. We address the problem of visual navigation when exploration videos of a large environment are available. The videos serve as a visual reference, allowing a robot to retrace the explored trajectories without relying on metric maps. Our proposed method, YOPO-Nav (You Only Pass Once), encodes an environment into a compact spatial representation composed of interconnected local 3D Gaussian Splatting (3DGS) models. During navigation, the framework aligns the robot's current visual observation with this representation and predicts actions that guide it back toward the demonstrated trajectory. YOPO-Nav employs a hierarchical design: a visual place recognition (VPR) module provides coarse localization, while the local 3DGS models refine the goal and intermediate poses to generate control actions. To evaluate our approach, we introduce the YOPO-Campus dataset, comprising 4 hours of egocentric video and robot controller inputs from over 6 km of human-teleoperated robot trajectories. We benchmark recent visual navigation methods on trajectories from YOPO-Campus using a Clearpath Jackal robot. Experimental results show YOPO-Nav provides excellent performance in image-goal navigation for real-world scenes on a physical robot. The dataset and code will be made publicly available for visual navigation and scene representation research.
- Abstract(参考訳): ビジュアルナビゲーションは、詳細なマッピングと経路計画に依存する従来のロボットナビゲーションパイプラインの実用的な代替品として登場した。
しかし、3Dマップの構築と維持は、しばしば計算コストが高く、メモリ集約的である。
大規模環境の探索ビデオが利用可能である場合,視覚ナビゲーションの問題点に対処する。
ビデオは視覚的参照として機能し、ロボットはメートル法に頼らずに探索された軌跡を追跡できる。
提案手法であるYOPO-Nav (You Only Pass Once) は,環境を3次元ガウススプラッティング(3DGS)モデルと相互接続した空間表現に符号化する。
ナビゲーション中、このフレームワークはロボットの現在の視覚的観察をこの表現と整列させ、それを実証された軌道に戻す行動を予測する。
YOPO-Navは階層的な設計を採用しており、視覚的位置認識(VPR)モジュールは粗いローカライゼーションを提供する一方、ローカルな3DGSモデルは目標を洗練し、中間のポーズは制御アクションを生成する。
提案手法を評価するために,人体操作ロボット軌道の6km以上から4時間以上のエゴセントリックなビデオとロボットコントローラを入力したYOPO-Campusデータセットを提案する。
本稿では,Clearpath Jackal ロボットを用いたYOPO-Campus のトラジェクトリのビジュアルナビゲーション手法のベンチマークを行った。
実験結果から, YOPO-Navは実空間シーンの映像ゴールナビゲーションに優れた性能を発揮することが示された。
データセットとコードは、ビジュアルナビゲーションとシーン表現研究のために公開されます。
関連論文リスト
- FOM-Nav: Frontier-Object Maps for Object Goal Navigation [65.76906445210112]
FOM-Navはフロンティアオブジェクトマップと視覚言語モデルによる探索効率を高めるフレームワークである。
FOM-Navをトレーニングするために,実環境から大規模ナビゲーションデータセットを自動構築する。
FOM-NavはMP3DとHM3Dのベンチマーク、特にナビゲーション効率の指標SPLで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-11-30T18:16:09Z) - Mobile Robot Navigation Using Hand-Drawn Maps: A Vision Language Model Approach [5.009635912655658]
手描きの地図は、しばしばスケールの歪みや目印の欠如のような不正確さを含む。
本稿では,事前学習型視覚言語モデルを活用した手書き地図ナビゲーション(HAM-Nav)アーキテクチャを提案する。
Ham-Navは、トポロジカルマップに基づく位置推定とナビゲーション計画のためのユニークな選択型ビジュアルアソシエーション・プロンプティング・アプローチを統合している。
論文 参考訳(メタデータ) (2025-01-31T19:03:33Z) - CityNav: A Large-Scale Dataset for Real-World Aerial Navigation [25.51740922661166]
航空VLNのための最初の大規模実世界のデータセットであるCityNavを紹介する。
我々のデータセットは32,637人の実証軌道で構成されており、それぞれに自然言語の記述が組み合わされている。
ナビゲーション中に補助的なモダリティ入力として使用できる地理意味マップを作成する方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T12:08:27Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language,
Vision, and Action [76.71101507291473]
本稿では,無注釈の大規模軌跡データに対するトレーニングの恩恵を享受するロボットナビゲーションシステムLM-Navを提案する。
本研究では,ナビゲーション(ViNG),画像言語アソシエーション(CLIP),言語モデリング(GPT-3)の事前学習モデルから構築可能なシステムについて述べる。
論文 参考訳(メタデータ) (2022-07-10T10:41:50Z) - ViKiNG: Vision-Based Kilometer-Scale Navigation with Geographic Hints [94.60414567852536]
長距離航法には、計画と局所的な移動可能性の推論の両方が必要である。
学習と計画を統合する学習に基づくアプローチを提案する。
ViKiNGは、画像ベースの学習コントローラを利用できる。
論文 参考訳(メタデータ) (2022-02-23T02:14:23Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。