論文の概要: GaussNav: Gaussian Splatting for Visual Navigation
- arxiv url: http://arxiv.org/abs/2403.11625v3
- Date: Tue, 04 Feb 2025 10:50:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-05 14:54:49.041086
- Title: GaussNav: Gaussian Splatting for Visual Navigation
- Title(参考訳): GaussNav: ビジュアルナビゲーションのためのガウススプレイティング
- Authors: Xiaohan Lei, Min Wang, Wengang Zhou, Houqiang Li,
- Abstract要約: インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
- 参考スコア(独自算出の注目度): 92.13664084464514
- License:
- Abstract: In embodied vision, Instance ImageGoal Navigation (IIN) requires an agent to locate a specific object depicted in a goal image within an unexplored environment. The primary challenge of IIN arises from the need to recognize the target object across varying viewpoints while ignoring potential distractors. Existing map-based navigation methods typically use Bird's Eye View (BEV) maps, which lack detailed texture representation of a scene. Consequently, while BEV maps are effective for semantic-level visual navigation, they are struggling for instance-level tasks. To this end, we propose a new framework for IIN, Gaussian Splatting for Visual Navigation (GaussNav), which constructs a novel map representation based on 3D Gaussian Splatting (3DGS). The GaussNav framework enables the agent to memorize both the geometry and semantic information of the scene, as well as retain the textural features of objects. By matching renderings of similar objects with the target, the agent can accurately identify, ground, and navigate to the specified object. Our GaussNav framework demonstrates a significant performance improvement, with Success weighted by Path Length (SPL) increasing from 0.347 to 0.578 on the challenging Habitat-Matterport 3D (HM3D) dataset. The source code is publicly available at the link: https://github.com/XiaohanLei/GaussNav.
- Abstract(参考訳): 具体的視覚では、インスタンスイメージゴールナビゲーション(IIN)は、エージェントが探索されていない環境でゴール画像に描かれた特定のオブジェクトを見つける必要がある。
IINの最大の課題は、潜在的な障害を無視しながら、さまざまな視点で対象オブジェクトを認識する必要性から生じる。
既存の地図ベースのナビゲーション手法は、通常、シーンの詳細なテクスチャ表現が欠けているバードアイビュー (Bird's Eye View, BEV) マップを使用する。
したがって、BEVマップはセマンティックレベルの視覚ナビゲーションに有効であるが、インスタンスレベルのタスクでは苦労している。
この目的のために,3次元ガウススティング(3DGS)に基づく新しい地図表現を構築するGaussian Splatting for Visual Navigation (GaussNav) の新たなフレームワークを提案する。
GaussNavフレームワークは、エージェントがシーンの幾何学的情報と意味的情報を記憶し、オブジェクトのテクスチャ的特徴を保持することを可能にする。
類似したオブジェクトのレンダリングとターゲットとのマッチングによって、エージェントは指定されたオブジェクトを正確に識別し、接地し、ナビゲートすることができる。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
ソースコードはリンクで公開されている。 https://github.com/XiaohanLei/GaussNav。
関連論文リスト
- TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [34.85111360243636]
MLLMをベースとしたTopV-Navを提案する。
MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
また,動的マップスケーリング(DMS)機構を設計し,好みのスケールで動的にトップビューマップをズームする。
論文 参考訳(メタデータ) (2024-11-25T14:27:55Z) - SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。
本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。
我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文 参考訳(メタデータ) (2024-10-10T17:57:19Z) - Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。
提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。
継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文 参考訳(メタデータ) (2024-02-29T06:31:18Z) - Instance-aware Exploration-Verification-Exploitation for Instance ImageGoal Navigation [88.84058353659107]
インスタンスイメージゴールナビゲーション(IIN)は、探索されていない環境でゴールイメージによって表現された指定されたオブジェクトにナビゲートすることを目的としている。
本稿では、インスタンスレベルの画像目標ナビゲーションのための新しいモジュール型ナビゲーションフレームワーク、Exploration-Verification-Exploitation (IEVE)を提案する。
我々の手法は従来の最先端の手法を超越し、古典的セグメンテーションモデル(0.684対0.561成功)またはロバストモデル(0.702対0.561成功)を用いる。
論文 参考訳(メタデータ) (2024-02-25T07:59:10Z) - VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language
Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。
トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文 参考訳(メタデータ) (2024-01-05T08:05:07Z) - Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。
提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。
我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文 参考訳(メタデータ) (2023-08-10T14:21:33Z) - SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。
ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。
このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文 参考訳(メタデータ) (2021-03-31T15:01:04Z) - ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in
Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。
この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。
我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文 参考訳(メタデータ) (2020-11-15T23:30:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。