Fugu-MT 論文翻訳(概要): GaussNav: Gaussian Splatting for Visual Navigation

論文の概要: GaussNav: Gaussian Splatting for Visual Navigation

arxiv url: http://arxiv.org/abs/2403.11625v3
Date: Tue, 04 Feb 2025 10:50:04 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-05 15:21:52.681785
Title: GaussNav: Gaussian Splatting for Visual Navigation
Title（参考訳）: GaussNav: ビジュアルナビゲーションのためのガウススプレイティング
Authors: Xiaohan Lei, Min Wang, Wengang Zhou, Houqiang Li,
Abstract要約: インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
参考スコア（独自算出の注目度）: 92.13664084464514
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In embodied vision, Instance ImageGoal Navigation (IIN) requires an agent to locate a specific object depicted in a goal image within an unexplored environment. The primary challenge of IIN arises from the need to recognize the target object across varying viewpoints while ignoring potential distractors. Existing map-based navigation methods typically use Bird's Eye View (BEV) maps, which lack detailed texture representation of a scene. Consequently, while BEV maps are effective for semantic-level visual navigation, they are struggling for instance-level tasks. To this end, we propose a new framework for IIN, Gaussian Splatting for Visual Navigation (GaussNav), which constructs a novel map representation based on 3D Gaussian Splatting (3DGS). The GaussNav framework enables the agent to memorize both the geometry and semantic information of the scene, as well as retain the textural features of objects. By matching renderings of similar objects with the target, the agent can accurately identify, ground, and navigate to the specified object. Our GaussNav framework demonstrates a significant performance improvement, with Success weighted by Path Length (SPL) increasing from 0.347 to 0.578 on the challenging Habitat-Matterport 3D (HM3D) dataset. The source code is publicly available at the link: https://github.com/XiaohanLei/GaussNav.
Abstract（参考訳）: 具体的視覚では、インスタンスイメージゴールナビゲーション(IIN)は、エージェントが探索されていない環境でゴール画像に描かれた特定のオブジェクトを見つける必要がある。 IINの最大の課題は、潜在的な障害を無視しながら、さまざまな視点で対象オブジェクトを認識する必要性から生じる。既存の地図ベースのナビゲーション手法は、通常、シーンの詳細なテクスチャ表現が欠けているバードアイビュー (Bird's Eye View, BEV) マップを使用する。したがって、BEVマップはセマンティックレベルの視覚ナビゲーションに有効であるが、インスタンスレベルのタスクでは苦労している。この目的のために,3次元ガウススティング(3DGS)に基づく新しい地図表現を構築するGaussian Splatting for Visual Navigation (GaussNav) の新たなフレームワークを提案する。 GaussNavフレームワークは、エージェントがシーンの幾何学的情報と意味的情報を記憶し、オブジェクトのテクスチャ的特徴を保持することを可能にする。類似したオブジェクトのレンダリングとターゲットとのマッチングによって、エージェントは指定されたオブジェクトを正確に識別し、接地し、ナビゲートすることができる。当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。ソースコードはリンクで公開されている。 https://github.com/XiaohanLei/GaussNav。

関連論文リスト

IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation [78.00035681410348]
IGL-Navは、効率的で3D対応の画像ゴールナビゲーションのためのインクリメンタルな3Dガウスフレームワークである。より困難な自由視点のイメージゴール設定を処理し、現実世界のロボットプラットフォームにデプロイすることができる。
論文参考訳（メタデータ） (2025-08-01T17:59:56Z)
TopV-Nav: Unlocking the Top-View Spatial Reasoning Potential of MLLM for Zero-shot Object Navigation [52.422619828854984]
MLLMをベースとしたTopV-Navを提案する。 MLLMの空間推論能力をトップビューで完全に解き放つために,適応型視覚プロンプト生成法(AVPG)を提案する。
論文参考訳（メタデータ） (2024-11-25T14:27:55Z)
SG-Nav: Online 3D Scene Graph Prompting for LLM-based Zero-shot Object Navigation [83.4599149936183]
既存のゼロショットオブジェクトナビゲーション手法は、空間的に閉じたオブジェクトのテキストでLCMをプロンプトする。本稿では,3次元シーングラフを用いて観察されたシーンを表現することを提案する。我々は,MP3D,HM3D,RoboTHOR環境において,SG-Navが従来のゼロショット法を10%以上のSRで上回る大規模な実験を行った。
論文参考訳（メタデータ） (2024-10-10T17:57:19Z)
GaussianFormer: Scene as Gaussians for Vision-Based 3D Semantic Occupancy Prediction [70.65250036489128]
3Dのセマンティック占有予測は,周囲のシーンの3Dの微細な形状とセマンティックスを得ることを目的としている。本稿では,3Dシーンを3Dセマンティック・ガウシアンで表現するオブジェクト中心表現を提案する。 GaussianFormerは17.8%から24.8%のメモリ消費しか持たない最先端のメソッドで同等のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-05-27T17:59:51Z)
HUGS: Holistic Urban 3D Scene Understanding via Gaussian Splatting [53.6394928681237]
RGB画像に基づく都市景観の全体的理解は、難しいが重要な問題である。我々の主な考え方は、静的な3Dガウスと動的なガウスの組合せを用いた幾何学、外観、意味論、運動の合同最適化である。提案手法は,2次元および3次元のセマンティック情報を高精度に生成し,新たな視点をリアルタイムに描画する機能を提供する。
論文参考訳（メタデータ） (2024-03-19T13:39:05Z)
Aligning Knowledge Graph with Visual Perception for Object-goal Navigation [16.32780793344835]
オブジェクトゴールナビゲーションのための視覚知覚付きアライニング知識グラフ(AKGVP)を提案する。提案手法では,階層型シーンアーキテクチャの連続的モデリングを導入し,自然言語記述と視覚知覚との整合性を確保するために,視覚-言語事前学習を活用する。継続的知識グラフアーキテクチャとマルチモーダル機能アライメントの統合により、ナビゲータは目覚ましいゼロショットナビゲーション能力を持つ。
論文参考訳（メタデータ） (2024-02-29T06:31:18Z)
GaussianObject: High-Quality 3D Object Reconstruction from Four Views with Gaussian Splatting [82.29476781526752]
高度にスパースな視点から3Dオブジェクトを再構成・レンダリングすることは、3Dビジョン技術の応用を促進する上で非常に重要である。 GaussianObjectは、Gaussian splattingで3Dオブジェクトを表現してレンダリングするフレームワークで、4つの入力イメージだけで高いレンダリング品質を実現する。 GaussianObjectは、MipNeRF360、OmniObject3D、OpenIllumination、および私たちが収集した未提示画像など、いくつかの挑戦的なデータセットで評価されている。
論文参考訳（メタデータ） (2024-02-15T18:42:33Z)
VoroNav: Voronoi-based Zero-shot Object Navigation with Large Language Model [28.79971953667143]
VoroNavは、リアルタイムで構築されたセマンティックマップから探索経路と計画ノードを抽出する意味探索フレームワークである。トポロジカルおよびセマンティック情報を活用することで、VoroNavは大きな言語モデルで容易に解釈できるパスとイメージのテキストベースの記述を設計する。
論文参考訳（メタデータ） (2024-01-05T08:05:07Z)
Object Goal Navigation with Recursive Implicit Maps [92.6347010295396]
対象目標ナビゲーションのための暗黙的な空間マップを提案する。提案手法は, 挑戦的なMP3Dデータセット上での技量を著しく上回る。我々は、実際のロボットにモデルをデプロイし、実際のシーンでオブジェクトゴールナビゲーションの結果を奨励する。
論文参考訳（メタデータ） (2023-08-10T14:21:33Z)
3D-Aware Object Goal Navigation via Simultaneous Exploration and Identification [19.125633699422117]
本稿では,2つの簡単なサブ政治に基づく3D認識型ObjectNavのフレームワークを提案する。私たちのフレームワークは,Matterport3DとGibsonのデータセット上で,すべてのモジュールベースのメソッドの中で最高のパフォーマンスを実現しています。
論文参考訳（メタデータ） (2022-12-01T07:55:56Z)
SOON: Scenario Oriented Object Navigation with Graph-based Exploration [102.74649829684617]
人間のように3Dエンボディ環境のどこからでも言語ガイドされたターゲットに向かって移動する能力は、インテリジェントロボットの「聖杯」目標の1つです。ほとんどのビジュアルナビゲーションベンチマークは、ステップバイステップの詳細な命令セットに導かれ、固定された出発点から目標に向かって移動することに焦点を当てている。このアプローチは、人間だけが物体とその周囲がどのように見えるかを説明する現実世界の問題から逸脱し、ロボットにどこからでも航行を依頼する。
論文参考訳（メタデータ） (2021-03-31T15:01:04Z)
ArraMon: A Joint Navigation-Assembly Instruction Interpretation Task in Dynamic Environments [85.81157224163876]
我々は、収集したオブジェクトを組み立てるビジョン・アンド・ランゲージナビゲーションとオブジェクト参照表現理解を組み合わせることで、新しい共同ナビゲーション・アンド・アセンブリタスク、ArraMonを作成します。この作業中、エージェントは、複雑で現実的な屋外環境において、自然言語の指示に基づいてナビゲートすることで、異なる対象物を1対1で見つけ、収集するよう依頼される。我々は,いくつかのベースラインモデル(積分とバイアス)とメトリクス(nDTW, CTC, rPOD, PTC)の結果を提示する。
論文参考訳（メタデータ） (2020-11-15T23:30:36Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。