論文の概要: IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation
- arxiv url: http://arxiv.org/abs/2508.00823v1
- Date: Fri, 01 Aug 2025 17:59:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.98068
- Title: IGL-Nav: Incremental 3D Gaussian Localization for Image-goal Navigation
- Title(参考訳): IGL-Nav:画像ゴールナビゲーションのためのインクリメンタル3次元ガウス位置決め
- Authors: Wenxuan Guo, Xiuwei Xu, Hang Yin, Ziwei Wang, Jianjiang Feng, Jie Zhou, Jiwen Lu,
- Abstract要約: IGL-Navは、効率的で3D対応の画像ゴールナビゲーションのためのインクリメンタルな3Dガウスフレームワークである。
より困難な自由視点のイメージゴール設定を処理し、現実世界のロボットプラットフォームにデプロイすることができる。
- 参考スコア(独自算出の注目度): 78.00035681410348
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Visual navigation with an image as goal is a fundamental and challenging problem. Conventional methods either rely on end-to-end RL learning or modular-based policy with topological graph or BEV map as memory, which cannot fully model the geometric relationship between the explored 3D environment and the goal image. In order to efficiently and accurately localize the goal image in 3D space, we build our navigation system upon the renderable 3D gaussian (3DGS) representation. However, due to the computational intensity of 3DGS optimization and the large search space of 6-DoF camera pose, directly leveraging 3DGS for image localization during agent exploration process is prohibitively inefficient. To this end, we propose IGL-Nav, an Incremental 3D Gaussian Localization framework for efficient and 3D-aware image-goal navigation. Specifically, we incrementally update the scene representation as new images arrive with feed-forward monocular prediction. Then we coarsely localize the goal by leveraging the geometric information for discrete space matching, which can be equivalent to efficient 3D convolution. When the agent is close to the goal, we finally solve the fine target pose with optimization via differentiable rendering. The proposed IGL-Nav outperforms existing state-of-the-art methods by a large margin across diverse experimental configurations. It can also handle the more challenging free-view image-goal setting and be deployed on real-world robotic platform using a cellphone to capture goal image at arbitrary pose. Project page: https://gwxuan.github.io/IGL-Nav/.
- Abstract(参考訳): イメージを目標とするビジュアルナビゲーションは、基本的な問題であり、難しい問題である。
従来の手法では、トポロジカルグラフを用いたエンドツーエンドのRL学習やモジュールベースのポリシーや、メモリとしてのBEVマップに依存しており、探索された3D環境と目標画像の間の幾何学的関係を完全にモデル化することはできない。
目標画像を3D空間に効率よく正確にローカライズするために,レンダリング可能な3Dガウス(3DGS)表現に基づいてナビゲーションシステムを構築した。
しかし, 3DGS 最適化の計算強度と 6-DoF カメラの大規模な探索空間により, 3DGS を直接利用してエージェント探索過程における画像の局所化を非効率に行うことができる。
そこで本研究では,効率的な3次元画像ゴールナビゲーションのためのインクリメンタルな3次元ガウス局在化フレームワークであるIGL-Navを提案する。
具体的には、新しい画像がフィードフォワード単分子予測で到着するにつれて、シーン表現を漸進的に更新する。
次に, 離散空間マッチングに幾何情報を活用することで, 目標を粗い位置決めを行う。
エージェントが目標に近づくと、最終的に微分可能なレンダリングによって最適化された微妙なターゲットのポーズを解決します。
提案したIGL-Navは、様々な実験的な構成において、既存の最先端手法よりも大きなマージンで優れている。
また、より困難な自由視点の画像ゴール設定を処理し、携帯電話を使って現実のロボットプラットフォームにデプロイして、任意のポーズでゴール画像をキャプチャすることもできる。
プロジェクトページ: https://gwxuan.github.io/IGL-Nav/。
関連論文リスト
- SGLoc: Semantic Localization System for Camera Pose Estimation from 3D Gaussian Splatting Representation [9.77843053500054]
セマンティック情報を活用することで,3次元ガウススプラッティング(3DGS)表現から直接カメラポーズを回帰する新たなローカライズシステムであるSGLocを提案する。
提案手法は,2次元画像と3次元シーン表現のセマンティックな関係を利用して,事前のポーズ情報なしで6DoFポーズを推定する。
論文 参考訳(メタデータ) (2025-07-16T08:39:08Z) - 3DGeoDet: General-purpose Geometry-aware Image-based 3D Object Detection [17.502554516157893]
3DGeoDetは幾何学を意識した新しい3Dオブジェクト検出手法である。
屋内および屋外環境では、シングルビューとマルチビューのRGBイメージを効果的に処理する。
論文 参考訳(メタデータ) (2025-06-11T09:18:36Z) - GaussRender: Learning 3D Occupancy with Gaussian Rendering [86.89653628311565]
GaussRenderは、投影的一貫性を強制することによって3D占有学習を改善するモジュールである。
提案手法は,不整合な2次元プロジェクションを生成する3次元構成をペナライズすることにより,より一貫性のある3次元構造を実現する。
論文 参考訳(メタデータ) (2025-02-07T16:07:51Z) - GSemSplat: Generalizable Semantic 3D Gaussian Splatting from Uncalibrated Image Pairs [33.74118487769923]
GSemSplatは,3次元ガウスに関連付けられた意味表現を,シーンごとの最適化や高密度画像収集,キャリブレーションなしに学習するフレームワークである。
本研究では,2次元空間における領域固有の意味的特徴と文脈認識的意味的特徴を両立させる二重機能アプローチを用いる。
論文 参考訳(メタデータ) (2024-12-22T09:06:58Z) - SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - GaussNav: Gaussian Splatting for Visual Navigation [92.13664084464514]
インスタンスイメージゴールナビゲーション(IIN)では、エージェントが探索されていない環境で、目標画像に描かれた特定のオブジェクトを見つける必要がある。
視覚ナビゲーションのためのガウススティング(GaussNav)であるIINの新しいフレームワークを提案し、3次元ガウススティング(DGS)に基づく新しい地図表現を構築した。
当社のGaussNavフレームワークは,Habitat-Matterport 3D(HM3D)データセットにおいて,SPL(Path Length)によるSuccessの重み付けを0.347から0.578に増加させ,大幅なパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2024-03-18T09:56:48Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - ZoomNet: Part-Aware Adaptive Zooming Neural Network for 3D Object
Detection [69.68263074432224]
ステレオ画像に基づく3D検出のためのZoomNetという新しいフレームワークを提案する。
ZoomNetのパイプラインは、通常の2Dオブジェクト検出モデルから始まり、左右のバウンディングボックスのペアを取得するために使用される。
さらに,RGB画像のテクスチャキューを多用し,より正確な異質度推定を行うため,適応ズームという概念的に真直ぐなモジュールを導入する。
論文 参考訳(メタデータ) (2020-03-01T17:18:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。