論文の概要: $L^3$:Scene-agnostic Visual Localization in the Wild
- arxiv url: http://arxiv.org/abs/2603.07937v1
- Date: Mon, 09 Mar 2026 04:04:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.41757
- Title: $L^3$:Scene-agnostic Visual Localization in the Wild
- Title(参考訳): $L^3$:Scene-agnostic visual Localization in the Wild
- Authors: Yu Zhang, Muhua Zhu, Yifei Xue, Tie Ji, Yizhen Lao,
- Abstract要約: 本稿では,地図自由な視覚的ローカライゼーションフレームワークである$L3$を提案する。
具体的には、RGB画像上で直接オンライン3D再構成を行い、2段階のスケール回復と2D-3D対応に基づく改善を施すことにより、$L3$はオフラインシーン表現の事前構築や保存を必要とせずに高い精度を達成できる。
- 参考スコア(独自算出の注目度): 8.93640624067105
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Standard visual localization methods typically require offline pre-processing of scenes to obtain 3D structural information for better performance. This inevitably introduces additional computational and time costs, as well as the overhead of storing scene representations. Can we visually localize in a wild scene without any off-line preprocessing step? In this paper, we leverage the online inference capabilities of feed-forward 3D reconstruction networks to propose a novel map-free visual localization framework $L^3$. Specifically, by performing direct online 3D reconstruction on RGB images, followed by two-stage metric scale recovery and pose refinement based on 2D-3D correspondences, $L^3$ achieves high accuracy without the need to pre-build or store any offline scene representations. Extensive experiments demonstrate $L^3$ not only that the performance is comparable to state-of-the-art solutions on various benchmarks, but also that it exhibits significantly superior robustness in sparse scenes (fewer reference images per scene).
- Abstract(参考訳): 標準的な視覚的ローカライゼーション法は、通常、パフォーマンス向上のために3D構造情報を取得するために、シーンのオフライン前処理を必要とする。
これは必然的に、計算と時間コストの増大とシーン表現の保存のオーバーヘッドをもたらす。
オフラインの事前処理ステップなしで、野生のシーンで視覚的にローカライズできますか?
本稿では、フィードフォワード3次元再構成ネットワークのオンライン推論機能を活用し、新しい地図のない視覚的ローカライゼーションフレームワークである$L^3$を提案する。
具体的には、RGB画像上で直接オンライン3D再構成を行い、次いで2段階のスケール回復と2D-3D対応に基づく改善を施すことにより、オフラインシーン表現の事前構築や保存を必要とせずに、$L^3$は高い精度を実現する。
大規模な実験は、パフォーマンスが様々なベンチマークにおける最先端のソリューションに匹敵するだけでなく、スパースシーン(シーン毎の参照画像が少ない)において、はるかに優れた堅牢性を示すことを証明している。
関連論文リスト
- TSP3D: Text-guided Sparse Voxel Pruning for Efficient 3D Visual Grounding [74.033589504806]
視覚的グラウンド化のための効率的なマルチレベル畳み込みアーキテクチャを提案する。
提案手法はトップ推論速度を達成し,従来の最速の手法を100% FPS で上回っている。
論文 参考訳(メタデータ) (2025-02-14T18:59:59Z) - SplatLoc: 3D Gaussian Splatting-based Visual Localization for Augmented Reality [50.179377002092416]
より少ないパラメータで高品質なレンダリングが可能な効率的なビジュアルローカライズ手法を提案する。
提案手法は,最先端の暗黙的視覚的ローカライゼーションアプローチに対して,より優れた,あるいは同等なレンダリングとローカライゼーション性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T08:46:16Z) - Fully Geometric Panoramic Localization [16.200889977514862]
本稿では,2次元3次元線の形状のみを利用する軽量かつ高精度な位置決め手法を提案する。
プレキャプチャされた3Dマップからパノラマ画像のローカライズを行う。
我々の完全に幾何学的なアプローチは、広範囲なパラメータチューニングやニューラルネットワークのトレーニングを伴わないため、現実の世界に容易に展開できる実用的なアルゴリズムです。
論文 参考訳(メタデータ) (2024-03-29T01:07:20Z) - Memory-based Adapters for Online 3D Scene Perception [71.71645534899905]
従来の3Dシーン認識手法はオフラインである。
本稿では,3次元シーン認識モデルのバックボーンのためのアダプタベースのプラグアンドプレイモジュールを提案する。
私たちのアダプタは、さまざまなタスクのメインストリームのオフラインアーキテクチャに簡単に挿入でき、オンラインタスクのパフォーマンスを大幅に向上できます。
論文 参考訳(メタデータ) (2024-03-11T17:57:41Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - Visual Localization using Imperfect 3D Models from the Internet [54.731309449883284]
本稿では,3次元モデルにおける欠陥が局所化精度に与える影響について検討する。
インターネットから得られる3Dモデルは、容易に表現できるシーン表現として有望であることを示す。
論文 参考訳(メタデータ) (2023-04-12T16:15:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。