論文の概要: Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing
- arxiv url: http://arxiv.org/abs/2507.15683v1
- Date: Mon, 21 Jul 2025 14:47:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.449078
- Title: Hi^2-GSLoc: Dual-Hierarchical Gaussian-Specific Visual Relocalization for Remote Sensing
- Title(参考訳): Hi^2-GSLoc : リモートセンシングのための2階層型ガウス像の視覚的再局在
- Authors: Boni Hu, Zhenyu Xia, Lin Chen, Pengcheng Han, Shuhui Bu,
- Abstract要約: リモートセンシングやUAVアプリケーションには、視覚的再ローカライゼーションが不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける。
スパース・トゥ・デンス(sparse-to-dense)と粗粒度(arse-to-fine)のパラダイムに従う二重階層的再ローカライゼーションフレームワークである$mathrmHi2$-GSLocを紹介した。
- 参考スコア(独自算出の注目度): 6.997091164331322
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual relocalization, which estimates the 6-degree-of-freedom (6-DoF) camera pose from query images, is fundamental to remote sensing and UAV applications. Existing methods face inherent trade-offs: image-based retrieval and pose regression approaches lack precision, while structure-based methods that register queries to Structure-from-Motion (SfM) models suffer from computational complexity and limited scalability. These challenges are particularly pronounced in remote sensing scenarios due to large-scale scenes, high altitude variations, and domain gaps of existing visual priors. To overcome these limitations, we leverage 3D Gaussian Splatting (3DGS) as a novel scene representation that compactly encodes both 3D geometry and appearance. We introduce $\mathrm{Hi}^2$-GSLoc, a dual-hierarchical relocalization framework that follows a sparse-to-dense and coarse-to-fine paradigm, fully exploiting the rich semantic information and geometric constraints inherent in Gaussian primitives. To handle large-scale remote sensing scenarios, we incorporate partitioned Gaussian training, GPU-accelerated parallel matching, and dynamic memory management strategies. Our approach consists of two stages: (1) a sparse stage featuring a Gaussian-specific consistent render-aware sampling strategy and landmark-guided detector for robust and accurate initial pose estimation, and (2) a dense stage that iteratively refines poses through coarse-to-fine dense rasterization matching while incorporating reliability verification. Through comprehensive evaluation on simulation data, public datasets, and real flight experiments, we demonstrate that our method delivers competitive localization accuracy, recall rate, and computational efficiency while effectively filtering unreliable pose estimates. The results confirm the effectiveness of our approach for practical remote sensing applications.
- Abstract(参考訳): クエリ画像から6自由度(6-DoF)カメラのポーズを推定する視覚的再ローカライゼーションは、リモートセンシングやUAVアプリケーションに不可欠である。
画像に基づく検索とポーズ回帰アプローチは精度に欠ける一方、クエリをStructure-from-Motion(SfM)モデルに登録する構造ベースの手法は、計算複雑性とスケーラビリティの制限に悩まされている。
これらの課題は、大規模なシーン、高高度変動、既存の視覚的事前の領域ギャップによって、特にリモートセンシングのシナリオで顕著である。
これらの制約を克服するために、3次元ガウススティング(3DGS)を3次元幾何と外観の両方をコンパクトに符号化する新しいシーン表現として活用する。
両階層的再ローカライズフレームワークである$\mathrm{Hi}^2$-GSLocを導入し、ガウス原始体に固有の豊富な意味情報と幾何的制約を完全に活用するスパース・トゥ・デンス・アンド・サーズ・トゥ・ファインメント(sparse-to-Dense and coarse-to-fine paradigm)に従う。
大規模なリモートセンシングシナリオを処理するために、分割型ガウストレーニング、GPUアクセラレーション並列マッチング、動的メモリ管理戦略を取り入れた。
提案手法は,(1)ガウス固有の一貫したレンダリング・アウェア・サンプリング戦略と,(2)厳密かつ高精度な初期ポーズ推定のためのランドマーク誘導検出器を備えたスパースステージと,(2)粗密な高密度ラスタライズマッチングにより,信頼性検証を取り入れた高密度ステージとからなる。
シミュレーションデータ,公開データセット,実飛行実験の総合評価を通じて,提案手法が信頼できないポーズ推定を効果的にフィルタリングしながら,競合するローカライズ精度,リコール率,計算効率を実現することを示した。
その結果,本手法がリモートセンシングの実用化に有効であることが確認された。
関連論文リスト
- ODG: Occupancy Prediction Using Dual Gaussians [38.9869091446875]
活動予測は周囲環境のカメラ画像から微細な3次元形状と意味を推定する。
既存の方法は、シーン表現として高密度グリッドを採用するか、単一のスパースクエリを使用してシーン全体を学習する。
複雑なシーンダイナミクスを効果的に捉えるために,階層的な二重スパースガウス表現であるODGを提案する。
論文 参考訳(メタデータ) (2025-06-11T06:03:03Z) - RobustSplat: Decoupling Densification and Dynamics for Transient-Free 3DGS [79.15416002879239]
3D Gaussian Splattingは、ノベルビュー合成と3Dモデリングにおけるリアルタイム、フォトリアリスティックレンダリングにおいて大きな注目を集めている。
既存の手法は、過渡的なオブジェクトに影響されたシーンを正確にモデル化するのに苦労し、描画された画像のアーティファクトに繋がる。
2つの重要な設計に基づく堅牢なソリューションであるRobustSplatを提案する。
論文 参考訳(メタデータ) (2025-06-03T11:13:48Z) - Intern-GS: Vision Model Guided Sparse-View 3D Gaussian Splatting [95.61137026932062]
Intern-GSはスパースビューガウススプラッティングのプロセスを強化する新しいアプローチである。
Intern-GSは多様なデータセットにまたがって最先端のレンダリング品質を実現する。
論文 参考訳(メタデータ) (2025-05-27T05:17:49Z) - PanopticSplatting: End-to-End Panoptic Gaussian Splatting [20.04251473153725]
そこで我々は,オープン・ボキャブラリ・パノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノパノ
本手法では,クエリ誘導型ガウス分割と局所的クロスアテンションを導入し,クロスフレームアソシエーションなしで2次元のインスタンスマスクを持ち上げる。
本手法は,ScanNet-V2とScanNet++データセット上での3Dシーンパノビュータ再構成において,高い性能を示す。
論文 参考訳(メタデータ) (2025-03-23T13:45:39Z) - PoI: A Filter to Extract Pixel of Interest from Novel View Synthesis for Scene Coordinate Regression [28.39136566857838]
新しいビュー合成(NVS)技術は、トレーニングデータを拡張・多様化することで、カメラのポーズ推定を強化することができる。
これらの手法によって生成された画像は、しばしばぼやけや幽霊のような空間的な人工物に悩まされる。
本稿では,トレーニング中に最適な画素を動的に識別・破棄する二基準フィルタリング機構を提案する。
論文 参考訳(メタデータ) (2025-02-07T11:24:23Z) - TSGaussian: Semantic and Depth-Guided Target-Specific Gaussian Splatting from Sparse Views [18.050257821756148]
TSGaussianは、新しいビュー合成タスクにおける幾何学的劣化を避けるために、意味的制約と深さ事前の制約を組み合わせる新しいフレームワークである。
提案手法は,バックグラウンドアロケーションを最小化しながら,指定された目標に対する計算資源の優先順位付けを行う。
大規模な実験により、TSGaussianは3つの標準データセット上で最先端の手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-12-13T11:26:38Z) - DeSiRe-GS: 4D Street Gaussians for Static-Dynamic Decomposition and Surface Reconstruction for Urban Driving Scenes [71.61083731844282]
本稿では,自己教師型ガウススプラッティング表現であるDeSiRe-GSについて述べる。
複雑な駆動シナリオにおいて、効率的な静的・動的分解と高忠実な表面再構成を可能にする。
論文 参考訳(メタデータ) (2024-11-18T05:49:16Z) - CityGaussianV2: Efficient and Geometrically Accurate Reconstruction for Large-Scale Scenes [53.107474952492396]
CityGaussianV2は大規模なシーン再構築のための新しいアプローチである。
分解段階の密度化・深さ回帰手法を実装し, ぼやけたアーチファクトを除去し, 収束を加速する。
本手法は, 視覚的品質, 幾何学的精度, ストレージ, トレーニングコストの両立を図っている。
論文 参考訳(メタデータ) (2024-11-01T17:59:31Z) - No Pose, No Problem: Surprisingly Simple 3D Gaussian Splats from Sparse Unposed Images [100.80376573969045]
NoPoSplatは、多視点画像から3Dガウスアンによってパラメータ化された3Dシーンを再構成できるフィードフォワードモデルである。
提案手法は,推定時にリアルタイムな3次元ガウス再構成を実現する。
この研究は、ポーズフリーの一般化可能な3次元再構成において大きな進歩をもたらし、実世界のシナリオに適用可能であることを示す。
論文 参考訳(メタデータ) (2024-10-31T17:58:22Z) - PF3plat: Pose-Free Feed-Forward 3D Gaussian Splatting [54.7468067660037]
PF3platは、設計選択を検証した包括的なアブレーション研究によってサポートされた、すべてのベンチマークに新しい最先端を設定します。
本フレームワークは,3DGSの高速,スケーラビリティ,高品質な3D再構成とビュー合成機能を活用している。
論文 参考訳(メタデータ) (2024-10-29T15:28:15Z) - GSplatLoc: Grounding Keypoint Descriptors into 3D Gaussian Splatting for Improved Visual Localization [1.4466437171584356]
軽量なXFeat特徴抽出器から高密度かつ堅牢なキーポイント記述器を3DGSに統合する2段階の手順を提案する。
第2段階では、レンダリングベースの光度ワープ損失を最小限に抑え、初期ポーズ推定を洗練させる。
広く使われている屋内および屋外データセットのベンチマークは、最近のニューラルレンダリングベースのローカライゼーション手法よりも改善されていることを示している。
論文 参考訳(メタデータ) (2024-09-24T23:18:32Z) - iComMa: Inverting 3D Gaussian Splatting for Camera Pose Estimation via Comparing and Matching [14.737266480464156]
コンピュータビジョンにおける6次元カメラのポーズ推定問題に対処するため,iComMaという手法を提案する。
3次元ガウススプラッティング(3DGS)の反転による高精度カメラポーズ推定法を提案する。
論文 参考訳(メタデータ) (2023-12-14T15:31:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。