論文の概要: An Efficient Scene Coordinate Encoding and Relocalization Method
- arxiv url: http://arxiv.org/abs/2412.06488v1
- Date: Mon, 09 Dec 2024 13:39:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:53:14.544490
- Title: An Efficient Scene Coordinate Encoding and Relocalization Method
- Title(参考訳): 効率的なシーンコーディネートエンコーディングと再ローカライズ手法
- Authors: Kuan Xu, Zeyu Jiang, Haozhi Cao, Shenghai Yuan, Chen Wang, Lihua Xie,
- Abstract要約: 本稿では,効率的なシーン座標符号化と再局在化手法を提案する。
既存のSCR手法と比較して,シーンエンコーディングと有能なキーポイント検出のための統一アーキテクチャを設計する。
室内および屋外における総合的な実験により、提案システムは他のSOTA(State-of-the-art)SCR法よりも優れていることが示された。
- 参考スコア(独自算出の注目度): 26.934946734751442
- License:
- Abstract: Scene Coordinate Regression (SCR) is a visual localization technique that utilizes deep neural networks (DNN) to directly regress 2D-3D correspondences for camera pose estimation. However, current SCR methods often face challenges in handling repetitive textures and meaningless areas due to their reliance on implicit triangulation. In this paper, we propose an efficient scene coordinate encoding and relocalization method. Compared with the existing SCR methods, we design a unified architecture for both scene encoding and salient keypoint detection, enabling our system to focus on encoding informative regions, thereby significantly enhancing efficiency. Additionally, we introduce a mechanism that leverages sequential information during both map encoding and relocalization, which strengthens implicit triangulation, particularly in repetitive texture environments. Comprehensive experiments conducted across indoor and outdoor datasets demonstrate that the proposed system outperforms other state-of-the-art (SOTA) SCR methods. Our single-frame relocalization mode improves the recall rate of our baseline by 6.4% and increases the running speed from 56Hz to 90Hz. Furthermore, our sequence-based mode increases the recall rate by 11% while maintaining the original efficiency.
- Abstract(参考訳): SCR(Scene Coordinate Regression)は、ディープニューラルネットワーク(DNN)を使用して、カメラポーズ推定のために2D-3D対応を直接回帰する視覚的ローカライゼーション技術である。
しかしながら、現在のSCR法は暗黙の三角測量に依存するため、反復的なテクスチャや意味のない領域を扱う際にしばしば課題に直面している。
本稿では,効率的なシーン座標符号化と再局在化手法を提案する。
既存のSCR手法と比較して、シーンエンコーディングと有能なキーポイント検出の両方のための統一アーキテクチャを設計し、情報領域の符号化に集中できるようにし、効率を大幅に向上させる。
さらに,地図エンコーディングと再局在化の両方において逐次情報を活用する機構を導入し,特に反復的なテクスチャ環境において暗黙の三角測量を強化する。
室内および屋外における総合的な実験により、提案システムは他のSOTA(State-of-the-art)SCR法よりも優れていることが示された。
我々の単一フレーム再ローカライズモードは、ベースラインのリコール率を6.4%改善し、ランニング速度を56Hzから90Hzに向上させる。
さらに、シーケンスベースモードは、元の効率を維持しながらリコール率を11%向上させる。
関連論文リスト
- Cross-Modal Pre-Aligned Method with Global and Local Information for Remote-Sensing Image and Text Retrieval [16.995114000869833]
グローバルな情報とローカルな情報を活用するクロスモーダル・プレアライメント手法であるCMPAGLを提案する。
我々のGswin変換ブロックは、ローカルウィンドウの自己アテンションとグローバルローカルウィンドウのクロスアテンションを組み合わせて、マルチスケールな特徴をキャプチャする。
RSICDとRSITMDを含む4つのデータセットの実験はCMPAGLの有効性を検証する。
論文 参考訳(メタデータ) (2024-11-22T03:28:55Z) - HGSLoc: 3DGS-based Heuristic Camera Pose Refinement [13.393035855468428]
視覚的ローカライゼーションは、既知のシーン表現内のカメラのポーズと方向を決定するプロセスを指す。
本稿では,3次元再構成と改良戦略を統合したHGSLocを提案する。
提案手法は,NeRFベースのニューラルレンダリング手法と比較して,高速なレンダリング速度とローカライズ精度を示す。
論文 参考訳(メタデータ) (2024-09-17T06:48:48Z) - VHS: High-Resolution Iterative Stereo Matching with Visual Hull Priors [3.523208537466128]
本稿では,視覚的包絡を先行として高解像度画像から深度推定を行うステレオマッチング手法を提案する。
提案手法では,シーンの補助的な視点から抽出したオブジェクトマスクを用いて,不一致推定を導出し,マッチングの検索スペースを効果的に削減する。
このアプローチは、下流の復元作業において、正確な深さが重要な役割を果たすボリュームキャプチャシステムにおけるステレオリグに特化している。
論文 参考訳(メタデータ) (2024-06-04T17:59:57Z) - Leveraging Neural Radiance Field in Descriptor Synthesis for Keypoints Scene Coordinate Regression [1.2974519529978974]
本稿では,Neural Radiance Field (NeRF) を用いたキーポイント記述子合成のためのパイプラインを提案する。
新たなポーズを生成してトレーニングされたNeRFモデルに入力して新しいビューを生成することで、当社のアプローチは、データスカース環境でのKSCRの機能を強化します。
提案システムは,最大50%のローカライズ精度向上を実現し,データ合成に要するコストをわずかに抑えることができた。
論文 参考訳(メタデータ) (2024-03-15T13:40:37Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - GS-SLAM: Dense Visual SLAM with 3D Gaussian Splatting [51.96353586773191]
我々は,まず3次元ガウス表現を利用したtextbfGS-SLAM を提案する。
提案手法は,地図の最適化とRGB-Dレンダリングの大幅な高速化を実現するリアルタイム微分可能なスプレイティングレンダリングパイプラインを利用する。
提案手法は,Replica,TUM-RGBDデータセット上の既存の最先端リアルタイム手法と比較して,競争性能が向上する。
論文 参考訳(メタデータ) (2023-11-20T12:08:23Z) - Leveraging Neural Radiance Fields for Uncertainty-Aware Visual
Localization [56.95046107046027]
我々は,Neural Radiance Fields (NeRF) を用いてシーン座標回帰のためのトレーニングサンプルを生成することを提案する。
レンダリングにおけるNeRFの効率にもかかわらず、レンダリングされたデータの多くはアーティファクトによって汚染されるか、最小限の情報ゲインしか含まない。
論文 参考訳(メタデータ) (2023-10-10T20:11:13Z) - Optical-Flow-Reuse-Based Bidirectional Recurrent Network for Space-Time
Video Super-Resolution [52.899234731501075]
時空間ビデオ超解像(ST-VSR)は、与えられたビデオの空間解像度とフレームレートを同時に増加させる。
既存の手法は通常、近隣の幅広いフレームからの情報を効率的に活用する方法の難しさに悩まされる。
本稿では,隣接するフレーム間の知識を活用するために,ConvLSTMの代わりに粗大な双方向リカレントニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-13T15:21:30Z) - NerfingMVS: Guided Optimization of Neural Radiance Fields for Indoor
Multi-view Stereo [97.07453889070574]
本稿では,従来のSfM再構成と学習に基づく先行手法を併用した多視点深度推定手法を提案する。
提案手法は室内シーンにおける最先端手法を著しく上回ることを示す。
論文 参考訳(メタデータ) (2021-09-02T17:54:31Z) - Continual Learning for Image-Based Camera Localization [14.47046413243358]
連続学習環境における視覚的局所化の問題について検討する。
以上の結果から,非定常データも分類領域と同様,深層ネットワークにおいて視覚的局所化のための破滅的な忘れを生じさせることが示された。
本稿では,バッファリングプロセスにおける既存のサンプリング戦略を視覚的ローカライゼーションの問題に適応させる,カバレッジスコア(Buff-CS)に基づく新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-08-20T11:18:05Z) - Spatial-Spectral Residual Network for Hyperspectral Image
Super-Resolution [82.1739023587565]
ハイパースペクトル画像超解像のための新しいスペクトル空間残差ネットワーク(SSRNet)を提案する。
提案手法は,2次元畳み込みではなく3次元畳み込みを用いて空間スペクトル情報の探索を効果的に行うことができる。
各ユニットでは空間的・時間的分離可能な3次元畳み込みを用いて空間的・スペクトル的な情報を抽出する。
論文 参考訳(メタデータ) (2020-01-14T03:34:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。