論文の概要: NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization
- arxiv url: http://arxiv.org/abs/2211.11177v2
- Date: Sun, 26 Mar 2023 06:22:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-29 01:39:46.237654
- Title: NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization
- Title(参考訳): NeuMap: カメラローカライゼーションのためのオートトランスデコーダによるニューラル座標マッピング
- Authors: Shitao Tang, Sicong Tang, Andrea Tagliasacchi, Ping Tan and Yasutaka
Furukawa
- Abstract要約: NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
- 参考スコア(独自算出の注目度): 60.73541222862195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end neural mapping method for camera
localization, dubbed NeuMap, encoding a whole scene into a grid of latent
codes, with which a Transformer-based auto-decoder regresses 3D coordinates of
query pixels. State-of-the-art feature matching methods require each scene to
be stored as a 3D point cloud with per-point features, consuming several
gigabytes of storage per scene. While compression is possible, performance
drops significantly at high compression rates. Conversely, coordinate
regression methods achieve high compression by storing scene information in a
neural network but suffer from reduced robustness. NeuMap combines the
advantages of both approaches by utilizing 1) learnable latent codes for
efficient scene representation and 2) a scene-agnostic Transformer-based
auto-decoder to infer coordinates for query pixels. This scene-agnostic network
design learns robust matching priors from large-scale data and enables rapid
optimization of codes for new scenes while keeping the network weights fixed.
Extensive evaluations on five benchmarks show that NeuMap significantly
outperforms other coordinate regression methods and achieves comparable
performance to feature matching methods while requiring a much smaller scene
representation size. For example, NeuMap achieves 39.1% accuracy in the Aachen
night benchmark with only 6MB of data, whereas alternative methods require
100MB or several gigabytes and fail completely under high compression settings.
The codes are available at https://github.com/Tangshitao/NeuMap
- Abstract(参考訳): 本稿では,NuMapと呼ばれるカメラローカライズのためのエンドツーエンドのニューラルマッピング手法を提案する。この手法は,トランスフォーマーベースのオートデコーダがクエリピクセルの3D座標を回帰する潜在符号のグリッドにシーン全体を符号化する。
最先端の機能マッチング手法では、各シーンをポイント単位の機能を持つ3Dポイントクラウドとして保存する必要がある。
圧縮が可能であるが、高い圧縮速度で性能が著しく低下する。
逆に、座標回帰法は、シーン情報をニューラルネットワークに格納することで高い圧縮を達成するが、ロバスト性が低下する。
NeuMapは両方のアプローチの利点を生かして活用する
1)効率的なシーン表現と学習可能な潜在コード
2) 問合せ画素の座標を推測するシーン非依存のトランスフォーマーベースのオートデコーダ。
このシーンに依存しないネットワーク設計は、大規模データから堅牢なマッチング先を学習し、ネットワーク重みを固定しつつ、新しいシーンのためのコードの迅速な最適化を可能にする。
5つのベンチマークの大規模な評価は、NeuMapが他の座標回帰手法を著しく上回り、より小さいシーン表現サイズで特徴マッチング手法に匹敵する性能を達成することを示している。
例えば、neumapは6mbのデータしか持たないaachen nightベンチマークで39.1%の精度を達成している。
コードはhttps://github.com/tangshitao/neumapで入手できる。
関連論文リスト
- Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - VS-Net: Voting with Segmentation for Visual Localization [72.8165619061249]
本稿では,クエリ画像と3Dマップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。
提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。
論文 参考訳(メタデータ) (2021-05-23T08:44:11Z) - Learning Camera Localization via Dense Scene Matching [45.0957383562443]
カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。
最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする
濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T03:47:42Z) - Efficient Scene Compression for Visual-based Localization [5.575448433529451]
3D再構成やシーン表現に関してカメラのポーズを推定することは、多くの複合現実とロボティクスアプリケーションにとって重要なステップである。
本研究では,制約付き二次プログラム(QP)を用いてシーン表現を圧縮する新しい手法を提案する。
公開データセットを用いた実験により,提案手法はシーン表現を高速に圧縮し,正確なポーズ推定を行うことを示す。
論文 参考訳(メタデータ) (2020-11-27T18:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。