論文の概要: NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization
- arxiv url: http://arxiv.org/abs/2211.11177v1
- Date: Mon, 21 Nov 2022 04:46:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-22 20:41:27.946279
- Title: NeuMap: Neural Coordinate Mapping by Auto-Transdecoder for Camera
Localization
- Title(参考訳): NeuMap: カメラローカライゼーションのためのオートトランスデコーダによるニューラル座標マッピング
- Authors: Shitao Tang, Sicong Tang, Andrea Tagliasacchi, Ping Tan and Yasutaka
Furukawa
- Abstract要約: NeuMapは、カメラのローカライゼーションのためのエンドツーエンドのニューラルマッピング手法である。
シーン全体を遅延コードグリッドにエンコードし、Transformerベースのオートデコーダがクエリピクセルの3D座標を回帰する。
NeuMapは、パフォーマンスの低下を最小限に抑えながら、非常に高い圧縮率を達成する。
- 参考スコア(独自算出の注目度): 60.73541222862195
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents an end-to-end neural mapping method for camera
localization, encoding a whole scene into a grid of latent codes, with which a
Transformer-based auto-decoder regresses 3D coordinates of query pixels.
State-of-the-art camera localization methods require each scene to be stored as
a 3D point cloud with per-point features, which takes several gigabytes of
storage per scene. While compression is possible, the performance drops
significantly at high compression rates. NeuMap achieves extremely high
compression rates with minimal performance drop by using 1) learnable latent
codes to store scene information and 2) a scene-agnostic Transformer-based
auto-decoder to infer coordinates for a query pixel. The scene-agnostic network
design also learns robust matching priors by training with large-scale data,
and further allows us to just optimize the codes quickly for a new scene while
fixing the network weights. Extensive evaluations with five benchmarks show
that NeuMap outperforms all the other coordinate regression methods
significantly and reaches similar performance as the feature matching methods
while having a much smaller scene representation size. For example, NeuMap
achieves 39.1% accuracy in Aachen night benchmark with only 6MB of data, while
other compelling methods require 100MB or a few gigabytes and fail completely
under high compression settings. The codes are available at
https://github.com/Tangshitao/NeuMap.
- Abstract(参考訳): 本稿では,全シーンを潜在コードのグリッドに符号化し,トランスフォーマベースのオートデコーダがクエリ画素の3d座標をレグレッシブする,カメラローカライズのためのエンドツーエンドのニューラルネットワークマッピング手法を提案する。
最先端のカメラローカライゼーション手法では、各シーンをポイント単位の機能を備えた3Dポイントクラウドとして保存する必要がある。
圧縮が可能であるが、高い圧縮速度で性能が著しく低下する。
NeuMapがパフォーマンス低下を最小限に抑えた超高速圧縮を実現
1)シーン情報を格納するための学習可能な潜在コード
2)クエリ画素の座標を推測するシーン非依存なトランスフォーマベースのオートデコーダ。
シーンに依存しないネットワーク設計は、大規模なデータでトレーニングすることで、堅牢な事前マッチングを学習し、ネットワークの重み付けを修正しながら、新しいシーンのためにコードを素早く最適化することができる。
5つのベンチマークによる広範な評価は、neumapが他の全ての座標回帰法を大幅に上回り、より小さなシーン表現サイズで特徴マッチング法と同等の性能に達することを示している。
例えば、neumapは6mbのデータしか持たないaachen nightベンチマークで39.1%の精度を達成している。
コードはhttps://github.com/Tangshitao/NeuMap.comで入手できる。
関連論文リスト
- Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - CoordFill: Efficient High-Resolution Image Inpainting via Parameterized
Coordinate Querying [52.91778151771145]
本稿では,近年の連続的暗黙表現の発達により,その限界を初めて破ろうとする。
実験の結果,提案手法はGTX 2080 Ti GPUを用いて2048$times$2048の画像をリアルタイムに処理できることがわかった。
論文 参考訳(メタデータ) (2023-03-15T11:13:51Z) - Scalable Neural Video Representations with Learnable Positional Features [73.51591757726493]
我々は,学習可能な位置特徴(NVP)を用いて,映像を潜時符号として効果的に再生するニューラル表現の訓練方法を示す。
一般的なUVGベンチマークにおけるNVPの優位性を実証し,先行技術と比較して,NVPは2倍の速度(5分以内)で走行するだけでなく,符号化品質も34.07rightarrow$34.57(PSNR測定値で測定)に上回っている。
論文 参考訳(メタデータ) (2022-10-13T08:15:08Z) - Stratified Transformer for 3D Point Cloud Segmentation [89.9698499437732]
Stratified Transformerは、長距離コンテキストをキャプチャし、強力な一般化能力と高性能を示す。
不規則な点配置によって引き起こされる課題に対処するために,局所情報を集約する第1層点埋め込みを提案する。
S3DIS, ScanNetv2およびShapeNetPartデータセットにおける本手法の有効性と優位性を示す実験を行った。
論文 参考訳(メタデータ) (2022-03-28T05:35:16Z) - COIN++: Data Agnostic Neural Compression [55.27113889737545]
COIN++は、幅広いデータモダリティをシームレスに扱うニューラルネットワーク圧縮フレームワークである。
様々なデータモダリティを圧縮することで,本手法の有効性を示す。
論文 参考訳(メタデータ) (2022-01-30T20:12:04Z) - VS-Net: Voting with Segmentation for Visual Localization [72.8165619061249]
本稿では,クエリ画像と3Dマップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。
提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。
論文 参考訳(メタデータ) (2021-05-23T08:44:11Z) - Learning Camera Localization via Dense Scene Matching [45.0957383562443]
カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。
最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする
濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T03:47:42Z) - Efficient Scene Compression for Visual-based Localization [5.575448433529451]
3D再構成やシーン表現に関してカメラのポーズを推定することは、多くの複合現実とロボティクスアプリケーションにとって重要なステップである。
本研究では,制約付き二次プログラム(QP)を用いてシーン表現を圧縮する新しい手法を提案する。
公開データセットを用いた実験により,提案手法はシーン表現を高速に圧縮し,正確なポーズ推定を行うことを示す。
論文 参考訳(メタデータ) (2020-11-27T18:36:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。