論文の概要: Improved Scene Landmark Detection for Camera Localization
- arxiv url: http://arxiv.org/abs/2401.18083v1
- Date: Wed, 31 Jan 2024 18:59:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-01 13:30:41.910452
- Title: Improved Scene Landmark Detection for Camera Localization
- Title(参考訳): カメラローカライズのためのシーンランドマーク検出の改善
- Authors: Tien Do and Sudipta N. Sinha
- Abstract要約: シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
- 参考スコア(独自算出の注目度): 11.56648898250606
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camera localization methods based on retrieval, local feature matching, and
3D structure-based pose estimation are accurate but require high storage, are
slow, and are not privacy-preserving. A method based on scene landmark
detection (SLD) was recently proposed to address these limitations. It involves
training a convolutional neural network (CNN) to detect a few predetermined,
salient, scene-specific 3D points or landmarks and computing camera pose from
the associated 2D-3D correspondences. Although SLD outperformed existing
learning-based approaches, it was notably less accurate than 3D structure-based
methods. In this paper, we show that the accuracy gap was due to insufficient
model capacity and noisy labels during training. To mitigate the capacity
issue, we propose to split the landmarks into subgroups and train a separate
network for each subgroup. To generate better training labels, we propose using
dense reconstructions to estimate visibility of scene landmarks. Finally, we
present a compact architecture to improve memory efficiency. Accuracy wise, our
approach is on par with state of the art structure based methods on the
INDOOR-6 dataset but runs significantly faster and uses less storage. Code and
models can be found at https://github.com/microsoft/SceneLandmarkLocalization.
- Abstract(参考訳): 検索,局所特徴マッチング,および3次元構造に基づくポーズ推定に基づくカメラのローカライゼーション手法は正確だが,高いストレージを必要とする。
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出し、関連する2D-3D対応からカメラのポーズを演算する。
SLDは既存の学習ベースの手法よりも優れているが、特に3D構造ベースの手法よりも正確ではない。
本稿では,トレーニング中のモデルキャパシティとノイズラベルの不足により,精度のギャップが生じたことを示す。
容量問題を緩和するために,ランドマークをサブグループに分割し,サブグループ毎に個別のネットワークをトレーニングすることを提案する。
より良いトレーニングラベルを生成するために,シーンランドマークの視認性を評価するために,密集した再構成手法を提案する。
最後に,メモリ効率を向上させるためのコンパクトアーキテクチャを提案する。
精度の面では、INDOOR-6データセット上のアート構造に基づく手法の状況と同等であるが、はるかに高速に動作し、より少ないストレージを使用する。
コードとモデルはhttps://github.com/microsoft/SceneLandmarkLocalizationで見ることができる。
関連論文リスト
- ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - LFM-3D: Learnable Feature Matching Across Wide Baselines Using 3D
Signals [9.201550006194994]
学習可能なマーカは、画像ペア間のコビジュアビリティの小さな領域だけが存在する場合、しばしば性能が低下する。
グラフニューラルネットワークに基づくモデルを用いた学習可能な特徴マッチングフレームワーク LFM-3D を提案する。
その結果,画像対の相対的ポーズ精度が向上し,画像対の相対的ポーズ精度が向上することがわかった。
論文 参考訳(メタデータ) (2023-03-22T17:46:27Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - Visual Localization via Few-Shot Scene Region Classification [84.34083435501094]
ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
論文 参考訳(メタデータ) (2022-08-14T22:39:02Z) - Progressive Coordinate Transforms for Monocular 3D Object Detection [52.00071336733109]
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
本稿では,学習座標表現を容易にするために,PCT(Em Progressive Coordinate Transforms)と呼ばれる,新しい軽量なアプローチを提案する。
論文 参考訳(メタデータ) (2021-08-12T15:22:33Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - Learning Camera Localization via Dense Scene Matching [45.0957383562443]
カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。
最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする
濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T03:47:42Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z) - D3Feat: Joint Learning of Dense Detection and Description of 3D Local
Features [51.04841465193678]
私たちは3Dポイントクラウドに3D完全畳み込みネットワークを活用しています。
本稿では,3次元点ごとに検出スコアと記述特徴の両方を密に予測する,新しい,実践的な学習機構を提案する。
本手法は,屋内と屋外の両方のシナリオで最先端の手法を実現する。
論文 参考訳(メタデータ) (2020-03-06T12:51:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。