論文の概要: EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale
Visual Localization
- arxiv url: http://arxiv.org/abs/2309.07471v1
- Date: Thu, 14 Sep 2023 07:06:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-15 16:00:22.180543
- Title: EP2P-Loc: End-to-End 3D Point to 2D Pixel Localization for Large-Scale
Visual Localization
- Title(参考訳): EP2P-Loc:大規模視覚像定位のための2次元像定位への終端3Dポイント
- Authors: Minjung Kim, Junseo Koo, Gunhee Kim
- Abstract要約: 本稿では,3次元点雲の大規模可視化手法EP2P-Locを提案する。
画像中の見えない3D点を除去する簡単なアルゴリズムを提案する。
このタスクで初めて、エンドツーエンドのトレーニングに差別化可能なツールを使用します。
- 参考スコア(独自算出の注目度): 44.05930316729542
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization is the task of estimating a 6-DoF camera pose of a query
image within a provided 3D reference map. Thanks to recent advances in various
3D sensors, 3D point clouds are becoming a more accurate and affordable option
for building the reference map, but research to match the points of 3D point
clouds with pixels in 2D images for visual localization remains challenging.
Existing approaches that jointly learn 2D-3D feature matching suffer from low
inliers due to representational differences between the two modalities, and the
methods that bypass this problem into classification have an issue of poor
refinement. In this work, we propose EP2P-Loc, a novel large-scale visual
localization method that mitigates such appearance discrepancy and enables
end-to-end training for pose estimation. To increase the number of inliers, we
propose a simple algorithm to remove invisible 3D points in the image, and find
all 2D-3D correspondences without keypoint detection. To reduce memory usage
and search complexity, we take a coarse-to-fine approach where we extract
patch-level features from 2D images, then perform 2D patch classification on
each 3D point, and obtain the exact corresponding 2D pixel coordinates through
positional encoding. Finally, for the first time in this task, we employ a
differentiable PnP for end-to-end training. In the experiments on newly curated
large-scale indoor and outdoor benchmarks based on 2D-3D-S and KITTI, we show
that our method achieves the state-of-the-art performance compared to existing
visual localization and image-to-point cloud registration methods.
- Abstract(参考訳): ビジュアルローカライゼーションは、提供された3D参照マップ内のクエリ画像の6-DoFカメラのポーズを推定するタスクである。
近年の様々な3Dセンサーの進歩により、3Dポイントクラウドは参照マップを構築するためのより正確で手頃な選択肢になりつつあるが、3Dポイントクラウドの点と2Dイメージのピクセルをマッチングして視覚的ローカライゼーションを行う研究は依然として難しい。
2D-3D特徴マッチングを共同で学習する既存のアプローチは、2つのモダリティの表現的相違により低イリヤに悩まされており、この問題を分類にバイパスする手法には改善の問題がある。
本研究では,このような外観の相違を緩和し,ポーズ推定のためのエンドツーエンドのトレーニングを可能にする,EP2P-Locを提案する。
画像中の見えない3D点を除去し,キーポイント検出なしですべての2D-3D対応を見つけるための簡単なアルゴリズムを提案する。
メモリ使用量と検索の複雑さを低減するため,2次元画像からパッチレベルの特徴を抽出し,各3次元点の2次元パッチ分類を行い,位置符号化によって対応する正確な2次元ピクセル座標を得るという粗大なアプローチをとる。
最後に、このタスクで初めて、エンドツーエンドのトレーニングに微分可能なPnPを使用します。
本研究では,2d-3d-sとkittiを用いた大規模屋外ベンチマーク実験において,既存の視覚的ローカライゼーションや画像からポイントへのクラウド登録手法と比較して,最先端の性能を実現することを示す。
関連論文リスト
- ImOV3D: Learning Open-Vocabulary Point Clouds 3D Object Detection from Only 2D Images [19.02348585677397]
Open-vocabulary 3D object Detection (OV-3Det) は、トレーニングフェーズ中にラベル付けされたベースカテゴリの限られた数を超えて一般化することを目的としている。
最大のボトルネックは、注釈付き3Dデータの不足であるのに対して、2D画像データセットは豊富で豊富な注釈付きである。
画像と点雲(PC)の両方を含む擬似マルチモーダル表現を利用してモダリティギャップを埋める新しいフレームワークImOV3Dを提案する。
論文 参考訳(メタデータ) (2024-10-31T15:02:05Z) - Robust 3D Point Clouds Classification based on Declarative Defenders [18.51700931775295]
3Dポイントの雲は非構造的でスパースであり、2Dイメージは構造的で密度が高い。
本稿では,3次元点雲を2次元画像にマッピングする3つの異なるアルゴリズムについて検討する。
提案手法は敵攻撃に対する高い精度と堅牢性を示す。
論文 参考訳(メタデータ) (2024-10-13T01:32:38Z) - ConDense: Consistent 2D/3D Pre-training for Dense and Sparse Features from Multi-View Images [47.682942867405224]
ConDenseは既存の2Dネットワークと大規模マルチビューデータセットを利用した3D事前トレーニングのためのフレームワークである。
組込み型2Dと3Dの特徴をエンドツーエンドのパイプラインで抽出する新しい2D-3Dジョイントトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T05:57:01Z) - CheckerPose: Progressive Dense Keypoint Localization for Object Pose
Estimation with Graph Neural Network [66.24726878647543]
単一のRGB画像から固い物体の6-DoFのポーズを推定することは、非常に難しい課題である。
近年の研究では、高密度対応型解の大きな可能性を示している。
そこで本研究では,CheckerPoseというポーズ推定アルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-03-29T17:30:53Z) - Improving Feature-based Visual Localization by Geometry-Aided Matching [21.1967752160412]
外観情報と幾何学的文脈の両方を用いて2D-3D特徴マッチングを改善する新しい2D-3Dマッチング手法であるGeometry-Aided Matching (GAM)を導入する。
GAMは高精度を維持しながら2D-3Dマッチのリコールを大幅に強化することができる。
提案手法は,複数の視覚的ローカライゼーションデータセットの最先端結果を実現する。
論文 参考訳(メタデータ) (2022-11-16T07:02:12Z) - CorrI2P: Deep Image-to-Point Cloud Registration via Dense Correspondence [51.91791056908387]
我々は,CorrI2Pと呼ばれる画像間クラウドの登録問題に対処するための,機能に基づく最初の高密度対応フレームワークを提案する。
具体的には、3次元の点雲の前に2次元画像が1対あるとすると、まずそれらを高次元の特徴空間に変換し、特徴を対称的に重なり合う領域に変換して、画像点雲が重なり合う領域を決定する。
論文 参考訳(メタデータ) (2022-07-12T11:49:31Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z) - Soft Expectation and Deep Maximization for Image Feature Detection [68.8204255655161]
質問をひっくり返し、まず繰り返し可能な3Dポイントを探し、次に検出器を訓練して画像空間にローカライズする、反復的半教師付き学習プロセスSEDMを提案する。
以上の結果から,sdmを用いてトレーニングした新しいモデルでは,シーン内の下位3dポイントのローカライズが容易になった。
論文 参考訳(メタデータ) (2021-04-21T00:35:32Z) - P2-Net: Joint Description and Detection of Local Features for Pixel and
Point Matching [78.18641868402901]
この研究は、2D画像と3D点雲の微粒な対応を確立するための取り組みである。
画素領域と点領域の固有情報変動を緩和するために,新しい損失関数と組み合わせた超広帯域受信機構を設計した。
論文 参考訳(メタデータ) (2021-03-01T14:59:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。