論文の概要: D2S: Representing sparse descriptors and 3D coordinates for camera relocalization
- arxiv url: http://arxiv.org/abs/2307.15250v4
- Date: Tue, 22 Oct 2024 19:09:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:52:25.545813
- Title: D2S: Representing sparse descriptors and 3D coordinates for camera relocalization
- Title(参考訳): D2S: カメラ再局在のためのスパース記述子と3次元座標の表現
- Authors: Bach-Thuan Bui, Huy-Hoang Bui, Dinh-Tuan Tran, Joo-Ho Lee,
- Abstract要約: 複雑な局所記述子とそのシーン座標を表現するための学習に基づくアプローチを提案する。
その単純さと費用対効果が特徴である。
本手法は, 室内環境と屋外環境の両方において, 従来の回帰に基づく手法よりも優れていた。
- 参考スコア(独自算出の注目度): 1.2974519529978974
- License:
- Abstract: State-of-the-art visual localization methods mostly rely on complex procedures to match local descriptors and 3D point clouds. However, these procedures can incur significant costs in terms of inference, storage, and updates over time. In this study, we propose a direct learning-based approach that utilizes a simple network named D2S to represent complex local descriptors and their scene coordinates. Our method is characterized by its simplicity and cost-effectiveness. It solely leverages a single RGB image for localization during the testing phase and only requires a lightweight model to encode a complex sparse scene. The proposed D2S employs a combination of a simple loss function and graph attention to selectively focus on robust descriptors while disregarding areas such as clouds, trees, and several dynamic objects. This selective attention enables D2S to effectively perform a binary-semantic classification for sparse descriptors. Additionally, we propose a simple outdoor dataset to evaluate the capabilities of visual localization methods in scene-specific generalization and self-updating from unlabeled observations. Our approach outperforms the previous regression-based methods in both indoor and outdoor environments. It demonstrates the ability to generalize beyond training data, including scenarios involving transitions from day to night and adapting to domain shifts. The source code, trained models, dataset, and demo videos are available at the following link: https://thpjp.github.io/d2s.
- Abstract(参考訳): 最先端の視覚的ローカライゼーション手法は、主にローカル記述子と3Dポイントクラウドにマッチする複雑な手順に依存している。
しかし、これらの手順は時間とともに推論、ストレージ、更新の点でかなりのコストを発生させる可能性がある。
本研究では,複雑な局所記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを用いた直接学習に基づくアプローチを提案する。
その単純さと費用対効果が特徴である。
テスト段階では、単一のRGBイメージをローカライズにのみ利用し、複雑なスパースシーンをエンコードするための軽量モデルのみを必要とする。
提案したD2Sは、単純な損失関数とグラフアテンションを組み合わせて、雲や木、いくつかの動的オブジェクトなどの領域を無視しながら、堅牢な記述子に選択的にフォーカスする。
この選択的な注意により、D2Sはスパースディスクリプタのバイナリ・セマンティック分類を効果的に行うことができる。
さらに,シーン特異的な一般化とラベルなし観測による自己更新における視覚的局所化手法の能力を評価するための簡易な屋外データセットを提案する。
本手法は, 室内環境と屋外環境の両方において, 従来の回帰に基づく手法よりも優れていた。
トレーニングデータを超えて、昼から夜への移行とドメインシフトへの適応を含むシナリオを一般化する能力を示すものだ。
ソースコード、トレーニングされたモデル、データセット、デモビデオは以下のリンクで入手できる。
関連論文リスト
- FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization [57.59857784298536]
直接2D-3Dマッチングアルゴリズムでは、メモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。
本研究では,2次元3次元探索フレームワーク内の重み付き平均演算子を用いて局所的およびグローバルな記述子を融合させることにより,この曖昧さに対処する。
ローカルのみのシステムの精度を常に改善し、メモリ要求を半減させながら階層的な手法に近い性能を達成する。
論文 参考訳(メタデータ) (2024-08-21T23:42:16Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - NeRF-Loc: Visual Localization with Conditional Neural Radiance Field [25.319374695362267]
暗黙の3次元記述子と変換器を用いた2次元画像との直接マッチングに基づく新しい視覚的再局在法を提案する。
実験により,本手法は,複数のベンチマークにおいて,他の学習手法よりも高い局所化精度を実現することが示された。
論文 参考訳(メタデータ) (2023-04-17T03:53:02Z) - A Unified BEV Model for Joint Learning of 3D Local Features and Overlap
Estimation [12.499361832561634]
本稿では,3次元局所特徴の同時学習と重なり推定のための統合鳥眼ビュー(BEV)モデルを提案する。
提案手法は,特に重複の少ないシーンにおいて,重複予測における既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-28T12:01:16Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - SE(3)-Equivariant Attention Networks for Shape Reconstruction in
Function Space [50.14426188851305]
本稿では,第1のSE(3)-equivariant coordinate-based networkを提案する。
入力を正規格子に整列させる従来の形状再構成法とは対照的に、不規則で無向な点雲を直接操作する。
提案手法は,従来のSO(3)-equivariant法,およびSO(3)-augmented dataで訓練された非equivariant法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:15Z) - Distinctive 3D local deep descriptors [2.512827436728378]
ポイントクラウドパッチは抽出され、推定されたローカル参照フレームに対して正準化され、PointNetベースのディープニューラルネットワークによって符号化される。
我々は、異なるセンサを用いて再構成された点雲からなる複数のデータセットにおいて、DIPを、別の手作り、ディープディスクリプタと比較し、比較した。
論文 参考訳(メタデータ) (2020-09-01T06:25:06Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。