論文の概要: D2S: Representing local descriptors and global scene coordinates for
camera relocalization
- arxiv url: http://arxiv.org/abs/2307.15250v2
- Date: Thu, 7 Dec 2023 13:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:37:31.704732
- Title: D2S: Representing local descriptors and global scene coordinates for
camera relocalization
- Title(参考訳): d2s: カメラ再ローカライズのためのローカルディスクリプタとグローバルシーン座標の表現
- Authors: Bach-Thuan Bui, Dinh-Tuan Tran, and Joo-Ho Lee
- Abstract要約: ローカル記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを利用する学習ベースアプローチを提案する。
テスト段階では、単一のRGBイメージをローカライズにのみ利用し、複雑なスパースシーンをエンコードするための軽量モデルのみを必要とする。
本手法は,屋内および屋外環境におけるシーン座標回帰における最先端CNN手法よりも優れる。
- 参考スコア(独自算出の注目度): 1.417373050337415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art visual localization methods mostly rely on complex
procedures to match local descriptors and 3D point clouds. However, these
procedures can incur significant cost in terms of inference, storage, and
updates over time. In this study, we propose a direct learning-based approach
that utilizes a simple network named D2S to represent local descriptors and
their scene coordinates. Our method is characterized by its simplicity and
cost-effectiveness. It solely leverages a single RGB image for localization
during the testing phase and only requires a lightweight model to encode a
complex sparse scene. The proposed D2S employs a combination of a simple loss
function and graph attention to selectively focus on robust descriptors while
disregarding areas such as clouds, trees, and several dynamic objects. This
selective attention enables D2S to effectively perform a binary-semantic
classification for sparse descriptors. Additionally, we propose a new outdoor
dataset to evaluate the capabilities of visual localization methods in terms of
scene generalization and self-updating from unlabeled observations. Our
approach outperforms the state-of-the-art CNN-based methods in scene coordinate
regression in indoor and outdoor environments. It demonstrates the ability to
generalize beyond training data, including scenarios involving transitions from
day to night and adapting to domain shifts, even in the absence of the labeled
data sources. The source code, trained models, dataset, and demo videos are
available at the following link: https://thpjp.github.io/d2s
- Abstract(参考訳): 最先端のビジュアルローカライズ手法は主に、ローカルディスクリプタと3dポイントクラウドにマッチする複雑な手順に依存している。
しかし、これらの手順は時間とともに推論、ストレージ、更新の点でかなりのコストを発生させる可能性がある。
本研究では,ローカル記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを用いた直接学習型アプローチを提案する。
この手法は単純さとコスト効率が特徴である。
テストフェーズ中にローカライズするために単一のrgbイメージのみを利用し、複雑なスパースシーンをエンコードする軽量モデルのみを必要とする。
提案したD2Sは、単純な損失関数とグラフアテンションを組み合わせて、雲や木、いくつかの動的オブジェクトなどの領域を無視しながら、堅牢な記述子に選択的にフォーカスする。
この選択的な注意により、D2Sはスパースディスクリプタのバイナリ・セマンティック分類を効果的に行うことができる。
さらに,景観の一般化とラベルなし観察からの自己回復の観点から,視覚局所化手法の能力を評価するための新しい屋外データセットを提案する。
本手法は,屋内および屋外環境におけるシーン座標回帰における最先端CNN手法よりも優れる。
ラベル付きデータソースがなくても、昼から夜への移行やドメインシフトへの適応といったシナリオを含む、トレーニングデータを超えて一般化する能力を示している。
ソースコード、トレーニングされたモデル、データセット、デモビデオは以下のリンクで利用可能である。
関連論文リスト
- FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization [57.59857784298536]
直接2D-3Dマッチングアルゴリズムでは、メモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。
本研究では,2次元3次元探索フレームワーク内の重み付き平均演算子を用いて局所的およびグローバルな記述子を融合させることにより,この曖昧さに対処する。
ローカルのみのシステムの精度を常に改善し、メモリ要求を半減させながら階層的な手法に近い性能を達成する。
論文 参考訳(メタデータ) (2024-08-21T23:42:16Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - NeRF-Loc: Visual Localization with Conditional Neural Radiance Field [25.319374695362267]
暗黙の3次元記述子と変換器を用いた2次元画像との直接マッチングに基づく新しい視覚的再局在法を提案する。
実験により,本手法は,複数のベンチマークにおいて,他の学習手法よりも高い局所化精度を実現することが示された。
論文 参考訳(メタデータ) (2023-04-17T03:53:02Z) - A Unified BEV Model for Joint Learning of 3D Local Features and Overlap
Estimation [12.499361832561634]
本稿では,3次元局所特徴の同時学習と重なり推定のための統合鳥眼ビュー(BEV)モデルを提案する。
提案手法は,特に重複の少ないシーンにおいて,重複予測における既存手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-28T12:01:16Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。
本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。
提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文 参考訳(メタデータ) (2022-12-04T14:41:20Z) - SE(3)-Equivariant Attention Networks for Shape Reconstruction in
Function Space [50.14426188851305]
本稿では,第1のSE(3)-equivariant coordinate-based networkを提案する。
入力を正規格子に整列させる従来の形状再構成法とは対照的に、不規則で無向な点雲を直接操作する。
提案手法は,従来のSO(3)-equivariant法,およびSO(3)-augmented dataで訓練された非equivariant法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-05T17:59:15Z) - Distinctive 3D local deep descriptors [2.512827436728378]
ポイントクラウドパッチは抽出され、推定されたローカル参照フレームに対して正準化され、PointNetベースのディープニューラルネットワークによって符号化される。
我々は、異なるセンサを用いて再構成された点雲からなる複数のデータセットにおいて、DIPを、別の手作り、ディープディスクリプタと比較し、比較した。
論文 参考訳(メタデータ) (2020-09-01T06:25:06Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。