論文の概要: D2S: Representing local descriptors and global scene coordinates for
camera relocalization
- arxiv url: http://arxiv.org/abs/2307.15250v2
- Date: Thu, 7 Dec 2023 13:00:57 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 18:37:31.704732
- Title: D2S: Representing local descriptors and global scene coordinates for
camera relocalization
- Title(参考訳): d2s: カメラ再ローカライズのためのローカルディスクリプタとグローバルシーン座標の表現
- Authors: Bach-Thuan Bui, Dinh-Tuan Tran, and Joo-Ho Lee
- Abstract要約: ローカル記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを利用する学習ベースアプローチを提案する。
テスト段階では、単一のRGBイメージをローカライズにのみ利用し、複雑なスパースシーンをエンコードするための軽量モデルのみを必要とする。
本手法は,屋内および屋外環境におけるシーン座標回帰における最先端CNN手法よりも優れる。
- 参考スコア(独自算出の注目度): 1.417373050337415
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-of-the-art visual localization methods mostly rely on complex
procedures to match local descriptors and 3D point clouds. However, these
procedures can incur significant cost in terms of inference, storage, and
updates over time. In this study, we propose a direct learning-based approach
that utilizes a simple network named D2S to represent local descriptors and
their scene coordinates. Our method is characterized by its simplicity and
cost-effectiveness. It solely leverages a single RGB image for localization
during the testing phase and only requires a lightweight model to encode a
complex sparse scene. The proposed D2S employs a combination of a simple loss
function and graph attention to selectively focus on robust descriptors while
disregarding areas such as clouds, trees, and several dynamic objects. This
selective attention enables D2S to effectively perform a binary-semantic
classification for sparse descriptors. Additionally, we propose a new outdoor
dataset to evaluate the capabilities of visual localization methods in terms of
scene generalization and self-updating from unlabeled observations. Our
approach outperforms the state-of-the-art CNN-based methods in scene coordinate
regression in indoor and outdoor environments. It demonstrates the ability to
generalize beyond training data, including scenarios involving transitions from
day to night and adapting to domain shifts, even in the absence of the labeled
data sources. The source code, trained models, dataset, and demo videos are
available at the following link: https://thpjp.github.io/d2s
- Abstract(参考訳): 最先端のビジュアルローカライズ手法は主に、ローカルディスクリプタと3dポイントクラウドにマッチする複雑な手順に依存している。
しかし、これらの手順は時間とともに推論、ストレージ、更新の点でかなりのコストを発生させる可能性がある。
本研究では,ローカル記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを用いた直接学習型アプローチを提案する。
この手法は単純さとコスト効率が特徴である。
テストフェーズ中にローカライズするために単一のrgbイメージのみを利用し、複雑なスパースシーンをエンコードする軽量モデルのみを必要とする。
提案したD2Sは、単純な損失関数とグラフアテンションを組み合わせて、雲や木、いくつかの動的オブジェクトなどの領域を無視しながら、堅牢な記述子に選択的にフォーカスする。
この選択的な注意により、D2Sはスパースディスクリプタのバイナリ・セマンティック分類を効果的に行うことができる。
さらに,景観の一般化とラベルなし観察からの自己回復の観点から,視覚局所化手法の能力を評価するための新しい屋外データセットを提案する。
本手法は,屋内および屋外環境におけるシーン座標回帰における最先端CNN手法よりも優れる。
ラベル付きデータソースがなくても、昼から夜への移行やドメインシフトへの適応といったシナリオを含む、トレーニングデータを超えて一般化する能力を示している。
ソースコード、トレーニングされたモデル、データセット、デモビデオは以下のリンクで利用可能である。
関連論文リスト
- Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic
Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。
オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文 参考訳(メタデータ) (2023-11-29T20:30:18Z) - SACReg: Scene-Agnostic Coordinate Regression for Visual Localization [16.866303169903237]
本稿では,新しいテストシーンで1回トレーニングされた一般化SCRモデルを提案する。
我々のモデルは、シーン座標をネットワーク重みに符号化する代わりに、スパース2Dピクセルのデータベースイメージを3D座標アノテーションに入力する。
画像のデータベース表現とその2D-3Dアノテーションは,局所化性能を損なうことなく,高度に圧縮できることを示す。
論文 参考訳(メタデータ) (2023-07-21T16:56:36Z) - NeRF-Loc: Visual Localization with Conditional Neural Radiance Field [25.319374695362267]
暗黙の3次元記述子と変換器を用いた2次元画像との直接マッチングに基づく新しい視覚的再局在法を提案する。
実験により,本手法は,複数のベンチマークにおいて,他の学習手法よりも高い局所化精度を実現することが示された。
論文 参考訳(メタデータ) (2023-04-17T03:53:02Z) - iSDF: Real-Time Neural Signed Distance Fields for Robot Perception [64.80458128766254]
iSDFは実時間符号付き距離場再構成のための連続学習システムである。
より正確な再構築と、衝突コストと勾配のより良い近似を生成する。
論文 参考訳(メタデータ) (2022-04-05T15:48:39Z) - Viewpoint Invariant Dense Matching for Visual Geolocalization [15.8038460597256]
本研究では,局所的特徴量に基づく画像マッチング手法を提案する。
我々の手法はGeoWarpと呼ばれ、高密度な特徴を抽出する過程において、視点シフトへの不変性を直接埋め込む。
GeoWarpは、既存の視覚的ジオローカライゼーションパイプラインに簡単に組み込むことができる、リグレードメソッドとして効率的に実装されている。
論文 参考訳(メタデータ) (2021-09-20T20:17:38Z) - Video-based Person Re-identification without Bells and Whistles [49.51670583977911]
ビデオベースの人物再識別(Re-ID)は、異なるカメラの下で歩行者を特定するために、ビデオトラッカーとトリミングされたビデオフレームをマッチングすることを目的としている。
従来の方法による不完全な検出と追跡の結果から, 収穫したトラックレットの空間的, 時間的不整合が生じている。
本稿では,深層学習に基づくトラックレットの検出と追跡を適用することで,これらの予期せぬノイズを効果的に低減できる簡易な再検出リンク(DL)モジュールを提案する。
論文 参考訳(メタデータ) (2021-05-22T10:17:38Z) - Distinctive 3D local deep descriptors [2.512827436728378]
ポイントクラウドパッチは抽出され、推定されたローカル参照フレームに対して正準化され、PointNetベースのディープニューラルネットワークによって符号化される。
我々は、異なるセンサを用いて再構成された点雲からなる複数のデータセットにおいて、DIPを、別の手作り、ディープディスクリプタと比較し、比較した。
論文 参考訳(メタデータ) (2020-09-01T06:25:06Z) - Self-supervised Video Representation Learning by Uncovering
Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。
最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。
ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文 参考訳(メタデータ) (2020-08-31T08:31:56Z) - Zero-Shot Multi-View Indoor Localization via Graph Location Networks [66.05980368549928]
屋内ローカライゼーションは、位置ベースアプリケーションにおける基本的な問題である。
本稿では,インフラストラクチャフリーで多視点画像に基づく屋内ローカライゼーションを実現するために,新しいニューラルネットワークアーキテクチャであるGraph Location Networks(GLN)を提案する。
GLNは、メッセージパッシングネットワークを通じて画像から抽出されたロバストな位置表現に基づいて位置予測を行う。
新たにゼロショット屋内ローカライズ設定を導入し,提案したGLNを専用ゼロショットバージョンに拡張することで,その課題に対処する。
論文 参考訳(メタデータ) (2020-08-06T07:36:55Z) - DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF
Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。
3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。
各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文 参考訳(メタデータ) (2020-07-17T20:21:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。