Fugu-MT 論文翻訳(概要): D2S: Representing local descriptors and global scene coordinates for camera relocalization

論文の概要: D2S: Representing local descriptors and global scene coordinates for camera relocalization

arxiv url: http://arxiv.org/abs/2307.15250v2
Date: Thu, 7 Dec 2023 13:00:57 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 18:37:31.704732
Title: D2S: Representing local descriptors and global scene coordinates for camera relocalization
Title（参考訳）: d2s: カメラ再ローカライズのためのローカルディスクリプタとグローバルシーン座標の表現
Authors: Bach-Thuan Bui, Dinh-Tuan Tran, and Joo-Ho Lee
Abstract要約: ローカル記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを利用する学習ベースアプローチを提案する。テスト段階では、単一のRGBイメージをローカライズにのみ利用し、複雑なスパースシーンをエンコードするための軽量モデルのみを必要とする。本手法は,屋内および屋外環境におけるシーン座標回帰における最先端CNN手法よりも優れる。
参考スコア（独自算出の注目度）: 1.417373050337415
License: http://creativecommons.org/licenses/by/4.0/
Abstract: State-of-the-art visual localization methods mostly rely on complex procedures to match local descriptors and 3D point clouds. However, these procedures can incur significant cost in terms of inference, storage, and updates over time. In this study, we propose a direct learning-based approach that utilizes a simple network named D2S to represent local descriptors and their scene coordinates. Our method is characterized by its simplicity and cost-effectiveness. It solely leverages a single RGB image for localization during the testing phase and only requires a lightweight model to encode a complex sparse scene. The proposed D2S employs a combination of a simple loss function and graph attention to selectively focus on robust descriptors while disregarding areas such as clouds, trees, and several dynamic objects. This selective attention enables D2S to effectively perform a binary-semantic classification for sparse descriptors. Additionally, we propose a new outdoor dataset to evaluate the capabilities of visual localization methods in terms of scene generalization and self-updating from unlabeled observations. Our approach outperforms the state-of-the-art CNN-based methods in scene coordinate regression in indoor and outdoor environments. It demonstrates the ability to generalize beyond training data, including scenarios involving transitions from day to night and adapting to domain shifts, even in the absence of the labeled data sources. The source code, trained models, dataset, and demo videos are available at the following link: https://thpjp.github.io/d2s
Abstract（参考訳）: 最先端のビジュアルローカライズ手法は主に、ローカルディスクリプタと3dポイントクラウドにマッチする複雑な手順に依存している。しかし、これらの手順は時間とともに推論、ストレージ、更新の点でかなりのコストを発生させる可能性がある。本研究では,ローカル記述子とそのシーン座標を表現するために,D2Sという単純なネットワークを用いた直接学習型アプローチを提案する。この手法は単純さとコスト効率が特徴である。テストフェーズ中にローカライズするために単一のrgbイメージのみを利用し、複雑なスパースシーンをエンコードする軽量モデルのみを必要とする。提案したD2Sは、単純な損失関数とグラフアテンションを組み合わせて、雲や木、いくつかの動的オブジェクトなどの領域を無視しながら、堅牢な記述子に選択的にフォーカスする。この選択的な注意により、D2Sはスパースディスクリプタのバイナリ・セマンティック分類を効果的に行うことができる。さらに,景観の一般化とラベルなし観察からの自己回復の観点から,視覚局所化手法の能力を評価するための新しい屋外データセットを提案する。本手法は,屋内および屋外環境におけるシーン座標回帰における最先端CNN手法よりも優れる。ラベル付きデータソースがなくても、昼から夜への移行やドメインシフトへの適応といったシナリオを含む、トレーニングデータを超えて一般化する能力を示している。ソースコード、トレーニングされたモデル、データセット、デモビデオは以下のリンクで利用可能である。

関連論文リスト

A-SCoRe: Attention-based Scene Coordinate Regression for wide-ranging scenarios [1.2093553114715083]
A-ScoReは、意味のある高セマンティックな2Dディスクリプタを生成するために、ディスクリプタマップレベルの注意を利用するアテンションベースのモデルである。その結果,本手法はより軽量でフレキシブルでありながら,複数のベンチマークでState-of-the-artメソッドに匹敵する性能を示した。
論文参考訳（メタデータ） (2025-03-18T07:39:50Z)
NeuraLoc: Visual Localization in Neural Implicit Map with Dual Complementary Features [50.212836834889146]
本稿では,補完的な特徴を持つニューラル暗黙マップに基づく,効率的で斬新な視覚的局所化手法を提案する。具体的には、幾何学的制約を強制し、ストレージ要件を小さくするために、3Dキーポイント記述子フィールドを暗黙的に学習する。記述子の意味的あいまいさにさらに対処するために、追加の意味的文脈的特徴体を導入する。
論文参考訳（メタデータ） (2025-03-08T08:04:27Z)
A2-GNN: Angle-Annular GNN for Visual Descriptor-free Camera Relocalization [8.881372153385028]
本稿では、ロバストな幾何学的構造表現を効率的に学習するシンプルなアプローチであるアングル・アンヌルグラフニューラルネットワーク(A2-GNN)を紹介する。提案手法は,視覚的記述自由手法の計算オーバーヘッドを低く抑えながら,最先端の精度を実現する。
論文参考訳（メタデータ） (2025-02-27T12:25:30Z)
FUSELOC: Fusing Global and Local Descriptors to Disambiguate 2D-3D Matching in Visual Localization [57.59857784298536]
直接2D-3Dマッチングアルゴリズムでは、メモリが大幅に削減されるが、より大きくあいまいな検索空間のために精度が低下する。本研究では,2次元3次元探索フレームワーク内の重み付き平均演算子を用いて局所的およびグローバルな記述子を融合させることにより,この曖昧さに対処する。ローカルのみのシステムの精度を常に改善し、メモリ要求を半減させながら階層的な手法に近い性能を達成する。
論文参考訳（メタデータ） (2024-08-21T23:42:16Z)
Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文参考訳（メタデータ） (2024-01-31T18:59:12Z)
ALSTER: A Local Spatio-Temporal Expert for Online 3D Semantic Reconstruction [62.599588577671796]
本稿では,RGB-Dフレームのストリームから3次元セマンティックマップを段階的に再構成するオンライン3次元セマンティックセマンティックセマンティクス手法を提案する。オフラインの手法とは異なり、ロボット工学や混合現実のようなリアルタイムな制約のあるシナリオに直接適用できます。
論文参考訳（メタデータ） (2023-11-29T20:30:18Z)
NeRF-Loc: Visual Localization with Conditional Neural Radiance Field [25.319374695362267]
暗黙の3次元記述子と変換器を用いた2次元画像との直接マッチングに基づく新しい視覚的再局在法を提案する。実験により,本手法は,複数のベンチマークにおいて,他の学習手法よりも高い局所化精度を実現することが示された。
論文参考訳（メタデータ） (2023-04-17T03:53:02Z)
A Unified BEV Model for Joint Learning of 3D Local Features and Overlap Estimation [12.499361832561634]
本稿では,3次元局所特徴の同時学習と重なり推定のための統合鳥眼ビュー(BEV)モデルを提案する。提案手法は,特に重複の少ないシーンにおいて,重複予測における既存手法よりも優れていた。
論文参考訳（メタデータ） (2023-02-28T12:01:16Z)
Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文参考訳（メタデータ） (2022-12-17T15:05:25Z)
Fast and Lightweight Scene Regressor for Camera Relocalization [1.6708069984516967]
プレビルドされた3Dモデルに対して直接カメラのポーズを推定することは、いくつかのアプリケーションにとって違法にコストがかかる可能性がある。本研究では,シーン座標のマッピングに多層パーセプトロンネットワークのみを必要とする簡易なシーン回帰手法を提案する。提案手法では,高密度のRGB画像ではなく,スパースディスクリプタを用いてシーン座標を回帰する。
論文参考訳（メタデータ） (2022-12-04T14:41:20Z)
SE(3)-Equivariant Attention Networks for Shape Reconstruction in Function Space [50.14426188851305]
本稿では,第1のSE(3)-equivariant coordinate-based networkを提案する。入力を正規格子に整列させる従来の形状再構成法とは対照的に、不規則で無向な点雲を直接操作する。提案手法は,従来のSO(3)-equivariant法,およびSO(3)-augmented dataで訓練された非equivariant法よりも優れていることを示す。
論文参考訳（メタデータ） (2022-04-05T17:59:15Z)
Distinctive 3D local deep descriptors [2.512827436728378]
ポイントクラウドパッチは抽出され、推定されたローカル参照フレームに対して正準化され、PointNetベースのディープニューラルネットワークによって符号化される。我々は、異なるセンサを用いて再構成された点雲からなる複数のデータセットにおいて、DIPを、別の手作り、ディープディスクリプタと比較し、比較した。
論文参考訳（メタデータ） (2020-09-01T06:25:06Z)
Self-supervised Video Representation Learning by Uncovering Spatio-temporal Statistics [74.6968179473212]
本稿では,自己指導型学習問題に対処する新しい前提課題を提案する。最大運動の空間的位置や支配的な方向など,分割的・時間的統計的な要約を連続して計算する。ビデオフレームを入力として与えられた統計的要約を得るために、ニューラルネットワークを構築して訓練する。
論文参考訳（メタデータ） (2020-08-31T08:31:56Z)
DH3D: Deep Hierarchical 3D Descriptors for Robust Large-Scale 6DoF Relocalization [56.15308829924527]
生の3D点から直接3次元特徴の検出と記述を共同で学習するシームズネットワークを提案する。 3次元キーポイントを検出するために,局所的な記述子の識別性を教師なしで予測する。各種ベンチマーク実験により,本手法はグローバルポイントクラウド検索とローカルポイントクラウド登録の両面で競合する結果が得られた。
論文参考訳（メタデータ） (2020-07-17T20:21:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。