論文の概要: Visual Localization via Few-Shot Scene Region Classification
- arxiv url: http://arxiv.org/abs/2208.06933v1
- Date: Sun, 14 Aug 2022 22:39:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-16 13:56:28.556447
- Title: Visual Localization via Few-Shot Scene Region Classification
- Title(参考訳): マイトショットシーン領域分類による視覚定位
- Authors: Siyan Dong, Shuzhe Wang, Yixin Zhuang, Juho Kannala, Marc Pollefeys,
Baoquan Chen
- Abstract要約: ビジュアル(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoFカメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングを記憶することで,この問題を解決する。
シーン領域の分類手法を提案する。
- 参考スコア(独自算出の注目度): 84.34083435501094
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual (re)localization addresses the problem of estimating the 6-DoF (Degree
of Freedom) camera pose of a query image captured in a known scene, which is a
key building block of many computer vision and robotics applications. Recent
advances in structure-based localization solve this problem by memorizing the
mapping from image pixels to scene coordinates with neural networks to build
2D-3D correspondences for camera pose optimization. However, such memorization
requires training by amounts of posed images in each scene, which is heavy and
inefficient. On the contrary, few-shot images are usually sufficient to cover
the main regions of a scene for a human operator to perform visual
localization. In this paper, we propose a scene region classification approach
to achieve fast and effective scene memorization with few-shot images. Our
insight is leveraging a) pre-learned feature extractor, b) scene region
classifier, and c) meta-learning strategy to accelerate training while
mitigating overfitting. We evaluate our method on both indoor and outdoor
benchmarks. The experiments validate the effectiveness of our method in the
few-shot setting, and the training time is significantly reduced to only a few
minutes. Code available at: \url{https://github.com/siyandong/SRC}
- Abstract(参考訳): 視覚(再)ローカライゼーションは、既知のシーンでキャプチャされたクエリイメージの6-DoF(Degree of Freedom)カメラのポーズを推定する問題に対処する。
画像画素からシーン座標へのマッピングをニューラルネットワークで記憶し、カメラポーズ最適化のための2d-3d対応を構築することで、構造に基づく局所化の最近の進歩が解決されている。
しかし、このような暗記には各シーンで大量のポーズ画像による訓練が必要であり、それは重く非効率である。
逆に、少数ショット画像は通常、人間の操作者が視覚的ローカライゼーションを行うためにシーンのメイン領域をカバーするのに十分である。
本稿では,シーン領域の分類手法を提案する。
私たちの洞察は
a)事前学習された特徴抽出装置
b)シーン領域分類器,及び
c)オーバーフィッティングを緩和しながらトレーニングを加速するメタラーニング戦略。
本手法は室内および屋外のベンチマークで評価する。
実験では, 数発設定で本手法の有効性を検証し, トレーニング時間を数分に短縮した。
コード: \url{https://github.com/siyandong/SRC}
関連論文リスト
- Self-supervised Learning of Neural Implicit Feature Fields for Camera Pose Refinement [32.335953514942474]
本稿では,3次元の高密度特徴場と2次元の特徴抽出器を併用してシーン表現を共同学習することを提案する。
暗黙の場に符号化された中間的幾何情報を活用するために、ボリュームレンダリングを通してシーンの基盤となる幾何学を学習し、特徴体を設計する。
次に、画像ベースの機能とレンダリングされたボリューム機能を調整することで、視覚的なローカライゼーションを実現する。
論文 参考訳(メタデータ) (2024-06-12T17:51:53Z) - Improved Scene Landmark Detection for Camera Localization [11.56648898250606]
シーンランドマーク検出(SLD)に基づく手法が近年提案されている。
畳み込みニューラルネットワーク(CNN)をトレーニングして、所定の、健全でシーン固有の3Dポイントやランドマークを検出する。
トレーニング中はモデル容量とノイズラベルが不足していたため,精度の差がみられた。
論文 参考訳(メタデータ) (2024-01-31T18:59:12Z) - Lazy Visual Localization via Motion Averaging [89.8709956317671]
本研究では,データベースからシーンを再構築することなく,高精度なローカライゼーションを実現することができることを示す。
実験の結果、我々の視覚的ローカライゼーションの提案であるLazyLocは、最先端の構造に基づく手法に対して同等のパフォーマンスを実現していることがわかった。
論文 参考訳(メタデータ) (2023-07-19T13:40:45Z) - PixSelect: Less but Reliable Pixels for Accurate and Efficient
Localization [0.0]
与えられた環境下での1枚のRGB画像からグローバル6DFカメラのポーズを推定する問題に対処する。
私たちの研究は、Cambridge Landmarksデータセットの最先端の手法を超えています。
論文 参考訳(メタデータ) (2022-06-08T09:46:03Z) - Continual Learning for Image-Based Camera Localization [14.47046413243358]
連続学習環境における視覚的局所化の問題について検討する。
以上の結果から,非定常データも分類領域と同様,深層ネットワークにおいて視覚的局所化のための破滅的な忘れを生じさせることが示された。
本稿では,バッファリングプロセスにおける既存のサンプリング戦略を視覚的ローカライゼーションの問題に適応させる,カバレッジスコア(Buff-CS)に基づく新しいサンプリング手法を提案する。
論文 参考訳(メタデータ) (2021-08-20T11:18:05Z) - VS-Net: Voting with Segmentation for Visual Localization [72.8165619061249]
本稿では,クエリ画像と3Dマップ間の2次元から3次元の対応を学習可能なシーン固有のランドマークで構築する,新しい視覚的ローカライゼーションフレームワークを提案する。
提案したVS-Netは、複数の公開ベンチマークで広範囲にテストされており、最先端のビジュアルローカライゼーション手法より優れている。
論文 参考訳(メタデータ) (2021-05-23T08:44:11Z) - Learning Camera Localization via Dense Scene Matching [45.0957383562443]
カメラローカライゼーションは、rgb画像から6つのdofカメラポーズを推定することを目的としている。
最近の学習に基づくアプローチは、構造を特定の畳み込みニューラルネットワーク(CNN)にエンコードする
濃密マッチング(DSM)を用いた新しいカメラローカライズ手法を提案する。
論文 参考訳(メタデータ) (2021-03-31T03:47:42Z) - Back to the Feature: Learning Robust Camera Localization from Pixels to
Pose [114.89389528198738]
画像と3Dモデルから正確な6-DoFのポーズを推定するシーンに依存しないニューラルネットワークPixLocを導入する。
このシステムは、粗いポーズ前の大きな環境でもローカライズできるが、スパース特徴マッチングの精度も向上する。
論文 参考訳(メタデータ) (2021-03-16T17:40:12Z) - TSP: Temporally-Sensitive Pretraining of Video Encoders for Localization
Tasks [79.01176229586855]
本稿では,背景クリップとグローバルビデオ情報を考慮した時間感度向上のための教師付き事前学習パラダイムを提案する。
大規模実験により,新しい事前学習戦略で訓練した特徴を用いることで,最近の3つの課題における最先端手法の性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2020-11-23T15:40:15Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。