論文の概要: Semantic Pose Verification for Outdoor Visual Localization with
Self-supervised Contrastive Learning
- arxiv url: http://arxiv.org/abs/2203.16945v1
- Date: Thu, 31 Mar 2022 11:09:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 00:39:59.391706
- Title: Semantic Pose Verification for Outdoor Visual Localization with
Self-supervised Contrastive Learning
- Title(参考訳): 自己教師型コントラスト学習による屋外視覚位置のセマンティック・ポース検証
- Authors: Semih Orhan, Jose J. Guerrero, Yalin Bastanlar
- Abstract要約: 我々は視覚的ローカライゼーションを改善するためにセマンティックコンテンツを利用する。
このシナリオでは、データベースはパノラマ画像から生成されたグノーモニックビューで構成されている。
我々は、セグメンテーションされた画像のデータセット上で、コントラスト学習を行い、自己教師型でCNNを訓練する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Any city-scale visual localization system has to overcome long-term
appearance changes, such as varying illumination conditions or seasonal changes
between query and database images. Since semantic content is more robust to
such changes, we exploit semantic information to improve visual localization.
In our scenario, the database consists of gnomonic views generated from
panoramic images (e.g. Google Street View) and query images are collected with
a standard field-of-view camera at a different time. To improve localization,
we check the semantic similarity between query and database images, which is
not trivial since the position and viewpoint of the cameras do not exactly
match. To learn similarity, we propose training a CNN in a self-supervised
fashion with contrastive learning on a dataset of semantically segmented
images. With experiments we showed that this semantic similarity estimation
approach works better than measuring the similarity at pixel-level. Finally, we
used the semantic similarity scores to verify the retrievals obtained by a
state-of-the-art visual localization method and observed that contrastive
learning-based pose verification increases top-1 recall value to 0.90 which
corresponds to a 2% improvement.
- Abstract(参考訳): 都市規模の視覚的ローカライズシステムは、照明条件の変更やクエリとデータベースイメージの季節的変化など、長期的な外観変化を克服しなければならない。
このような変化に対してセマンティックコンテンツはより堅牢であるため、視覚的ローカライゼーションを改善するためにセマンティック情報を利用する。
このシナリオでは、データベースはパノラマ画像(googleストリートビューなど)から生成されたグノモニックビューからなり、クエリ画像は標準のフィールドオブビューカメラで異なるタイミングで収集される。
ローカライゼーションを改善するために,カメラの位置や視点が正確に一致しないため,クエリとデータベース画像のセマンティックな類似性を確認する。
類似性を学ぶために,semantically segmented imagesのデータセット上でコントラスト学習を行い,自己教師付きでcnnを訓練することを提案する。
実験により, この意味的類似度推定手法は画素レベルでの類似度を測定するよりも有効であることがわかった。
最後に,その意味的類似度スコアを用いて,最先端の視覚的ローカライゼーション手法によって得られた検索を検証し,コントラスト学習に基づくポーズ検証が,2%の改善に対応するトップ1リコール値を0.90に向上させることを示した。
関連論文リスト
- Breaking the Frame: Visual Place Recognition by Overlap Prediction [53.17564423756082]
本稿では,重なり合う予測に基づく新しい視覚的位置認識手法 VOP を提案する。
VOPは、Vision Transformerのバックボーンを使用してパッチレベルの埋め込みを取得することで、コビジュアブルなイメージセクションを進める。
提案手法では,データベース画像の重複点の評価に投票機構を用いる。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Visual-Text Cross Alignment: Refining the Similarity Score in Vision-Language Models [21.17975741743583]
近年、CLIP(CLIP)のような事前訓練された視覚言語モデル(VLM)を用いて、クエリイメージ全体をより細かいテキスト記述と整合させることで、ゼロショットのパフォーマンスを著しく向上させることが発見されている。
本稿では, より詳細な記述は, 画像全体よりも, クエリ画像の局所的な領域とより効果的に整合する傾向があることを実証的に見出した。
論文 参考訳(メタデータ) (2024-06-05T04:08:41Z) - Investigating the Role of Image Retrieval for Visual Localization -- An
exhaustive benchmark [46.166955777187816]
本稿では,複数の視覚的ローカライゼーションパラダイムにおける画像検索の役割を理解することに焦点を当てる。
本稿では、新しいベンチマーク設定を導入し、複数のデータセットにおける最先端の検索表現を比較した。
これらのツールと奥行き分析を用いて、古典的ランドマーク検索や位置認識タスクにおける検索性能は、ローカライズ性能に限らず、すべてのパラダイムで相関していることを示す。
論文 参考訳(メタデータ) (2022-05-31T12:59:01Z) - ImPosIng: Implicit Pose Encoding for Efficient Camera Pose Estimation [2.6808541153140077]
暗黙の詩。
(ImPosing)はイメージとカメラのポーズを2つの別々のニューラルネットワークで共通の潜在表現に埋め込む。
階層的な方法で潜在空間を通して候補を評価することにより、カメラの位置と向きを直接回帰するのではなく、洗練する。
論文 参考訳(メタデータ) (2022-05-05T13:33:25Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Adversarial Transfer of Pose Estimation Regression [11.117357750374035]
本研究では,シーン不変の画像表現を学習するための深層適応ネットワークを開発し,モデル転送のための表現を生成する。
我々は、Cambridge Landmarksと7Sceneの2つの公開データセット上でネットワークを評価し、いくつかのベースラインよりもその優位性を実証し、アート手法の状況と比較した。
論文 参考訳(メタデータ) (2020-06-20T21:16:37Z) - Distilling Localization for Self-Supervised Representation Learning [82.79808902674282]
コントラスト学習は教師なし表現学習に革命をもたらした。
現在のコントラストモデルでは、前景オブジェクトのローカライズには効果がない。
本稿では,背景変化を学習するためのデータ駆動型手法を提案する。
論文 参考訳(メタデータ) (2020-04-14T16:29:42Z) - Geometrically Mappable Image Features [85.81073893916414]
地図内のエージェントの視覚に基づくローカライゼーションは、ロボット工学とコンピュータビジョンにおいて重要な問題である。
本稿では,画像検索を対象とした画像特徴学習手法を提案する。
論文 参考訳(メタデータ) (2020-03-21T15:36:38Z) - Adaptive Semantic-Visual Tree for Hierarchical Embeddings [67.01307058209709]
本稿では,商品カテゴリのアーキテクチャを記述するために,階層型適応型セマンティックビジュアルツリーを提案する。
この木は、異なる意味レベルと同じ意味クラス内の視覚的類似度を同時に評価する。
各レベルにおいて、セマンティック階層に基づいて異なるマージンを設定し、それらを事前情報として組み込んで、きめ細かい機能埋め込みを学習する。
論文 参考訳(メタデータ) (2020-03-08T03:36:42Z) - Learning to Compare Relation: Semantic Alignment for Few-Shot Learning [48.463122399494175]
本稿では,コンテンツアライメントに頑健な関係を比較するための新しいセマンティックアライメントモデルを提案する。
数ショットの学習データセットについて広範な実験を行う。
論文 参考訳(メタデータ) (2020-02-29T08:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。