論文の概要: Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization
- arxiv url: http://arxiv.org/abs/2009.07719v4
- Date: Thu, 14 Oct 2021 17:27:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 00:33:12.395935
- Title: Domain-invariant Similarity Activation Map Contrastive Learning for
Retrieval-based Long-term Visual Localization
- Title(参考訳): 検索に基づく長期視覚定位のためのドメイン不変類似性活性化マップコントラスト学習
- Authors: Hanjiang Hu, Hesheng Wang, Zhe Liu and Weidong Chen
- Abstract要約: 本研究では,多領域画像変換による領域不変特徴抽出のために,確率論的に一般アーキテクチャを定式化する。
そして、より精密な局所化のために、新しい勾配重み付き類似性活性化写像損失(Grad-SAM)を組み込んだ。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
我々の性能は、最先端のイメージベースのローカライゼーションベースラインを中あるいは高精度で上回るか、あるいは上回る。
- 参考スコア(独自算出の注目度): 30.203072945001136
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual localization is a crucial component in the application of mobile robot
and autonomous driving. Image retrieval is an efficient and effective technique
in image-based localization methods. Due to the drastic variability of
environmental conditions, e.g. illumination, seasonal and weather changes,
retrieval-based visual localization is severely affected and becomes a
challenging problem. In this work, a general architecture is first formulated
probabilistically to extract domain invariant feature through multi-domain
image translation. And then a novel gradient-weighted similarity activation
mapping loss (Grad-SAM) is incorporated for finer localization with high
accuracy. We also propose a new adaptive triplet loss to boost the contrastive
learning of the embedding in a self-supervised manner. The final coarse-to-fine
image retrieval pipeline is implemented as the sequential combination of models
without and with Grad-SAM loss. Extensive experiments have been conducted to
validate the effectiveness of the proposed approach on the CMUSeasons dataset.
The strong generalization ability of our approach is verified on RobotCar
dataset using models pre-trained on urban part of CMU-Seasons dataset. Our
performance is on par with or even outperforms the state-of-the-art image-based
localization baselines in medium or high precision, especially under the
challenging environments with illumination variance, vegetation and night-time
images. The code and pretrained models are available on
https://github.com/HanjiangHu/DISAM.
- Abstract(参考訳): 視覚局在は、移動ロボットと自律運転の応用において重要な要素である。
画像検索は画像ベースローカライゼーション手法において効率的かつ効果的な手法である。
照明, 季節変化, 気象変化などの環境条件の劇的な変動により, 検索に基づく視覚定位が著しく影響し, 課題となっている。
本研究では,まず一般アーキテクチャを確率的に定式化し,多領域画像変換による領域不変特徴を抽出する。
そして,新しい勾配重み付き類似度活性化マッピング損失 (grad-sam) を高精度で高精度な位置決めに組み込む。
また, 適応型三重項損失を新たに提案し, 自己教師方式で埋め込みの対照的な学習を促進する。
最終的な粗粒画像検索パイプラインは、grad-sam損失のないモデルの逐次結合として実装される。
CMUSeasonsデータセットにおける提案手法の有効性を検証するために大規模な実験が行われた。
CMU-Seasonsデータセットの都市部で事前学習したモデルを用いて,本手法の強力な一般化能力を検証する。
我々の性能は、特に照明のばらつき、植生、夜間のイメージを持つ困難な環境下で、最先端のイメージベースのローカライゼーションベースラインを中または高い精度で上回っている。
コードと事前訓練されたモデルはhttps://github.com/HanjiangHu/DISAM.comで入手できる。
関連論文リスト
- Deep Domain Adaptation: A Sim2Real Neural Approach for Improving Eye-Tracking Systems [80.62854148838359]
眼球画像のセグメンテーションは、最終視線推定に大きな影響を及ぼす眼球追跡の重要なステップである。
対象視線画像と合成訓練データとの重なり合いを測定するために,次元還元法を用いている。
提案手法は,シミュレーションと実世界のデータサンプルの相違に対処する際の頑健で,性能が向上する。
論文 参考訳(メタデータ) (2024-03-23T22:32:06Z) - DGNet: Dynamic Gradient-Guided Network for Water-Related Optics Image
Enhancement [77.0360085530701]
水中画像強調(UIE)は、水中環境によって引き起こされる複雑な劣化のために難しい課題である。
従来の手法では、劣化過程を理想化し、中音や物体の動きが画像の特徴の分布に与える影響を無視することが多い。
提案手法では,予測画像を用いて疑似ラベルを動的に更新し,動的勾配を加えてネットワークの勾配空間を最適化する。
論文 参考訳(メタデータ) (2023-12-12T06:07:21Z) - Learning Image Deraining Transformer Network with Dynamic Dual
Self-Attention [46.11162082219387]
本稿では,動的二重自己アテンション(DDSA)を用いた画像デコライニング変換器を提案する。
具体的には、トップk近似計算に基づいて、最も有用な類似度値のみを選択し、スパースアテンションを実現する。
また,高品質な定位結果を得るためのより正確な表現を実現するために,新しい空間拡張フィードフォワードネットワーク(SEFN)を開発した。
論文 参考訳(メタデータ) (2023-08-15T13:59:47Z) - Improving Transformer-based Image Matching by Cascaded Capturing
Spatially Informative Keypoints [44.90917854990362]
変換器を用いたカスケードマッチングモデル -- Cascade Feature Matching TRansformer (CasMTR) を提案する。
我々は、信頼性マップを通じてキーポイントをフィルタリングするために、単純で効果的な非最大抑圧(NMS)後処理を使用する。
CasMTRは、室内および屋外のポーズ推定および視覚的位置推定において最先端の性能を達成する。
論文 参考訳(メタデータ) (2023-03-06T04:32:34Z) - Towards Scale Consistent Monocular Visual Odometry by Learning from the
Virtual World [83.36195426897768]
仮想データから絶対スケールを取得するための新しいフレームワークであるVRVOを提案する。
まず、モノクロ実画像とステレオ仮想データの両方を用いて、スケール対応の異種ネットワークをトレーニングする。
結果として生じるスケール一貫性の相違は、直接VOシステムと統合される。
論文 参考訳(メタデータ) (2022-03-11T01:51:54Z) - Cycle and Semantic Consistent Adversarial Domain Adaptation for Reducing
Simulation-to-Real Domain Shift in LiDAR Bird's Eye View [110.83289076967895]
ドメイン適応プロセス中に関心のある小さなオブジェクトの情報を保存するために,事前の意味分類を用いたサイクガンに基づくbevドメイン適応法を提案する。
生成したBEVの品質は,KITTI 3D Object Detection Benchmarkの最先端3Dオブジェクト検出フレームワークを用いて評価されている。
論文 参考訳(メタデータ) (2021-04-22T12:47:37Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - DASGIL: Domain Adaptation for Semantic and Geometric-aware Image-based
Localization [27.294822556484345]
環境変化下での視覚的長期化は、自律走行と移動ロボット工学において難しい問題である。
視覚的位置認識のための多スケール潜在埋め込み表現に幾何学的および意味的情報を融合する新しいマルチタスクアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-10-01T17:44:25Z) - Improving Learning Effectiveness For Object Detection and Classification
in Cluttered Backgrounds [6.729108277517129]
本稿では,異種乱雑な背景の学習データセットを自律的に生成するフレームワークを開発する。
提案するフレームワークの学習効率は,複雑で異種な環境で改善されるべきである。
提案フレームワークの性能を実証実験により検討し,COCOデータセットを用いてトレーニングしたモデルと比較した。
論文 参考訳(メタデータ) (2020-02-27T22:28:48Z) - Image Fine-grained Inpainting [89.17316318927621]
拡張畳み込みの密結合を利用してより大きく効果的な受容場を得る一段階モデルを提案する。
この効率的なジェネレータをよく訓練するために、頻繁に使用されるVGG特徴整合損失を除いて、新しい自己誘導回帰損失を設計する。
また、局所的・グローバルな分枝を持つ識別器を用いて、局所的・グローバルな内容の整合性を確保する。
論文 参考訳(メタデータ) (2020-02-07T03:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。