論文の概要: Self-Supervised Visual Place Recognition by Mining Temporal and Feature
Neighborhoods
- arxiv url: http://arxiv.org/abs/2208.09315v1
- Date: Fri, 19 Aug 2022 12:59:46 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-22 17:11:28.264243
- Title: Self-Supervised Visual Place Recognition by Mining Temporal and Feature
Neighborhoods
- Title(参考訳): 時間と特徴を考慮した自己監督型視覚的位置認識
- Authors: Chao Chen, Xinhao Liu, Xuchu Xu, Yiming Li, Li Ding, Ruoyu Wang, and
Chen Feng
- Abstract要約: 時空間近傍と学習可能な特徴近傍を用いて未知空間近傍を探索するtextitTF-VPR という新しいフレームワークを提案する。
提案手法は,(1)データ拡張による表現学習,(2)現在の特徴空間を含む正の集合拡大,(3)幾何的検証による正の集合収縮を交互に行う。
- 参考スコア(独自算出の注目度): 17.852415436033436
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Visual place recognition (VPR) using deep networks has achieved
state-of-the-art performance. However, most of them require a training set with
ground truth sensor poses to obtain positive and negative samples of each
observation's spatial neighborhood for supervised learning. When such
information is unavailable, temporal neighborhoods from a sequentially
collected data stream could be exploited for self-supervised training, although
we find its performance suboptimal. Inspired by noisy label learning, we
propose a novel self-supervised framework named \textit{TF-VPR} that uses
temporal neighborhoods and learnable feature neighborhoods to discover unknown
spatial neighborhoods. Our method follows an iterative training paradigm which
alternates between: (1) representation learning with data augmentation, (2)
positive set expansion to include the current feature space neighbors, and (3)
positive set contraction via geometric verification. We conduct comprehensive
experiments on both simulated and real datasets, with either RGB images or
point clouds as inputs. The results show that our method outperforms our
baselines in recall rate, robustness, and heading diversity, a novel metric we
propose for VPR. Our code and datasets can be found at
https://ai4ce.github.io/TF-VPR/.
- Abstract(参考訳): ディープネットワークを用いた視覚的位置認識(VPR)は最先端の性能を達成した。
しかし、そのほとんどは、各観測所の空間的近傍の正と負のサンプルを得るために、地上の真実センサーを用いた訓練セットを必要とする。
このような情報が利用できない場合、シーケンシャルに収集されたデータストリームからの時間的近傍を自己教師付きトレーニングに活用することができる。
そこで我々は,時間的近傍と学習可能な特徴地区を用いて未知の空間近傍を発見する,新しい自己教師型フレームワーク「textit{TF-VPR}」を提案する。
本手法は,(1)データ拡張による表現学習,(2)現在の特徴空間を含む正集合展開,(3)幾何学的検証による正集合縮小を交互に行う反復学習パラダイムに従う。
我々は、RGB画像または点雲を入力として、シミュレーションと実データの両方で包括的な実験を行う。
その結果,本手法は,VPRに提案する新たな指標であるリコール率,ロバスト性,方向多様性において,ベースラインよりも優れていた。
コードとデータセットはhttps://ai4ce.github.io/TF-VPR/で確認できます。
関連論文リスト
- Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - AANet: Aggregation and Alignment Network with Semi-hard Positive Sample
Mining for Hierarchical Place Recognition [48.043749855085025]
視覚的位置認識(VPR)はロボット工学におけるホットスポットの一つで、視覚情報を用いてロボットの位置を特定する。
本稿では,アグリゲーションモジュールを介して候補を検索するためのグローバルな特徴を抽出できる統一ネットワークを提案する。
また、より堅牢なVPRネットワークをトレーニングするために、適切なハード正のイメージを選択するためのセミハード正のサンプルマイニング(ShPSM)戦略を提案する。
論文 参考訳(メタデータ) (2023-10-08T14:46:11Z) - Enhancing Self-Supervised Learning for Remote Sensing with Elevation
Data: A Case Study with Scarce And High Level Semantic Labels [1.534667887016089]
本研究は、地球観測下流タスクに適用された事前学習モデルに対する、教師なしと教師なしのハイブリッド学習手法を提案する。
我々は、事前訓練モデルに対する対照的なアプローチと画素単位の回帰事前テキストタスクを組み合わせることで、粗い標高マップを予測する。
論文 参考訳(メタデータ) (2023-04-13T23:01:11Z) - Deepfake Detection via Joint Unsupervised Reconstruction and Supervised
Classification [25.84902508816679]
本稿では,再建作業と分類作業を同時に行うディープフェイク検出手法を提案する。
この方法は、あるタスクによって学習された情報を他のタスクと共有する。
提案手法は,一般的に使用されている3つのデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T05:44:26Z) - Pretraining the Vision Transformer using self-supervised methods for
vision based Deep Reinforcement Learning [0.0]
いくつかの最先端の自己教師型手法を用いて視覚変換器の事前学習を行い、学習した表現の質を評価する。
その結果,すべての手法が有用な表現を学習し,表現の崩壊を避けるのに有効であることが示唆された。
時間順序検証タスクで事前訓練されたエンコーダは、すべての実験で最高の結果を示す。
論文 参考訳(メタデータ) (2022-09-22T10:18:59Z) - Revisiting Contrastive Methods for Unsupervised Learning of Visual
Representations [78.12377360145078]
対照的な自己教師型学習は、セグメンテーションやオブジェクト検出といった多くの下流タスクにおいて教師付き事前訓練よりも優れています。
本稿では,データセットのバイアスが既存手法にどのように影響するかを最初に検討する。
現在のコントラストアプローチは、(i)オブジェクト中心対シーン中心、(ii)一様対ロングテール、(iii)一般対ドメイン固有データセットなど、驚くほどうまく機能することを示す。
論文 参考訳(メタデータ) (2021-06-10T17:59:13Z) - TraND: Transferable Neighborhood Discovery for Unsupervised Cross-domain
Gait Recognition [77.77786072373942]
本稿では、教師なしクロスドメイン歩行認識のための領域ギャップを橋渡しするTransferable Neighborhood Discovery (TraND) フレームワークを提案する。
我々は、潜在空間におけるラベルなしサンプルの自信ある近傍を自動的に発見するために、エンドツーエンドのトレーニング可能なアプローチを設計する。
提案手法は,CASIA-BとOU-LPの2つの公開データセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-02-09T03:07:07Z) - Learning Invariant Representations for Reinforcement Learning without
Reconstruction [98.33235415273562]
本研究では,表現学習が画像などのリッチな観察からの強化学習を,ドメイン知識や画素再構成に頼ることなく促進する方法について検討する。
シミュレーションメトリクスは、連続MDPの状態間の振る舞いの類似性を定量化する。
修正された視覚的 MuJoCo タスクを用いてタスク関連情報を無視する手法の有効性を実証する。
論文 参考訳(メタデータ) (2020-06-18T17:59:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。