論文の概要: VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2403.09025v1
- Date: Thu, 14 Mar 2024 01:30:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-15 22:07:16.909628
- Title: VDNA-PR: Using General Dataset Representations for Robust Sequential Visual Place Recognition
- Title(参考訳): VDNA-PR:ロバストな逐次視覚位置認識のための汎用データセット表現
- Authors: Benjamin Ramtoula, Daniele De Martini, Matthew Gadd, Paul Newman,
- Abstract要約: 本稿では、汎用データセット表現技術を用いて、堅牢な視覚的位置認識(VPR)記述子を生成する。
我々の実験は、我々の表現が、トレーニングデータ分布から真剣なドメインシフトへの現在の解決策よりも堅牢性を高めることができることを示している。
- 参考スコア(独自算出の注目度): 17.393105901701098
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper adapts a general dataset representation technique to produce robust Visual Place Recognition (VPR) descriptors, crucial to enable real-world mobile robot localisation. Two parallel lines of work on VPR have shown, on one side, that general-purpose off-the-shelf feature representations can provide robustness to domain shifts, and, on the other, that fused information from sequences of images improves performance. In our recent work on measuring domain gaps between image datasets, we proposed a Visual Distribution of Neuron Activations (VDNA) representation to represent datasets of images. This representation can naturally handle image sequences and provides a general and granular feature representation derived from a general-purpose model. Moreover, our representation is based on tracking neuron activation values over the list of images to represent and is not limited to a particular neural network layer, therefore having access to high- and low-level concepts. This work shows how VDNAs can be used for VPR by learning a very lightweight and simple encoder to generate task-specific descriptors. Our experiments show that our representation can allow for better robustness than current solutions to serious domain shifts away from the training data distribution, such as to indoor environments and aerial imagery.
- Abstract(参考訳): 本稿では,実世界の移動ロボットのローカライゼーションを実現するために重要な,ロバストなビジュアルプレース認識(VPR)記述子を生成するために,汎用的なデータセット表現手法を適用する。
VPR上での2つの並列処理は、汎用的なオフザシェルフ特徴表現がドメインシフトに堅牢性をもたらすことを示し、他方では、画像列から融合した情報が性能を向上させることを示している。
画像データセット間の領域ギャップを測定するための最近の研究で、画像のデータセットを表現するために、視覚的ニューロン活性化分布(VDNA)表現を提案した。
この表現は自然に画像列を処理でき、汎用モデルから派生した汎用的および粒度の特徴表現を提供する。
さらに、この表現は、特定のニューラルネットワーク層に制限されない画像のリスト上でニューロンの活性化値を追跡することにより、高レベルおよび低レベルの概念へのアクセスを可能にする。
この研究は、タスク固有の記述子を生成するために非常に軽量でシンプルなエンコーダを学習することで、VPRにVDNAをどのように使用できるかを示す。
実験の結果,我々の表現は,屋内環境や空中画像などのトレーニングデータ分布から,現在の領域シフトに対する解よりも堅牢性が高いことがわかった。
関連論文リスト
- Breaking the Frame: Image Retrieval by Visual Overlap Prediction [53.17564423756082]
本稿では,隠蔽や複雑なシーンを効果的に扱う新しい視覚的位置認識手法,VOPを提案する。
提案手法は,高コストな特徴検出とマッチングを必要とせず,可視画像区間の識別を可能にする。
論文 参考訳(メタデータ) (2024-06-23T20:00:20Z) - Efficient Visual State Space Model for Image Deblurring [83.57239834238035]
畳み込みニューラルネットワーク(CNN)とビジョントランスフォーマー(ViT)は、画像復元において優れた性能を発揮している。
本稿では,画像のデブロアに対する簡易かつ効果的な視覚状態空間モデル(EVSSM)を提案する。
論文 参考訳(メタデータ) (2024-05-23T09:13:36Z) - Collaborative Visual Place Recognition through Federated Learning [5.06570397863116]
視覚的位置認識(VPR)は、画像の位置を検索問題として扱うことで、画像の位置を推定することを目的としている。
VPRはジオタグ付き画像のデータベースを使用し、ディープニューラルネットワークを活用して、各画像からデクリプタと呼ばれるグローバル表現を抽出する。
本研究は,フェデレートラーニング(FL)のレンズを通してVPRの課題を再考し,この適応に関連するいくつかの重要な課題に対処する。
論文 参考訳(メタデータ) (2024-04-20T08:48:37Z) - Neural Clustering based Visual Representation Learning [61.72646814537163]
クラスタリングは、機械学習とデータ分析における最も古典的なアプローチの1つである。
本稿では,特徴抽出をデータから代表者を選択するプロセスとみなすクラスタリング(FEC)による特徴抽出を提案する。
FECは、個々のクラスタにピクセルをグループ化して抽象的な代表を配置し、現在の代表とピクセルの深い特徴を更新する。
論文 参考訳(メタデータ) (2024-03-26T06:04:50Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - Adaptive Generation of Privileged Intermediate Information for
Visible-Infrared Person Re-Identification [11.93952924941977]
本稿では,Privileged Intermediate Information Trainingアプローチの適応生成について紹介する。
AGPI2は、VとIのモダリティ間で識別情報をブリッジする仮想ドメインを適応して生成するために導入された。
V-I ReIDを用いた実験の結果,AGPI2は余分な計算資源を使わずにマッチング精度を向上させることが示唆された。
論文 参考訳(メタデータ) (2023-07-06T18:08:36Z) - Autoencoders with Intrinsic Dimension Constraints for Learning Low
Dimensional Image Representations [27.40298734517967]
本稿では,グローバルおよびローカルID制約の正規化をデータ表現の再構成に組み込んだ,オートエンコーダを用いた新しい深層表現学習手法を提案する。
このアプローチはデータセット全体の大域多様体構造を保存するだけでなく、各点の特徴写像の局所多様体構造も維持する。
論文 参考訳(メタデータ) (2023-04-16T03:43:08Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。