論文の概要: SciceVPR: Stable Cross-Image Correlation Enhanced Model for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2502.20676v1
- Date: Fri, 28 Feb 2025 03:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-03 13:42:02.593075
- Title: SciceVPR: Stable Cross-Image Correlation Enhanced Model for Visual Place Recognition
- Title(参考訳): SciceVPR: 視覚的位置認識のための安定な画像相関強化モデル
- Authors: Shanshan Wan, Yingmei Wei, Lai Kang, Tianrui Shen, Haixuan Wang, Yee-Hong Yang,
- Abstract要約: 視覚的位置認識(VPR)は、ロボット工学と自律システムにとって大きな課題である。
本稿では,ScisVPRと呼ばれるVPRのための安定なクロスイメージ相関強化モデルを提案する。
- 参考スコア(独自算出の注目度): 4.540127373592404
- License:
- Abstract: Visual Place Recognition (VPR) is a major challenge for robotics and autonomous systems, with the goal of predicting the location of an image based solely on its visual features. State-of-the-art (SOTA) models extract global descriptors using the powerful foundation model DINOv2 as backbone. These models either explore the cross-image correlation or propose a time-consuming two-stage re-ranking strategy to achieve better performance. However, existing works only utilize the final output of DINOv2, and the current cross-image correlation causes unstable retrieval results. To produce both discriminative and constant global descriptors, this paper proposes stable cross-image correlation enhanced model for VPR called SciceVPR. This model explores the full potential of DINOv2 in providing useful feature representations that implicitly encode valuable contextual knowledge. Specifically, SciceVPR first uses a multi-layer feature fusion module to capture increasingly detailed task-relevant channel and spatial information from the multi-layer output of DINOv2. Secondly, SciceVPR considers the invariant correlation between images within a batch as valuable knowledge to be distilled into the proposed self-enhanced encoder. In this way, SciceVPR can acquire fairly robust global features regardless of domain shifts (e.g., changes in illumination, weather and viewpoint between pictures taken in the same place). Experimental results demonstrate that the base variant, SciceVPR-B, outperforms SOTA one-stage methods with single input on multiple datasets with varying domain conditions. The large variant, SciceVPR-L, performs on par with SOTA two-stage models, scoring over 3% higher in Recall@1 compared to existing models on the challenging Tokyo24/7 dataset. Our code will be released at https://github.com/shuimushan/SciceVPR.
- Abstract(参考訳): 視覚的位置認識(VPR)は、ロボット工学と自律システムにとって大きな課題であり、その視覚的特徴のみに基づいて画像の位置を予測することを目的としている。
State-of-the-art(SOTA)モデルは、強力な基盤モデルであるDINOv2をバックボーンとして、グローバルな記述子を抽出する。
これらのモデルは、クロスイメージ相関を探索するか、より優れたパフォーマンスを達成するために2段階の再評価戦略を提案する。
しかし、既存の研究はDINOv2の最終出力のみを利用しており、現在のクロスイメージ相関は不安定な検索結果を引き起こす。
そこで本論文では,ScisVPR と呼ばれる VPR の相互画像相関強化モデルを提案する。
このモデルは、価値ある文脈知識を暗黙的にエンコードする有用な特徴表現を提供する上で、DINOv2のポテンシャルを探求する。
具体的には、ScisVPRはまず、DINOv2の多層出力から、より詳細なタスク関連チャネルと空間情報をキャプチャするために、多層機能融合モジュールを使用する。
次に、ScisVPRは、バッチ内の画像間の不変相関を、提案した自己拡張エンコーダに蒸留する価値のある知識であると考えている。
このようにして、ScisVPRは、ドメインシフトに関係なく、かなり堅牢なグローバル機能を取得することができる(例えば、同じ場所で撮影された画像間の照明の変化、天気、視点)。
実験結果から,ScisVPR-Bはドメイン条件の異なる複数のデータセットに対して単一入力でSOTAの一段階法より優れていることがわかった。
大規模なバージョンであるScisVPR-Lは、SOTAの2段階モデルと同等に動作し、挑戦的なTokyo24/7データセットの既存のモデルと比較して、Recall@1では3%以上高いスコアを得ている。
私たちのコードはhttps://github.com/shuimushan/SciceVPR.comでリリースされます。
関連論文リスト
- CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - Raising the Bar of AI-generated Image Detection with CLIP [50.345365081177555]
本研究の目的は、AI生成画像の普遍的検出のための事前学習された視覚言語モデル(VLM)の可能性を探ることである。
我々は,CLIP機能に基づく軽量な検出戦略を開発し,その性能を様々な難易度シナリオで検証する。
論文 参考訳(メタデータ) (2023-11-30T21:11:20Z) - Contrastive Transformer Learning with Proximity Data Generation for
Text-Based Person Search [60.626459715780605]
記述的なテキストクエリーを与えられたテキストベースの人物検索は、画像ギャラリーからベストマッチした人物を検索することを目的としている。
このようなクロスモーダル検索タスクは、重要なモダリティギャップ、きめ細かい相違、注釈付きデータの不十分さのため、かなり難しい。
本稿では,テキストに基づく人物検索のための2つのトランスフォーマーモデルを提案する。
論文 参考訳(メタデータ) (2023-11-15T16:26:49Z) - ViTAEv2: Vision Transformer Advanced by Exploring Inductive Bias for
Image Recognition and Beyond [76.35955924137986]
我々は、内在性IBを畳み込み、すなわちViTAEから探索するビジョントランスフォーマーを提案する。
ViTAEはいくつかの空間ピラミッド縮小モジュールを備えており、入力イメージをリッチなマルチスケールコンテキストでトークンに埋め込む。
我々は、ImageNet検証セット上で88.5%のTop-1分類精度と、ImageNet実検証セット上で最高の91.2%のTop-1分類精度を得る。
論文 参考訳(メタデータ) (2022-02-21T10:40:05Z) - Few Shot Activity Recognition Using Variational Inference [9.371378627575883]
本稿では,少数のショットアクティビティ認識のための新しい変分推論ベースアーキテクチャフレームワーク(HF-AR)を提案する。
筆者らの枠組みは, 容積保存型家庭用フローを活用して, 新規クラスの柔軟な後部分布を学習する。
これにより、人間の行動認識のための最先端のショットアプローチと比較して、パフォーマンスが向上する。
論文 参考訳(メタデータ) (2021-08-20T03:57:58Z) - Global Filter Networks for Image Classification [90.81352483076323]
本稿では,対数線形複雑度を持つ周波数領域における長期空間依存性を学習する,概念的に単純だが計算効率のよいアーキテクチャを提案する。
この結果から,GFNetはトランスフォーマー型モデルやCNNの効率,一般化能力,堅牢性において,非常に競争力のある代替手段となる可能性が示唆された。
論文 参考訳(メタデータ) (2021-07-01T17:58:16Z) - Thinking Fast and Slow: Efficient Text-to-Visual Retrieval with
Transformers [115.90778814368703]
目的は,大規模画像とビデオデータセットの言語検索である。
このタスクでは、独立してテキストとビジョンを共同埋め込み空間 a.k.a にマッピングする。
デュアルエンコーダは 検索スケールとして魅力的です
視覚テキスト変換器をクロスアテンションで使用する別のアプローチは、関節埋め込みよりも精度が大幅に向上する。
論文 参考訳(メタデータ) (2021-03-30T17:57:08Z) - Augmented Bi-path Network for Few-shot Learning [16.353228724916505]
マルチスケールでグローバル機能とローカル機能を比較するために,Augmented Bi-path Network (ABNet)を提案する。
具体的には、各画像の局所的な特徴として、有能なパッチを抽出し、埋め込みする。その後、モデルは、より堅牢な機能を強化するために、その機能を強化することを学習する。
論文 参考訳(メタデータ) (2020-07-15T11:13:38Z) - Unified Image and Video Saliency Modeling [21.701431656717112]
イメージとビデオの相性モデリングは統一モデルによってアプローチできるだろうか?
本研究では,4つの新しい領域適応手法と学習されたガウス先行の定式化を提案する。
我々はこれらの技術を、シンプルで軽量なエンコーダ-RNNデコーダスタイルのネットワークUNISALに統合し、画像とビデオのサリエンシデータを併用してトレーニングする。
本手法は,DHF1K,ハリウッド-2,UCF-Sports,およびSALICON,MIT300の画像塩分濃度データセットについて検討した。
論文 参考訳(メタデータ) (2020-03-11T18:28:29Z) - An Effective Automatic Image Annotation Model Via Attention Model and
Data Equilibrium [0.0]
提案モデルには,特徴抽出器,タグ生成器,画像アノテータの3つのフェーズがある。
2つのベンチマークデータセットで行った実験により、提案モデルが従来のモデルよりも優れていることが確認された。
論文 参考訳(メタデータ) (2020-01-26T05:59:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。