論文の概要: StructVPR++: Distill Structural and Semantic Knowledge with Weighting Samples for Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2503.06601v1
- Date: Sun, 09 Mar 2025 13:12:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:48:46.192937
- Title: StructVPR++: Distill Structural and Semantic Knowledge with Weighting Samples for Visual Place Recognition
- Title(参考訳): StructVPR++:視覚的位置認識のための重み付きサンプルを用いた構造的・意味的知識
- Authors: Yanqing Shen, Sanping Zhou, Jingwen Fu, Ruotong Wang, Shitao Chen, Nanning Zheng,
- Abstract要約: StructVPR++は、構造的および意味的知識をセグメント化誘導蒸留を通じてRGBグローバル表現に組み込むフレームワークである。
私たちの重要なイノベーションは、ラベル固有の機能をグローバルな記述子から切り離すことで、イメージペア間の明確なセマンティックアライメントを可能にします。
4つのベンチマークの実験によると、StructVPR++はRecall@1.1で最先端のグローバルメソッドを5~23%上回っている。
- 参考スコア(独自算出の注目度): 42.06059249327199
- License:
- Abstract: Visual place recognition is a challenging task for autonomous driving and robotics, which is usually considered as an image retrieval problem. A commonly used two-stage strategy involves global retrieval followed by re-ranking using patch-level descriptors. Most deep learning-based methods in an end-to-end manner cannot extract global features with sufficient semantic information from RGB images. In contrast, re-ranking can utilize more explicit structural and semantic information in one-to-one matching process, but it is time-consuming. To bridge the gap between global retrieval and re-ranking and achieve a good trade-off between accuracy and efficiency, we propose StructVPR++, a framework that embeds structural and semantic knowledge into RGB global representations via segmentation-guided distillation. Our key innovation lies in decoupling label-specific features from global descriptors, enabling explicit semantic alignment between image pairs without requiring segmentation during deployment. Furthermore, we introduce a sample-wise weighted distillation strategy that prioritizes reliable training pairs while suppressing noisy ones. Experiments on four benchmarks demonstrate that StructVPR++ surpasses state-of-the-art global methods by 5-23% in Recall@1 and even outperforms many two-stage approaches, achieving real-time efficiency with a single RGB input.
- Abstract(参考訳): 視覚的位置認識は自律走行とロボット工学にとって難しい課題であり、通常は画像検索問題と考えられている。
一般的に使用される2段階戦略は、グローバル検索に続き、パッチレベルの記述子を使って再ランク付けする。
エンド・ツー・エンドのディープ・ラーニング・ベースの手法では,RGB画像から十分な意味情報を持つグローバルな特徴を抽出することはできない。
対照的に、再ランク付けは1対1のマッチングプロセスにおいてより明示的な構造的および意味的な情報を利用することができるが、時間を要する。
グローバル検索と再分類のギャップを埋め,精度と効率の良好なトレードオフを実現するために,構造的および意味的知識をセグメント化誘導蒸留によりRGBグローバル表現に組み込むフレームワークであるStructVPR++を提案する。
私たちの重要なイノベーションは、グローバルなディスクリプタからラベル固有の機能を分離することで、デプロイメント中にセグメンテーションを必要とせずに、イメージペア間の明確なセマンティックアライメントを可能にします。
さらに,ノイズを抑えつつ信頼性の高いトレーニングペアを優先する,サンプルワイド蒸留方式を導入する。
4つのベンチマークの実験では、StructVPR++はRecall@1で最先端のグローバルメソッドを5~23%上回り、RGB入力1つでリアルタイム効率を達成するために、多くの2段階アプローチよりも優れています。
関連論文リスト
- EDTformer: An Efficient Decoder Transformer for Visual Place Recognition [34.875097011568336]
視覚的位置認識(VPR)は、クエリ画像の一般的な地理的位置を決定することを目的としている。
特徴集約のための効率的なデコーダ変換器(EDTformer)を提案する。
EDTformerは、VPRのための堅牢で非ネイティブなグローバル表現を生成する。
論文 参考訳(メタデータ) (2024-12-01T12:14:36Z) - Sharing Key Semantics in Transformer Makes Efficient Image Restoration [148.22790334216117]
視覚変換器(ViT)の基盤となる自己注意機構は、すべてのグローバルな手がかりを包含する傾向がある。
劣化した画像の小さな部分、特にセマンティックに密に整合した部分では、回復プロセスを支援するために特に関連する情報を提供する。
本稿では, IR(e, SemanIR) 用の Transformer を通じて鍵セマンティクスを共有することで, IR の性能向上を提案する。
論文 参考訳(メタデータ) (2024-05-30T12:45:34Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - StructVPR: Distill Structural Knowledge with Weighting Samples for
Visual Place Recognition [49.58170209388029]
視覚的位置認識(VPR)は通常、特定の画像検索問題と見なされる。
我々は、RGBグローバル機能における構造的知識を高めるために、VPRのための新しいトレーニングアーキテクチャであるStructVPRを提案する。
計算コストを低く保ちながら最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-12-02T02:52:01Z) - Deepfake Detection via Joint Unsupervised Reconstruction and Supervised
Classification [25.84902508816679]
本稿では,再建作業と分類作業を同時に行うディープフェイク検出手法を提案する。
この方法は、あるタスクによって学習された情報を他のタスクと共有する。
提案手法は,一般的に使用されている3つのデータセットに対して,最先端の性能を実現する。
論文 参考訳(メタデータ) (2022-11-24T05:44:26Z) - Learning Semantics for Visual Place Recognition through Multi-Scale
Attention [14.738954189759156]
本稿では,データの視覚的外観と意味的内容から,ロバストなグローバルな埋め込みを学習する最初のVPRアルゴリズムを提案する。
さまざまなシナリオの実験により、この新しいアプローチが検証され、最先端の手法に対するパフォーマンスが実証される。
論文 参考訳(メタデータ) (2022-01-24T14:13:12Z) - Boosting Few-shot Semantic Segmentation with Transformers [81.43459055197435]
TRansformer-based Few-shot Semantic segmentation Method (TRFS)
我々のモデルは,グローバル・エンハンスメント・モジュール(GEM)とローカル・エンハンスメント・モジュール(LEM)の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2021-08-04T20:09:21Z) - Bi-directional Cross-Modality Feature Propagation with
Separation-and-Aggregation Gate for RGB-D Semantic Segmentation [59.94819184452694]
深度情報はRGBD画像のセマンティックセグメンテーションにおいて有用であることが証明されている。
既存のほとんどの研究は、深度測定がRGBピクセルと正確で整合していると仮定し、問題をモーダルな特徴融合としてモデル化している。
本稿では,RGB特徴量応答を効果的に再検討するだけでなく,複数の段階を通して正確な深度情報を抽出し,代わりに2つの補正表現を集約する,統一的で効率的なクロスモダリティガイドを提案する。
論文 参考訳(メタデータ) (2020-07-17T18:35:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。