論文の概要: StructVPR: Distill Structural Knowledge with Weighting Samples for
Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2212.00937v1
- Date: Fri, 2 Dec 2022 02:52:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-05 16:50:47.673155
- Title: StructVPR: Distill Structural Knowledge with Weighting Samples for
Visual Place Recognition
- Title(参考訳): StructVPR:視覚的位置認識のための重み付きサンプルを用いた構造知識
- Authors: Yanqing Shen, Sanping Zhopu, Jingwen Fu, Ruotong Wang, Shitao Chen and
Nanning Zheng
- Abstract要約: 視覚的位置認識(VPR)は通常、特定の画像検索問題と見なされる。
我々は、RGBグローバル機能における構造的知識を高めるために、VPRのための新しいトレーニングアーキテクチャであるStructVPRを提案する。
計算コストを低く保ちながら最先端の性能を実現する。
- 参考スコア(独自算出の注目度): 42.98038679590775
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual place recognition (VPR) is usually considered as a specific image
retrieval problem. Limited by existing training frameworks, most deep
learning-based works cannot extract sufficiently stable global features from
RGB images and rely on a time-consuming re-ranking step to exploit spatial
structural information for better performance. In this paper, we propose
StructVPR, a novel training architecture for VPR, to enhance structural
knowledge in RGB global features and thus improve feature stability in a
constantly changing environment. Specifically, StructVPR uses segmentation
images as a more definitive source of structural knowledge input into a CNN
network and applies knowledge distillation to avoid online segmentation and
inference of seg-branch in testing. Considering that not all samples contain
high-quality and helpful knowledge, and some even hurt the performance of
distillation, we partition samples and weigh each sample's distillation loss to
enhance the expected knowledge precisely. Finally, StructVPR achieves
impressive performance on several benchmarks using only global retrieval and
even outperforms many two-stage approaches by a large margin. After adding
additional re-ranking, ours achieves state-of-the-art performance while
maintaining a low computational cost.
- Abstract(参考訳): 視覚的位置認識(VPR)は通常、特定の画像検索問題と見なされる。
既存のトレーニングフレームワークによって制限された多くのディープラーニングベースの研究は、RGBイメージから十分に安定したグローバルな特徴を抽出することができず、パフォーマンス向上のために空間構造情報を活用するために時間を要する再分類ステップに依存している。
本稿では,VPRのための新しいトレーニングアーキテクチャであるStructVPRを提案し,RGBグローバル機能における構造的知識を高め,常に変化する環境における特徴安定性を向上させる。
具体的には、StructVPRは、CNNネットワークに入力される構造的知識のより決定的な源としてセグメンテーション画像を使用し、オンラインセグメンテーションやセグブランチの推論を避けるために知識蒸留を適用している。
全ての試料が高品質で有用な知識を含んでいるわけではなく、蒸留の性能を損なうものもあれば、試料を分割し、各試料の蒸留損失を測り、予想される知識を正確に増強する。
最後に、StructVPRは、グローバル検索のみを使用して、いくつかのベンチマークで印象的なパフォーマンスを実現し、さらに大きなマージンで多くの2段階アプローチを上回ります。
さらに,計算コストを低く抑えつつ,最先端の性能を実現する。
関連論文リスト
- BEV$^2$PR: BEV-Enhanced Visual Place Recognition with Structural Cues [44.96177875644304]
本稿では,鳥眼ビュー(BEV)における構造的手がかりを1台のカメラから活用して,画像に基づく視覚的位置認識(VPR)フレームワークを提案する。
BEV$2$PRフレームワークは、単一のカメラに基づいて視覚的手がかりと空間的認識の両方を持つ複合記述子を生成する。
論文 参考訳(メタデータ) (2024-03-11T10:46:43Z) - Human as Points: Explicit Point-based 3D Human Reconstruction from
Single-view RGB Images [78.56114271538061]
我々はHaPと呼ばれる明示的なポイントベース人間再構築フレームワークを導入する。
提案手法は,3次元幾何学空間における完全明示的な点雲推定,操作,生成,洗練が特徴である。
我々の結果は、完全に明示的で幾何学中心のアルゴリズム設計へのパラダイムのロールバックを示すかもしれない。
論文 参考訳(メタデータ) (2023-11-06T05:52:29Z) - AnyLoc: Towards Universal Visual Place Recognition [12.892386791383025]
視覚的位置認識(VPR)は、ロボットのローカライゼーションに不可欠である。
ほとんどの性能の高いVPRアプローチは環境に特化しており、タスクに特化している。
私たちは、VPRの普遍的なソリューションを開発します -- 幅広い構造化された、非構造化された環境にわたって機能するテクニックです。
論文 参考訳(メタデータ) (2023-08-01T17:45:13Z) - Structural and Statistical Texture Knowledge Distillation for Semantic
Segmentation [72.67912031720358]
セグメンテーションのための構造的・統計的テクスチャ知識蒸留(SSTKD)フレームワークを提案する。
構造的テクスチャ知識のために,低レベルの特徴を分解するContourlet Decomposition Module (CDM)を導入する。
本稿では, 統計的テクスチャ知識を適応的に抽出し, 強化するDenoized Texture Intensity Equalization Module (DTIEM)を提案する。
論文 参考訳(メタデータ) (2023-05-06T06:01:11Z) - Structure-CLIP: Towards Scene Graph Knowledge to Enhance Multi-modal
Structured Representations [70.41385310930846]
マルチモーダルな構造表現を強化するためのエンドツーエンドフレームワークであるStructure-CLIPを提案する。
シーングラフを用いてセマンティックなネガティブな例の構築をガイドし、その結果、構造化された表現の学習に重点を置いている。
知識エンハンス(KEE)は、SGKを入力として活用し、構造化表現をさらに強化するために提案される。
論文 参考訳(メタデータ) (2023-05-06T03:57:05Z) - High-Fidelity Visual Structural Inspections through Transformers and
Learnable Resizers [2.126862120884775]
無人航空機(UAV)と人工知能の最近の進歩により、視覚検査はより速く、より安全で、より信頼性が高い。
高解像度セグメンテーションは、高い計算メモリ要求のために非常に難しい。
本稿では,グローバルとローカルのセマンティクスのトレードオフを管理することで,異なる検査タスクに適応できるハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-10-21T18:08:26Z) - An Empirical Investigation of Representation Learning for Imitation [76.48784376425911]
視覚、強化学習、NLPにおける最近の研究は、補助的な表現学習の目的が、高価なタスク固有の大量のデータの必要性を減らすことを示している。
本稿では,表現学習アルゴリズムを構築するためのモジュラーフレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-16T11:23:42Z) - Over-and-Under Complete Convolutional RNN for MRI Reconstruction [57.95363471940937]
MR画像再構成のための最近のディープラーニングに基づく手法は、通常、汎用的なオートエンコーダアーキテクチャを利用する。
OUCR(Over-and-Under Complete Convolu?tional Recurrent Neural Network)を提案する。
提案手法は, トレーニング可能なパラメータの少ない圧縮されたセンシングと, 一般的なディープラーニングに基づく手法に対して, 大幅な改善を実現する。
論文 参考訳(メタデータ) (2021-06-16T15:56:34Z) - Comparative Code Structure Analysis using Deep Learning for Performance
Prediction [18.226950022938954]
本稿では,アプリケーションの静的情報(抽象構文木やASTなど)を用いてコード構造の変化に基づいて性能変化を予測することの実現可能性を評価することを目的とする。
組込み学習手法の評価により,木系長短メモリ(LSTM)モデルでは,ソースコードの階層構造を利用して遅延表現を発見し,最大84%(個人的問題)と73%(複数の問題を含む組み合わせデータセット)の精度で性能変化を予測できることが示された。
論文 参考訳(メタデータ) (2021-02-12T16:59:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。