論文の概要: Patch-NetVLAD+: Learned patch descriptor and weighted matching strategy
for place recognition
- arxiv url: http://arxiv.org/abs/2202.05738v1
- Date: Fri, 11 Feb 2022 16:22:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 14:23:43.261530
- Title: Patch-NetVLAD+: Learned patch descriptor and weighted matching strategy
for place recognition
- Title(参考訳): Patch-NetVLAD+:学習パッチ記述子と位置認識のための重み付けマッチング戦略
- Authors: Yingfeng Cai, Junqiao Zhao, Jiafeng Cui, Fenglin Zhang, Chen Ye,
Tiantian Feng
- Abstract要約: 我々はパッチベースのVPR研究に触発されたPatch-NetVLAD+を紹介する。
提案手法は, パッチレベルの記述子抽出に適したNetVLADを実現するために, トリプルトロスを用いた微調整方式を提案する。
ピッツバーグ30kと東京247のデータセットの実験は、我々のアプローチが最大6.35%のパフォーマンス改善を達成したことを示している。
- 参考スコア(独自算出の注目度): 11.030842814679556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) in areas with similar scenes such as urban or
indoor scenarios is a major challenge. Existing VPR methods using global
descriptors have difficulty capturing local specific regions (LSR) in the scene
and are therefore prone to localization confusion in such scenarios. As a
result, finding the LSR that are critical for location recognition becomes key.
To address this challenge, we introduced Patch-NetVLAD+, which was inspired by
patch-based VPR researches. Our method proposed a fine-tuning strategy with
triplet loss to make NetVLAD suitable for extracting patch-level descriptors.
Moreover, unlike existing methods that treat all patches in an image equally,
our method extracts patches of LSR, which present less frequently throughout
the dataset, and makes them play an important role in VPR by assigning proper
weights to them. Experiments on Pittsburgh30k and Tokyo247 datasets show that
our approach achieved up to 6.35\% performance improvement than existing
patch-based methods.
- Abstract(参考訳): 都市や屋内といった類似の場面で視覚的位置認識(VPR)を行うことが大きな課題である。
グローバルディスクリプタを用いた既存のvpr手法では,シーン内の局所的特定領域(lsr)の捕捉が困難であり,そのようなシナリオでは局所的な混乱が生じやすい。
その結果、位置認識に重要なLSRを見つけることが重要となる。
この課題に対処するため、パッチベースのVPR研究に触発されたPatch-NetVLAD+を導入しました。
提案手法は,パッチレベルの記述子抽出に適したNetVLADを実現するために,トリプルトロスを用いた微調整方式を提案する。
さらに、画像中の全てのパッチを等しく扱う既存の方法とは異なり、我々の方法ではデータセット全体を通して頻度の低いLSRのパッチを抽出し、適切な重みを割り当てることでVPRにおいて重要な役割を果たす。
ピッツバーグ30kと東京247のデータセットを用いた実験により,既存のパッチベース手法よりも6.35\%の性能向上が得られた。
関連論文リスト
- Local positional graphs and attentive local features for a data and runtime-efficient hierarchical place recognition pipeline [11.099588962062937]
本稿では,既存のアプローチを拡張し,新しいアイデアを提示する,ランタイムとデータ効率のよい階層型VPRパイプラインを提案する。
まず,ローカル画像の特徴の空間的コンテキスト情報を符号化する学習不要かつ実行効率のよいアプローチであるローカル位置グラフ(LPG)を提案する。
第2に,アテンタティブ・ローカルSPED(Attentive Local SPED)について述べる。
第3に,超次元計算を利用した階層型パイプラインを提案し,高速な候補選択と候補再評価のために,全体的HDC記述子と同じ局所的特徴を利用する。
論文 参考訳(メタデータ) (2024-03-15T13:26:39Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Towards Seamless Adaptation of Pre-trained Models for Visual Place Recognition [72.35438297011176]
視覚的位置認識のための事前学習モデル(VPR)のシームレスな適応を実現する新しい手法を提案する。
具体的には、地域を識別するための有意義なランドマークに焦点を当てたグローバルな特徴とローカルな特徴の両方を得るために、ハイブリッド適応法を設計する。
実験結果から,本手法はトレーニングデータやトレーニング時間が少なく,最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-02-22T12:55:01Z) - CPR++: Object Localization via Single Coarse Point Supervision [55.8671776333499]
粗い点修正(CPR)は、アルゴリズムの観点からの意味的分散を緩和する最初の試みである。
CPRは、アノテートされた最初のポイントを置き換えるために、近隣地域のセマンティックセンターポイントを選択することで意味のばらつきを減らす。
CPR++は、スケール情報を取得し、グローバル領域における意味的分散をさらに低減することができる。
論文 参考訳(メタデータ) (2024-01-30T17:38:48Z) - DST-Det: Simple Dynamic Self-Training for Open-Vocabulary Object Detection [72.25697820290502]
この研究は、ゼロショット分類によって潜在的に新しいクラスを特定するための単純かつ効率的な戦略を導入する。
このアプローチは、アノテーションやデータセット、再学習を必要とせずに、新しいクラスのリコールと精度を高めるセルフトレーニング戦略として言及する。
LVIS、V3Det、COCOを含む3つのデータセットに対する実証的な評価は、ベースラインのパフォーマンスを大幅に改善したことを示している。
論文 参考訳(メタデータ) (2023-10-02T17:52:24Z) - Boosting Video Super Resolution with Patch-Based Temporal Redundancy
Optimization [46.833568886576074]
静止物体と背景を持つパッチにおける時間的冗長性の影響について論じる。
我々は,既存の局所的および非局所的伝搬型VSRアルゴリズムの性能向上のための,シンプルで効果的な2つのプラグアンドプレイ法を開発した。
論文 参考訳(メタデータ) (2022-07-18T15:11:18Z) - Delving into Sequential Patches for Deepfake Detection [64.19468088546743]
近年の顔偽造技術は、ほとんど追跡不可能なディープフェイクビデオを生み出しており、悪意のある意図で活用することができる。
従来の研究では、ディープフェイク法にまたがる一般化を追求する上で、局所的な低レベルな手がかりと時間的情報の重要性が指摘されてきた。
本稿では,局所的・時間的変換をベースとしたDeepfake Detectionフレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-06T16:46:30Z) - Weakly Supervised Patch Label Inference Networks for Efficient Pavement
Distress Detection and Recognition in the Wild [14.16549562799135]
Weakly Supervised Patch Label Inference Networks (WSPLIN) を提案する。
WSPLINは、完全に教師付き舗装画像分類問題を弱教師付き舗装画像分類問題に変換する。
本手法は, 大規模舗装救難データセットを用いて評価する。
論文 参考訳(メタデータ) (2022-03-31T04:01:02Z) - VLAD-VSA: Cross-Domain Face Presentation Attack Detection with
Vocabulary Separation and Adaptation [87.9994254822078]
顔提示攻撃(PAD)の場合、スプーフィングキューのほとんどは微妙で局所的な画像パターンである。
VLADアグリゲーション法は,特徴空間を局所的に分割する視覚語彙を用いて局所特徴を定量化する。
提案する語彙分離法は,語彙をドメイン共有語とドメイン固有語に分割する。
論文 参考訳(メタデータ) (2022-02-21T15:27:41Z) - Patch2Pix: Epipolar-Guided Pixel-Level Correspondences [38.38520763114715]
Patch2Pixは,これらの提案によって定義された局所領域から画素レベルのマッチングを回帰することで,提案手法を洗練する新しい改良ネットワークである。
改良ネットワークは画像マッチング, ホモグラフィー推定, ローカライゼーションタスクにおいて, 対応ネットワークの性能を大幅に向上させることを示す。
論文 参考訳(メタデータ) (2020-12-03T13:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。