論文の概要: MultiRes-NetVLAD: Augmenting Place Recognition Training with
Low-Resolution Imagery
- arxiv url: http://arxiv.org/abs/2202.09146v1
- Date: Fri, 18 Feb 2022 11:53:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-21 13:14:46.081050
- Title: MultiRes-NetVLAD: Augmenting Place Recognition Training with
Low-Resolution Imagery
- Title(参考訳): MultiRes-NetVLAD:低解像度画像を用いた位置認識訓練の強化
- Authors: Ahmad Khaliq, Michael Milford and Sourav Garg
- Abstract要約: 我々は低解像度画像ピラミッド符号化によるNetVLAD表現学習を強化した。
結果として得られる多重解像度特徴ピラミッドは、VLADを介して1つのコンパクト表現に便利に集約することができる。
基礎となる学習機能テンソルと既存のマルチスケールアプローチを組み合わせることで,ベースライン性能を向上させることができることを示す。
- 参考スコア(独自算出の注目度): 28.875236694573815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) is a crucial component of 6-DoF localization,
visual SLAM and structure-from-motion pipelines, tasked to generate an initial
list of place match hypotheses by matching global place descriptors. However,
commonly-used CNN-based methods either process multiple image resolutions after
training or use a single resolution and limit multi-scale feature extraction to
the last convolutional layer during training. In this paper, we augment NetVLAD
representation learning with low-resolution image pyramid encoding which leads
to richer place representations. The resultant multi-resolution feature pyramid
can be conveniently aggregated through VLAD into a single compact
representation, avoiding the need for concatenation or summation of multiple
patches in recent multi-scale approaches. Furthermore, we show that the
underlying learnt feature tensor can be combined with existing multi-scale
approaches to improve their baseline performance. Evaluation on 15
viewpoint-varying and viewpoint-consistent benchmarking datasets confirm that
the proposed MultiRes-NetVLAD leads to state-of-the-art Recall@N performance
for global descriptor based retrieval, compared against 11 existing techniques.
Source code is publicly available at
https://github.com/Ahmedest61/MultiRes-NetVLAD.
- Abstract(参考訳): 視覚的位置認識(VPR)は、6-DoFのローカライゼーション、視覚SLAM、そしてモーションパイプラインの重要なコンポーネントであり、グローバルな場所記述子をマッチングすることで、位置マッチング仮説の初期リストを生成する。
しかし、一般的に使用されるcnnベースの手法は、トレーニング後に複数の画像解像度を処理するか、単一の解像度を使用して、トレーニング中に最後の畳み込み層にマルチスケールの特徴抽出を制限する。
本稿では,低解像度画像ピラミッド符号化によるNetVLAD表現学習を強化し,よりリッチな位置表現を実現する。
結果として得られる多重解像度特徴ピラミッドは、VLADを通して単一のコンパクト表現に便利に集約することができ、近年のマルチスケールアプローチにおいて、複数のパッチの連結や要約を回避することができる。
さらに,学習機能テンソルと既存のマルチスケールアプローチを組み合わせることで,ベースライン性能を向上できることを示す。
15の視点変化および視点整合性ベンチマークデータセットの評価により、提案したMultiRes-NetVLADが、グローバルディスクリプタベースの検索のための最先端のRecall@Nパフォーマンスをもたらすことを確認した。
ソースコードはhttps://github.com/Ahmedest61/MultiRes-NetVLADで公開されている。
関連論文リスト
- Multimodal Learned Sparse Retrieval with Probabilistic Expansion Control [66.78146440275093]
学習検索(LSR)は、クエリとドキュメントを疎語彙ベクトルにエンコードするニューラルネットワークのファミリーである。
テキスト画像検索に焦点をあて,マルチモーダル領域へのLSRの適用について検討する。
LexLIPやSTAIRのような現在のアプローチでは、大規模なデータセットで複雑なマルチステップのトレーニングが必要です。
提案手法は, 密度ベクトルを凍結密度モデルからスパース語彙ベクトルへ効率的に変換する。
論文 参考訳(メタデータ) (2024-02-27T14:21:56Z) - Deep Homography Estimation for Visual Place Recognition [49.235432979736395]
本稿では,変換器を用いたディープホモグラフィー推定(DHE)ネットワークを提案する。
バックボーンネットワークによって抽出された濃密な特徴写像を入力とし、高速で学習可能な幾何的検証のためにホモグラフィーに適合する。
ベンチマークデータセットを用いた実験により,本手法はいくつかの最先端手法より優れていることが示された。
論文 参考訳(メタデータ) (2024-02-25T13:22:17Z) - Optimal Transport Aggregation for Visual Place Recognition [9.192660643226372]
SALADは,NetVLADの局所的特徴のソフトアサインを最適な輸送問題としてクラスタに再配置する。
SALADでは,機能間クラスタ関係とクラスタ間クラスタ関係の両方を考慮するとともに,非形式的と考えられる特徴を選択的に破棄する'ダストビン'クラスタも導入する。
我々のシングルステージ手法は、パブリックなVPRデータセットの単一ステージベースラインを超えるだけでなく、2段階の手法を超越し、コストを大幅に高めに再ランク付けする。
論文 参考訳(メタデータ) (2023-11-27T15:46:19Z) - ClusVPR: Efficient Visual Place Recognition with Clustering-based
Weighted Transformer [13.0858576267115]
ClusVPRは重複する領域における冗長な情報の特定の問題と、小さなオブジェクトの表現に対処する新しいアプローチである。
ClusVPRはClustering-based weighted Transformer Network (CWTNet)と呼ばれるユニークなパラダイムを導入した
また,パラメータ数を大幅に削減し,モデル効率を向上させる最適化VLAD層を導入する。
論文 参考訳(メタデータ) (2023-10-06T09:01:15Z) - RIAV-MVS: Recurrent-Indexing an Asymmetric Volume for Multi-View Stereo [20.470182157606818]
「学習から最適化」パラダイムは、平面スウィーピングコストボリュームを反復的にインデックス化し、畳み込みGated Recurrent Unit(GRU)を介して深度マップを回帰する。
実世界のMVSデータセットについて広範な実験を行い、本手法が内部データセット評価とクロスデータセット一般化の両方の観点から最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2022-05-28T03:32:56Z) - Learning Enriched Features for Fast Image Restoration and Enhancement [166.17296369600774]
本稿では,ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とする。
我々は、高解像度の空間的詳細を同時に保存しながら、複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
提案手法は,デフォーカス・デブロアリング,画像デノイング,超解像,画像強調など,さまざまな画像処理タスクに対して,最先端の処理結果を実現する。
論文 参考訳(メタデータ) (2022-04-19T17:59:45Z) - Reuse your features: unifying retrieval and feature-metric alignment [3.845387441054033]
DRANは視覚的ローカライゼーションの3段階の機能を生成できる最初のネットワークである。
公開ベンチマークの挑戦的な条件下では、堅牢性と正確性の観点から競争性能を達成する。
論文 参考訳(メタデータ) (2022-04-13T10:42:00Z) - Multi-level Second-order Few-shot Learning [111.0648869396828]
教師付きまたは教師なしの少数ショット画像分類と少数ショット動作認識のためのマルチレベル2次数列学習ネットワーク(MlSo)を提案する。
我々は、パワーノーマライズされた二階学習者ストリームと、複数のレベルの視覚的抽象化を表現する機能を組み合わせた、いわゆる2階学習者ストリームを活用している。
我々は,Omniglot, mini-ImageNet, tiered-ImageNet, Open MIC, CUB Birds, Stanford Dogs, Cars, HMDB51, UCF101, mini-MITなどのアクション認識データセットなどの標準データセットに対して,優れた結果を示す。
論文 参考訳(メタデータ) (2022-01-15T19:49:00Z) - HAT: Hierarchical Aggregation Transformers for Person Re-identification [87.02828084991062]
我々は,CNNとトランスフォーマーの両方の利点を,高性能な画像ベース人物Re-IDに適用する。
作業は、画像ベースのRe-IDのためのCNNとTransformerの両方の利点を初めて活用する。
論文 参考訳(メタデータ) (2021-07-13T09:34:54Z) - Learning Enriched Features for Real Image Restoration and Enhancement [166.17296369600774]
畳み込みニューラルネットワーク(CNN)は、画像復元作業における従来のアプローチよりも劇的に改善されている。
ネットワーク全体を通して空間的精度の高い高解像度表現を維持することを目的とした,新しいアーキテクチャを提案する。
提案手法は,高解像度の空間的詳細を同時に保存しながら,複数のスケールからの文脈情報を組み合わせた豊富な特徴集合を学習する。
論文 参考訳(メタデータ) (2020-03-15T11:04:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。