論文の概要: SeqNet: Learning Descriptors for Sequence-based Hierarchical Place
Recognition
- arxiv url: http://arxiv.org/abs/2102.11603v2
- Date: Wed, 24 Feb 2021 01:52:08 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-25 13:49:17.129498
- Title: SeqNet: Learning Descriptors for Sequence-based Hierarchical Place
Recognition
- Title(参考訳): SeqNet:シーケンスベースの階層的場所認識のための学習記述子
- Authors: Sourav Garg and Michael Milford
- Abstract要約: 本稿では,高性能初期一致仮説生成器を生成する新しいハイブリッドシステムを提案する。
シーケンス記述子はseqnetと呼ばれる時間畳み込みネットワークを使って生成される。
次に、ショートリスト付き単一画像学習記述子を用いて選択的な逐次スコアアグリゲーションを行い、全体の位置一致仮説を生成する。
- 参考スコア(独自算出の注目度): 31.714928102950594
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) is the task of matching current visual imagery
from a camera to images stored in a reference map of the environment. While
initial VPR systems used simple direct image methods or hand-crafted visual
features, recent work has focused on learning more powerful visual features and
further improving performance through either some form of sequential matcher /
filter or a hierarchical matching process. In both cases the performance of the
initial single-image based system is still far from perfect, putting
significant pressure on the sequence matching or (in the case of hierarchical
systems) pose refinement stages. In this paper we present a novel hybrid system
that creates a high performance initial match hypothesis generator using short
learnt sequential descriptors, which enable selective control sequential score
aggregation using single image learnt descriptors. Sequential descriptors are
generated using a temporal convolutional network dubbed SeqNet, encoding short
image sequences using 1-D convolutions, which are then matched against the
corresponding temporal descriptors from the reference dataset to provide an
ordered list of place match hypotheses. We then perform selective sequential
score aggregation using shortlisted single image learnt descriptors from a
separate pipeline to produce an overall place match hypothesis. Comprehensive
experiments on challenging benchmark datasets demonstrate the proposed method
outperforming recent state-of-the-art methods using the same amount of
sequential information. Source code and supplementary material can be found at
https://github.com/oravus/seqNet.
- Abstract(参考訳): 視覚的場所認識(VPR)は、カメラから環境の参照マップに格納された画像に現在の視覚画像をマッチングするタスクである。
初期のvbrシステムは単純な直接画像法や手作りの視覚機能を使用していたが、近年の研究では、より強力な視覚特徴の学習と、何らかのシーケンシャルマッチング/フィルタまたは階層マッチングプロセスによるパフォーマンス向上に重点が置かれている。
いずれの場合も、最初の1枚の画像ベースのシステムの性能は完璧とは程遠いため、シーケンスマッチングや(階層的なシステムの場合)リファインメントの段階に大きなプレッシャーがかかる。
本論文では,単一画像学習ディスクリプタを用いた選択的連続スコア集計を可能にする,短時間学習型シーケンシャルディスクリプタを用いた高性能初期一致仮説生成器を作成する新しいハイブリッドシステムを提案する。
シーケンシャルディスクリプタは、seqnetと呼ばれるテンポラリ畳み込みネットワークを使用して生成され、1次元畳み込みを使用して短い画像シーケンスをエンコードし、参照データセットから対応するテンポラリディスクリプタとマッチングし、場所マッチ仮説の順序リストを提供する。
次に,各パイプラインから短縮された単一画像学習記述子を用いて選択的に逐次スコアアグリゲーションを行い,全体の位置マッチング仮説を生成する。
難解なベンチマークデータセットに関する包括的実験により、同一量のシーケンシャル情報を用いた最新の最先端手法よりも優れた手法が示された。
ソースコードと補足資料はhttps://github.com/oravus/seqnetにある。
関連論文リスト
- Sentence-level Prompts Benefit Composed Image Retrieval [69.78119883060006]
合成画像検索(CIR)は、参照画像と相対キャプションの両方を含むクエリを用いて、特定の画像を検索するタスクである。
本稿では,事前訓練されたV-Lモデル,例えばBLIP-2を用いて文レベルのプロンプトを生成することを提案する。
提案手法は,Fashion-IQおよびCIRRデータセット上の最先端のCIR手法に対して良好に動作する。
論文 参考訳(メタデータ) (2023-10-09T07:31:44Z) - Efficient Match Pair Retrieval for Large-scale UAV Images via Graph
Indexed Global Descriptor [9.402103660431791]
本稿では,効率的なマッチングペア検索手法を提案し,並列SfM再構成のための統合ワークフローを実装した。
提案手法は3つの大規模データセットを用いて検証されている。
論文 参考訳(メタデータ) (2023-07-10T12:41:55Z) - Graph Convolution Based Efficient Re-Ranking for Visual Retrieval [29.804582207550478]
特徴を更新することで、初期検索結果を洗練する効率的な再ランク付け手法を提案する。
具体的には、グラフ畳み込みネットワーク(GCN)に基づく再ランク付けを再構成し、特徴伝搬による視覚的検索タスクのための新しいグラフ畳み込みベース再ランク付け(GCR)を提案する。
特に、平面GCRは、クロスカメラ検索のために拡張され、異なるカメラ間の親和性関係を活用するために、改良された特徴伝搬定式化が提示される。
論文 参考訳(メタデータ) (2023-06-15T00:28:08Z) - Learning Sequence Descriptor based on Spatio-Temporal Attention for
Visual Place Recognition [16.380948630155476]
ビジュアルプレース認識(VPR)は、クエリフレームと同じ場所に位置するタグ付きデータベースからフレームを取得することを目的としている。
ジオリーエイリアスシナリオにおけるVPRのロバスト性を改善するために,シーケンスベースのVPR手法を提案する。
我々はスライディングウィンドウを用いて時間的注意範囲を制御し、相対的な位置エンコーディングを用いて異なる特徴間の逐次的関係を構築する。
論文 参考訳(メタデータ) (2023-05-19T06:39:10Z) - ASIC: Aligning Sparse in-the-wild Image Collections [86.66498558225625]
本稿では,オブジェクトカテゴリのスパース画像コレクションの協調アライメント手法を提案する。
我々は、事前学習された視覚変換器(ViT)モデルの深い特徴から得られるペアワイズ近傍をノイズおよびスパースキーポイントマッチとして利用する。
CUBとSPair-71kベンチマークの実験により,我々の手法はグローバルに一貫した高品質な対応を実現できることが示された。
論文 参考訳(メタデータ) (2023-03-28T17:59:28Z) - Reuse your features: unifying retrieval and feature-metric alignment [3.845387441054033]
DRANは視覚的ローカライゼーションの3段階の機能を生成できる最初のネットワークである。
公開ベンチマークの挑戦的な条件下では、堅牢性と正確性の観点から競争性能を達成する。
論文 参考訳(メタデータ) (2022-04-13T10:42:00Z) - Reinforcement Learning Based Query Vertex Ordering Model for Subgraph
Matching [58.39970828272366]
グラフマッチングアルゴリズムは、クエリグラフの埋め込みをデータグラフGに列挙する。
マッチング順序は、これらのバックトラックに基づくサブグラフマッチングアルゴリズムの時間効率において重要な役割を果たす。
本稿では,Reinforcement Learning (RL) と Graph Neural Networks (GNN) 技術を適用して,グラフマッチングアルゴリズムの高品質なマッチング順序を生成する。
論文 参考訳(メタデータ) (2022-01-25T00:10:03Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Efficient image retrieval using multi neural hash codes and bloom
filters [0.0]
本稿では,複数のニューラルハッシュ符号を用いた画像検索手法を提案する。
また、事前に偽陽性を識別することで、ブルームフィルタを使用したクエリの数を制限する。
論文 参考訳(メタデータ) (2020-11-06T08:46:31Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Image Matching across Wide Baselines: From Paper to Practice [80.9424750998559]
局所的な特徴とロバストな推定アルゴリズムの包括的なベンチマークを導入する。
パイプラインのモジュール構造は、さまざまなメソッドの容易な統合、構成、組み合わせを可能にします。
適切な設定で、古典的な解決策は依然として芸術の知覚された状態を上回る可能性があることを示す。
論文 参考訳(メタデータ) (2020-03-03T15:20:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。