論文の概要: Learning Sequence Descriptor based on Spatio-Temporal Attention for
Visual Place Recognition
- arxiv url: http://arxiv.org/abs/2305.11467v4
- Date: Sat, 27 Jan 2024 05:21:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-30 22:41:32.036823
- Title: Learning Sequence Descriptor based on Spatio-Temporal Attention for
Visual Place Recognition
- Title(参考訳): 時空間的注意に基づく視覚位置認識のための学習シーケンス記述子
- Authors: Junqiao Zhao, Fenglin Zhang, Yingfeng Cai, Gengxuan Tian, Wenjie Mu,
Chen Ye, Tiantian Feng
- Abstract要約: ビジュアルプレース認識(VPR)は、クエリフレームと同じ場所に位置するタグ付きデータベースからフレームを取得することを目的としている。
ジオリーエイリアスシナリオにおけるVPRのロバスト性を改善するために,シーケンスベースのVPR手法を提案する。
我々はスライディングウィンドウを用いて時間的注意範囲を制御し、相対的な位置エンコーディングを用いて異なる特徴間の逐次的関係を構築する。
- 参考スコア(独自算出の注目度): 16.380948630155476
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual Place Recognition (VPR) aims to retrieve frames from a geotagged
database that are located at the same place as the query frame. To improve the
robustness of VPR in perceptually aliasing scenarios, sequence-based VPR
methods are proposed. These methods are either based on matching between frame
sequences or extracting sequence descriptors for direct retrieval. However, the
former is usually based on the assumption of constant velocity, which is
difficult to hold in practice, and is computationally expensive and subject to
sequence length. Although the latter overcomes these problems, existing
sequence descriptors are constructed by aggregating features of multiple frames
only, without interaction on temporal information, and thus cannot obtain
descriptors with spatio-temporal discrimination.In this paper, we propose a
sequence descriptor that effectively incorporates spatio-temporal information.
Specifically, spatial attention within the same frame is utilized to learn
spatial feature patterns, while attention in corresponding local regions of
different frames is utilized to learn the persistence or change of features
over time. We use a sliding window to control the temporal range of attention
and use relative positional encoding to construct sequential relationships
between different features. This allows our descriptors to capture the
intrinsic dynamics in a sequence of frames.Comprehensive experiments on
challenging benchmark datasets show that the proposed approach outperforms
recent state-of-the-art methods.The code is available at
https://github.com/tiev-tongji/Spatio-Temporal-SeqVPR.
- Abstract(参考訳): ビジュアルプレース認識(VPR)は、クエリフレームと同じ場所に位置するジオタグデータベースからフレームを取得することを目的としている。
知覚的エイリアスにおけるVPRの堅牢性を改善するために,シーケンスベースのVPR手法を提案する。
これらの手法はフレームシーケンス間のマッチングや直接検索のためのシーケンス記述子抽出に基づいている。
しかし、前者は一般に一定の速度の仮定に基づいており、これは実際は保持が困難であり、計算コストが高く、シーケンス長が要求される。
後者はこれらの問題を克服しているが、既存のシーケンス記述子は、時間的情報との相互作用なしに複数のフレームの特徴を集約することによって構築されており、時空間的識別を伴う記述子を得ることができない。
具体的には、同じフレーム内の空間的注意を空間的特徴パターンの学習に利用し、異なるフレームの対応する局所領域の注意を時間とともに特徴の持続性や変化を学ぶために利用する。
我々はスライディングウィンドウを用いて時間的注意範囲を制御し、相対的な位置エンコーディングを用いて異なる特徴間の逐次的関係を構築する。
これにより、ディスクリプタはフレームのシーケンスで本質的なダイナミクスをキャプチャできます。難しいベンチマークデータセットに関する理解的な実験では、提案されたアプローチが最新の最先端のメソッドよりも優れています。
関連論文リスト
- Introducing Gating and Context into Temporal Action Detection [0.8987776881291144]
時間的行動検出(TAD)は、動作の重なり合いと動作の変動が原因で依然として困難である。
最近の知見から,TAD性能は自己保持機構よりもトランスの構造設計に依存することが示唆された。
本稿では,軽量かつ効果的な操作による特徴抽出プロセスを提案する。
論文 参考訳(メタデータ) (2024-09-06T11:52:42Z) - Temporally Grounding Instructional Diagrams in Unconstrained Videos [51.85805768507356]
本稿では,ビデオ中の命令図中のクエリ列を同時にローカライズするという課題について検討する。
既存のほとんどのメソッドは、クエリの固有の構造を無視しながら、一度に1つのクエリをグラウンドすることに焦点を当てている。
ステップダイアグラムの視覚的特徴を包括的にペアリングして構築した複合クエリを提案する。
ステップ図のグラウンド化のためのIAWデータセットと自然言語クエリのグラウンド化のためのYouCook2ベンチマークに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-07-16T05:44:30Z) - Temporally Consistent Referring Video Object Segmentation with Hybrid Memory [98.80249255577304]
本稿では,参照セグメンテーションとともに時間的一貫性を明示的にモデル化する,エンドツーエンドなR-VOSパラダイムを提案する。
自動生成された高品質の参照マスクを有するフレームの特徴は、残りのフレームをセグメント化するために伝播される。
大規模な実験により,本手法は時間的整合性を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-03-28T13:32:49Z) - FOCAL: Contrastive Learning for Multimodal Time-Series Sensing Signals
in Factorized Orthogonal Latent Space [7.324708513042455]
本稿では,マルチモーダル時系列センシング信号から包括的特徴を抽出する,FOCALと呼ばれる新しいコントラスト学習フレームワークを提案する。
ダウンストリームタスクにおける最先端のベースラインを、明確なマージンで一貫して上回る。
論文 参考訳(メタデータ) (2023-10-30T22:55:29Z) - An Efficient Temporary Deepfake Location Approach Based Embeddings for
Partially Spoofed Audio Detection [4.055489363682199]
本稿では,時間的ディープフェイク位置(TDL)という,きめ細かな部分スプーフ音声検出手法を提案する。
提案手法は, 類似モジュールの埋め込みと時間的畳み込み操作という2つの新しい部分を含む。
提案手法は, ASVspoof 2019 partial Spoof データセットのベースラインモデルより優れ, クロスデータセットシナリオにおいても優れた性能を示す。
論文 参考訳(メタデータ) (2023-09-06T14:29:29Z) - Temporally-Consistent Surface Reconstruction using Metrically-Consistent
Atlases [131.50372468579067]
そこで本稿では,時間変化点雲列から時間一貫性のある面列を復元する手法を提案する。
我々は、再構成された表面をニューラルネットワークによって計算されたアトラスとして表現し、フレーム間の対応性を確立することができる。
当社のアプローチは、いくつかの挑戦的なデータセットにおいて、最先端のものよりも優れています。
論文 参考訳(メタデータ) (2021-11-12T17:48:25Z) - Improving Video Instance Segmentation via Temporal Pyramid Routing [61.10753640148878]
Video Instance(VIS)は、ビデオシーケンス内の各インスタンスを検出し、セグメンテーションし、追跡することを目的とした、新しい、本質的にはマルチタスク問題である。
隣接する2つのフレームからなる特徴ピラミッド対から画素レベルのアグリゲーションを条件付きで調整し,実行するための時間ピラミッドルーティング(TPR)戦略を提案する。
我々のアプローチはプラグイン・アンド・プレイモジュールであり、既存のインスタンス・セグメンテーション・メソッドにも容易に適用できます。
論文 参考訳(メタデータ) (2021-07-28T03:57:12Z) - Unsupervised Representation Learning for Time Series with Temporal
Neighborhood Coding [8.45908939323268]
非定常時系列に対する一般化可能な表現を学習するための自己教師型フレームワークを提案する。
我々のモチベーションは、時系列データの動的性質をモデル化する能力が特に有用である医療分野に起因している。
論文 参考訳(メタデータ) (2021-06-01T19:53:24Z) - SeqNet: Learning Descriptors for Sequence-based Hierarchical Place
Recognition [31.714928102950594]
本稿では,高性能初期一致仮説生成器を生成する新しいハイブリッドシステムを提案する。
シーケンス記述子はseqnetと呼ばれる時間畳み込みネットワークを使って生成される。
次に、ショートリスト付き単一画像学習記述子を用いて選択的な逐次スコアアグリゲーションを行い、全体の位置一致仮説を生成する。
論文 参考訳(メタデータ) (2021-02-23T10:32:10Z) - Co-Saliency Spatio-Temporal Interaction Network for Person
Re-Identification in Videos [85.6430597108455]
本稿では,ビデオにおける人物の身元確認のためのCSTNet(Co-Saliency Spatio-Temporal Interaction Network)を提案する。
ビデオフレーム間の共通した有意な前景領域をキャプチャし、そのような領域からの空間的時間的長距離コンテキストの相互依存性を探索する。
CSTNet内の複数の空間的時間的相互作用モジュールを提案し,その特徴と空間的時間的情報相関の空間的・時間的長期的相互依存性を利用した。
論文 参考訳(メタデータ) (2020-04-10T10:23:58Z) - Efficient Semantic Video Segmentation with Per-frame Inference [117.97423110566963]
本研究では,フレームごとの効率的なセマンティックビデオセグメンテーションを推論プロセス中に処理する。
そこで我々は,コンパクトモデルと大規模モデルのパフォーマンスギャップを狭めるために,新しい知識蒸留法を設計した。
論文 参考訳(メタデータ) (2020-02-26T12:24:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。