論文の概要: Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking
- arxiv url: http://arxiv.org/abs/2009.09669v5
- Date: Tue, 6 Apr 2021 05:37:10 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-16 04:58:22.702037
- Title: Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking
- Title(参考訳): 高性能ビジュアルトラッキングのための学習時空間メモリネットワーク
- Authors: Fei Xie, Wankou Yang, Bo Liu, Kaihua Zhang, Wanli Xue, Wangmeng Zuo
- Abstract要約: 既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 79.80401607146987
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing visual object tracking usually learns a bounding-box based template
to match the targets across frames, which cannot accurately learn a pixel-wise
representation, thereby being limited in handling severe appearance variations.
To address these issues, much effort has been made on segmentation-based
tracking, which learns a pixel-wise object-aware template and can achieve
higher accuracy than bounding-box template based tracking. However, existing
segmentation-based trackers are ineffective in learning the spatio-temporal
correspondence across frames due to no use of the rich temporal information. To
overcome this issue, this paper presents a novel segmentation-based tracking
architecture, which is equipped with a spatio-appearance memory network to
learn accurate spatio-temporal correspondence. Among it, an appearance memory
network explores spatio-temporal non-local similarity to learn the dense
correspondence between the segmentation mask and the current frame. Meanwhile,
a spatial memory network is modeled as discriminative correlation filter to
learn the mapping between feature map and spatial map. The appearance memory
network helps to filter out the noisy samples in the spatial memory network
while the latter provides the former with more accurate target geometrical
center. This mutual promotion greatly boosts the tracking performance. Without
bells and whistles, our simple-yet-effective tracking architecture sets new
state-of-the-arts on the VOT2016, VOT2018, VOT2019, GOT-10K, TrackingNet, and
VOT2020 benchmarks, respectively. Besides, our tracker outperforms the leading
segmentation-based trackers SiamMask and D3S on two video object segmentation
benchmarks DAVIS16 and DAVIS17 by a large margin. The source codes can be found
at https://github.com/phiphiphi31/DMB.
- Abstract(参考訳): 既存のビジュアルオブジェクト追跡は通常、フレーム間のターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
これらの問題に対処するため、セグメンテーションベースのトラッキングは、ピクセル単位のオブジェクト認識テンプレートを学習し、バウンディングボックスベースのトラッキングよりも高い精度を達成する。
しかし, 従来のセグメンテーションに基づくトラッカーは, 豊富な時間情報を用いないため, フレーム間の時空間対応を学習できない。
そこで本研究では,時空間の正確な対応を学習する時空間メモリネットワークを備えたセグメンテーションに基づく新しい追跡アーキテクチャを提案する。
その内、外見記憶ネットワークは時空間的非局所的類似性を探り、セグメンテーションマスクと現在のフレームとの密接な対応を学習する。
一方、空間記憶ネットワークを識別相関フィルタとしてモデル化し、特徴マップと空間マップのマッピングを学習する。
出現メモリネットワークは空間記憶ネットワーク内のノイズのサンプルをフィルタリングするのに役立つが、後者はより正確な対象幾何学的中心を提供する。
この相互促進は追跡性能を大きく向上させる。
VOT2016、VOT2018、VOT2019、GOT-10K、TrackingNet、VOT2020ベンチマークにそれぞれ新たな最先端技術が設定されています。
さらに、このトラッカーは2つのビデオオブジェクトセグメンテーションベンチマークであるDAVIS16とDAVIS17において、主要なセグメンテーションベースのトラッカーであるSiamMaskとD3Sを大きなマージンで上回っている。
ソースコードはhttps://github.com/phiphi31/DMBで確認できる。
関連論文リスト
- A Discriminative Single-Shot Segmentation Network for Visual Object
Tracking [13.375369415113534]
本稿では,識別可能な単発セグメンテーショントラッカーD3S2を提案する。
単ショットネットワークは、相補的な幾何学的性質を持つ2つのターゲットモデルを適用する。
D3S2はビデオオブジェクトセグメンテーションベンチマークでリードセグメンテーショントラッカーのSiamMaskを上回っている。
論文 参考訳(メタデータ) (2021-12-22T12:48:51Z) - Learning Dynamic Compact Memory Embedding for Deformable Visual Object
Tracking [82.34356879078955]
本稿では,セグメント化に基づく変形可能な視覚追跡手法の識別を強化するために,コンパクトなメモリ埋め込みを提案する。
DAVIS 2017ベンチマークでは,D3SやSiamMaskなどのセグメンテーションベースのトラッカーよりも優れている。
論文 参考訳(メタデータ) (2021-11-23T03:07:12Z) - Multi-Object Tracking and Segmentation with a Space-Time Memory Network [12.043574473965318]
トラックレットを関連づける新しいメモリベース機構に基づく多目的追跡とセグメンテーションの手法を提案する。
提案するトラッカーであるMeNToSは、特に長期データアソシエーションの問題に対処する。
論文 参考訳(メタデータ) (2021-10-21T17:13:17Z) - Prototypical Cross-Attention Networks for Multiple Object Tracking and
Segmentation [95.74244714914052]
複数のオブジェクトのトラッキングとセグメンテーションには、与えられたクラスのセットに属するオブジェクトを検出し、追跡し、セグメンテーションする必要がある。
オンライン上でリッチ・テンポラル情報を活用するプロトタイプ・クロス・アテンション・ネットワーク(PCAN)を提案する。
PCANは、Youtube-VISとBDD100Kデータセットで、現在のビデオインスタンス追跡とセグメンテーションコンテストの勝者を上回っている。
論文 参考訳(メタデータ) (2021-06-22T17:57:24Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - LiDAR-based Recurrent 3D Semantic Segmentation with Temporal Memory
Alignment [0.0]
本稿では,単一範囲の画像フレームを入力とする再帰セグメンテーションアーキテクチャ(RNN)を提案する。
私たちがテンポラルメモリアライメントと呼ぶアライメント戦略は、エゴモーションを使用して、フィーチャースペース内の連続フレーム間のメモリをテンポラリアライメントします。
2つの大規模データセットに対する提案手法の利点を実証し,いくつかの最先端手法と比較する。
論文 参考訳(メタデータ) (2021-03-03T09:01:45Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - DS-Net: Dynamic Spatiotemporal Network for Video Salient Object
Detection [78.04869214450963]
時間情報と空間情報のより効果的な融合のための新しい動的時空間ネットワーク(DSNet)を提案する。
提案手法は最先端アルゴリズムよりも優れた性能が得られることを示す。
論文 参考訳(メタデータ) (2020-12-09T06:42:30Z) - Towards Accurate Pixel-wise Object Tracking by Attention Retrieval [50.06436600343181]
本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
論文 参考訳(メタデータ) (2020-08-06T16:25:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。