論文の概要: Towards Accurate Pixel-wise Object Tracking by Attention Retrieval
- arxiv url: http://arxiv.org/abs/2008.02745v3
- Date: Tue, 8 Sep 2020 02:06:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-02 07:30:31.525783
- Title: Towards Accurate Pixel-wise Object Tracking by Attention Retrieval
- Title(参考訳): 注意検索による精度の高い画素対象追跡に向けて
- Authors: Zhipeng Zhang, Bing Li, Weiming Hu, Houwen Peng
- Abstract要約: 本稿では,バックボーンの特徴に対するソフト空間制約を実現するために,アテンション検索ネットワーク(ARN)を提案する。
私たちは40fpsで動作しながら、最近のピクセルワイドオブジェクトトラッキングベンチマークであるVOT 2020に最先端のベンチマークを新たに設定しました。
- 参考スコア(独自算出の注目度): 50.06436600343181
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The encoding of the target in object tracking moves from the coarse
bounding-box to fine-grained segmentation map recently. Revisiting de facto
real-time approaches that are capable of predicting mask during tracking, we
observed that they usually fork a light branch from the backbone network for
segmentation. Although efficient, directly fusing backbone features without
considering the negative influence of background clutter tends to introduce
false-negative predictions, lagging the segmentation accuracy. To mitigate this
problem, we propose an attention retrieval network (ARN) to perform soft
spatial constraints on backbone features. We first build a look-up-table (LUT)
with the ground-truth mask in the starting frame, and then retrieves the LUT to
obtain an attention map for spatial constraints. Moreover, we introduce a
multi-resolution multi-stage segmentation network (MMS) to further weaken the
influence of background clutter by reusing the predicted mask to filter
backbone features. Our approach set a new state-of-the-art on recent pixel-wise
object tracking benchmark VOT2020 while running at 40 fps. Notably, the
proposed model surpasses SiamMask by 11.7/4.2/5.5 points on VOT2020, DAVIS2016,
and DAVIS2017, respectively. We will release our code at
https://github.com/researchmm/TracKit.
- Abstract(参考訳): オブジェクト追跡におけるターゲットのエンコーディングは、最近、粗い境界ボックスから細粒度のセグメンテーションマップに移行した。
追跡中にマスクを予測できるデファクトリアルタイムアプローチを再検討した結果,彼らは通常,バックボーンネットワークから光分枝を分岐してセグメンテーションを行った。
背景クラッタの負の影響を考慮せずにバックボーンの機能を効率よく融合するが、偽陰性予測を導入し、セグメンテーション精度を低下させる傾向にある。
この問題を軽減するために,バックボーンの特徴にソフトな空間制約を課すアテンション検索ネットワーク(ARN)を提案する。
まず,初期フレームに接地トラスマスクを備えたルックアップテーブル(LUT)を構築し,LUTを検索して空間制約に対するアテンションマップを得る。
さらに,マルチレゾリューションマルチステージセグメンテーションネットワーク(mms)を導入し,予測されたマスクを用いてバックボーン特徴をフィルタすることで背景クラッタの影響をさらに弱める。
私たちのアプローチは、40fpsで動作しながら、最近のpixel-wise object tracking benchmark vot2020に最新技術を設定した。
特に、提案されたモデルは、それぞれVOT2020、DAVIS2016、DAVIS2017で、SiamMaskを11.7/4.2/5.5ポイント上回る。
コードをhttps://github.com/researchmm/TracKit.comでリリースします。
関連論文リスト
- LAC-Net: Linear-Fusion Attention-Guided Convolutional Network for Accurate Robotic Grasping Under the Occlusion [79.22197702626542]
本稿では, 乱れ場面におけるロボットグルーピングのためのアモーダルセグメンテーションを探求する枠組みを提案する。
線形融合注意誘導畳み込みネットワーク(LAC-Net)を提案する。
その結果,本手法が最先端の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2024-08-06T14:50:48Z) - Visual Multi-Object Tracking with Re-Identification and Occlusion Handling using Labeled Random Finite Sets [10.618186767487993]
本稿では、オブジェクトの出現と隠蔽を解消するオンライン視覚多目的追跡(MOT)アルゴリズムを提案する。
我々の解は、ラベル付きランダム有限集合 (LRFS) フィルタリングアプローチに基づいている。
本稿では,トラックの重なり合う部分とそのサイズを考慮したファジィ検出モデルを提案する。
論文 参考訳(メタデータ) (2024-07-11T21:15:21Z) - Robust Visual Tracking by Segmentation [103.87369380021441]
対象範囲を推定することは、視覚的物体追跡において根本的な課題となる。
高精度なセグメンテーションマスクを生成するセグメンテーション中心のトラッキングパイプラインを提案する。
我々のトラッカーは、シーンのターゲットを背景コンテンツと明確に区別するターゲット表現をよりよく学習することができる。
論文 参考訳(メタデータ) (2022-03-21T17:59:19Z) - Object Propagation via Inter-Frame Attentions for Temporally Stable
Video Instance Segmentation [51.68840525174265]
ビデオインスタンスセグメンテーションは、ビデオ内のオブジェクトを検出し、セグメンテーションし、追跡することを目的としている。
現在のアプローチでは、画像レベルのセグメンテーションアルゴリズムを時間領域に拡張している。
本稿では,検出の欠如による問題を解消するビデオインスタンス分割手法を提案する。
論文 参考訳(メタデータ) (2021-11-15T04:15:57Z) - Spatiotemporal Graph Neural Network based Mask Reconstruction for Video
Object Segmentation [70.97625552643493]
本稿では,クラス非依存オブジェクトを半教師あり設定でセグメント化するタスクについて述べる。
提案手法のすべてを利用して局所的なコンテキストを捕捉する新しいグラフニューラルネットワーク(TG-Net)を提案する。
論文 参考訳(メタデータ) (2020-12-10T07:57:44Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。