論文の概要: Learning Spatio-Temporal Transformer for Visual Tracking
- arxiv url: http://arxiv.org/abs/2103.17154v1
- Date: Wed, 31 Mar 2021 15:19:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-01 14:29:44.766113
- Title: Learning Spatio-Temporal Transformer for Visual Tracking
- Title(参考訳): 視線追跡のための時空間変換器の学習
- Authors: Bin Yan, Houwen Peng, Jianlong Fu, Dong Wang, Huchuan Lu
- Abstract要約: 本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
メソッド全体がエンドツーエンドであり、コサインウィンドウやバウンディングボックススムーシングのような後処理ステップは不要である。
提案されたトラッカーは、Siam R-CNNよりも6倍速いリアルタイム速度を実行しながら、5つのチャレンジングな短期および長期ベンチマークで最先端のパフォーマンスを実現します。
- 参考スコア(独自算出の注目度): 108.11680070733598
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a new tracking architecture with an encoder-decoder
transformer as the key component. The encoder models the global spatio-temporal
feature dependencies between target objects and search regions, while the
decoder learns a query embedding to predict the spatial positions of the target
objects. Our method casts object tracking as a direct bounding box prediction
problem, without using any proposals or predefined anchors. With the
encoder-decoder transformer, the prediction of objects just uses a simple
fully-convolutional network, which estimates the corners of objects directly.
The whole method is end-to-end, does not need any postprocessing steps such as
cosine window and bounding box smoothing, thus largely simplifying existing
tracking pipelines. The proposed tracker achieves state-of-the-art performance
on five challenging short-term and long-term benchmarks, while running at
real-time speed, being 6x faster than Siam R-CNN. Code and models are
open-sourced at https://github.com/researchmm/Stark.
- Abstract(参考訳): 本稿では,エンコーダ・デコーダ変換器をキーコンポーネントとする新しいトラッキングアーキテクチャを提案する。
エンコーダは対象オブジェクトと検索領域間のグローバル時空間的特徴依存性をモデル化し、デコーダは対象オブジェクトの空間的位置を予測するためにクエリ埋め込みを学習する。
提案手法では,提案やアンカーを使わずに直接バウンディングボックス予測問題としてオブジェクト追跡を行う。
エンコーダ・デコーダ変換器では、オブジェクトの予測は単純な完全畳み込みネットワークを使い、オブジェクトの隅を直接推定する。
メソッド全体がエンドツーエンドで、コサインウィンドウやバウンディングボックススムージングなどの後処理ステップは必要ありません。
提案するトラッカーは,Siam R-CNNより6倍高速でリアルタイムに動作しながら,短期・長期の5つのベンチマークで最先端のパフォーマンスを実現する。
コードとモデルはhttps://github.com/researchmm/Stark.comで公開されている。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Detection Is Tracking: Point Cloud Multi-Sweep Deep Learning Models Revisited [0.0]
自律運転では、ライダー測定は通常、ディープラーニングモデルによって実現された「仮想センサー」を介して行われる。
本稿では,このような入力には時間的情報が含まれており,仮想センサの出力には時間的情報も含むべきであると論じる。
本稿では,MULti-Sweep PAired Detector (MULSPAD)と呼ばれる深層学習モデルを提案する。
論文 参考訳(メタデータ) (2024-02-24T08:07:48Z) - Dense Optical Tracking: Connecting the Dots [82.79642869586587]
DOTは、ビデオにおけるポイントトラッキングの問題を解決するための、新しくてシンプルで効率的な方法である。
OmniMotionのような高度な"ユニバーサルトラッカー"を上回り、CoTrackerのような最良のポイントトラッキングアルゴリズムと同等か、あるいはそれ以上の精度で、DOTが現在の光フロー技術よりもはるかに正確であることを示す。
論文 参考訳(メタデータ) (2023-12-01T18:59:59Z) - TrajectoryFormer: 3D Object Tracking Transformer with Predictive
Trajectory Hypotheses [51.60422927416087]
3Dマルチオブジェクトトラッキング(MOT)は、自律走行車やサービスロボットを含む多くのアプリケーションにとって不可欠である。
本稿では,新しいポイントクラウドベースの3DMOTフレームワークであるTrjectoryFormerを紹介する。
論文 参考訳(メタデータ) (2023-06-09T13:31:50Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Faster object tracking pipeline for real time tracking [0.0]
マルチオブジェクトトラッキング(MOT)は、視覚ベースのアプリケーションにとって難しい実践的問題である。
本稿では,検出に基づく物体追跡手法の高速化に有効な汎用パイプラインについて紹介する。
論文 参考訳(メタデータ) (2020-11-08T06:33:48Z) - End-to-End Object Detection with Transformers [88.06357745922716]
本稿では,オブジェクト検出を直接セット予測問題とみなす新しい手法を提案する。
我々のアプローチは検出パイプラインを合理化し、手作業で設計された多くのコンポーネントの必要性を効果的に除去する。
この新しいフレームワークの主な構成要素は、Detection TRansformerまたはDETRと呼ばれ、セットベースのグローバルな損失である。
論文 参考訳(メタデータ) (2020-05-26T17:06:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。