論文の概要: Exploring Dynamic Transformer for Efficient Object Tracking
- arxiv url: http://arxiv.org/abs/2403.17651v1
- Date: Tue, 26 Mar 2024 12:31:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-27 15:27:36.595110
- Title: Exploring Dynamic Transformer for Efficient Object Tracking
- Title(参考訳): 効率的な物体追跡のための動的変圧器の探索
- Authors: Jiawen Zhu, Xin Chen, Haiwen Diao, Shuai Li, Jun-Yan He, Chenyang Li, Bin Luo, Dong Wang, Huchuan Lu,
- Abstract要約: 効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
- 参考スコア(独自算出の注目度): 58.120191254379854
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The speed-precision trade-off is a critical problem for visual object tracking which usually requires low latency and deployment on constrained resources. Existing solutions for efficient tracking mainly focus on adopting light-weight backbones or modules, which nevertheless come at the cost of a sacrifice in precision. In this paper, inspired by dynamic network routing, we propose DyTrack, a dynamic transformer framework for efficient tracking. Real-world tracking scenarios exhibit diverse levels of complexity. We argue that a simple network is sufficient for easy frames in video sequences, while more computation could be assigned to difficult ones. DyTrack automatically learns to configure proper reasoning routes for various inputs, gaining better utilization of the available computational budget. Thus, it can achieve higher performance with the same running speed. We formulate instance-specific tracking as a sequential decision problem and attach terminating branches to intermediate layers of the entire model. Especially, to fully utilize the computations, we introduce the feature recycling mechanism to reuse the outputs of predecessors. Furthermore, a target-aware self-distillation strategy is designed to enhance the discriminating capabilities of early predictions by effectively mimicking the representation pattern of the deep model. Extensive experiments on multiple benchmarks demonstrate that DyTrack achieves promising speed-precision trade-offs with only a single model. For instance, DyTrack obtains 64.9% AUC on LaSOT with a speed of 256 fps.
- Abstract(参考訳): 速度-精度のトレードオフは、通常は低レイテンシと制約されたリソースへのデプロイを必要とする視覚オブジェクト追跡にとって重要な問題である。
効率的な追跡のための既存のソリューションは主に軽量のバックボーンやモジュールの採用に焦点を当てている。
本稿では,動的ネットワークルーティングにインスパイアされた動的トランスフォーマフレームワークDyTrackを提案する。
現実世界の追跡シナリオは、様々なレベルの複雑さを示す。
単純なネットワークはビデオシーケンスの簡単なフレームに十分であり、計算は難しいフレームに割り当てられる可能性がある、と我々は主張する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
これにより、同じ走行速度で高い性能を達成することができる。
インスタンス固有のトラッキングを逐次決定問題として定式化し、終端分岐をモデル全体の中間層にアタッチする。
特に,計算を完全活用するために,前者の出力を再利用するための特徴リサイクル機構を導入する。
さらに、深層モデルの表現パターンを効果的に模倣することにより、早期予測の識別能力を高めるために、目標認識型自己蒸留戦略を設計する。
複数のベンチマークでの大規模な実験により、DyTrackは単一のモデルで有望な速度精度のトレードオフを達成することが示された。
例えば、DyTrackは、256fpsの速度でLaSOT上で64.9%のAUCを得る。
関連論文リスト
- Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Learning Motion Blur Robust Vision Transformers with Dynamic Early Exit for Real-Time UAV Tracking [14.382072224997074]
トレーニング済みのViTバックボーンを使用したシングルストリームアーキテクチャでは、パフォーマンス、効率、堅牢性が改善されている。
リアルタイムなUAV追跡のためにTransformerブロックを動的に終了する適応型フレームワークにすることで、このフレームワークの効率を向上する。
また, 動きのぼかし処理におけるViTsの有効性も改善した。これは, UAV, 追跡対象の速さ, あるいはその両方によって生じるUAVトラッキングの共通問題である。
論文 参考訳(メタデータ) (2024-07-07T14:10:04Z) - PNAS-MOT: Multi-Modal Object Tracking with Pareto Neural Architecture Search [64.28335667655129]
複数の物体追跡は、自律運転において重要な課題である。
トラッキングの精度が向上するにつれて、ニューラルネットワークはますます複雑になり、レイテンシが高いため、実際の運転シナリオにおける実践的な応用に課題が生じる。
本稿では,ニューラル・アーキテクチャ・サーチ(NAS)手法を用いて追跡のための効率的なアーキテクチャを探索し,比較的高い精度を維持しつつ,低リアルタイム遅延を実現することを目的とした。
論文 参考訳(メタデータ) (2024-03-23T04:18:49Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - DeepScale: An Online Frame Size Adaptation Framework to Accelerate
Visual Multi-object Tracking [8.878656943106934]
DeepScaleは、追跡スループットを高速化するモデルに依存しないフレームサイズ選択アプローチである。
フレームサイズを実行時に適応させることで、トラッキング精度と速度の適切なトレードオフを見つけることができる。
最先端のトラッカーであるDeepScale++と比較して、DeepScaleの亜種であるDeepScale++は、適度な劣化だけで1.57倍の高速化を実現している。
論文 参考訳(メタデータ) (2021-07-22T00:12:58Z) - Faster and Simpler Siamese Network for Single Object Tracking [9.365739363728983]
シングルオブジェクトトラッキング(SOT)はコンピュータビジョンにおいて最も重要なタスクの1つである。
Siameseネットワークが提案され、従来の方法よりも優れたパフォーマンスを発揮しています。
これらのメソッドのほとんどは、理想的な環境でのリアルタイムオブジェクトトラッキングのニーズにしか応えられなかった。
論文 参考訳(メタデータ) (2021-05-07T03:37:19Z) - Faster object tracking pipeline for real time tracking [0.0]
マルチオブジェクトトラッキング(MOT)は、視覚ベースのアプリケーションにとって難しい実践的問題である。
本稿では,検出に基づく物体追跡手法の高速化に有効な汎用パイプラインについて紹介する。
論文 参考訳(メタデータ) (2020-11-08T06:33:48Z) - Fast Video Object Segmentation With Temporal Aggregation Network and
Dynamic Template Matching [67.02962970820505]
ビデオオブジェクト(VOS)に「トラッキング・バイ・検出」を導入する。
本稿では,時間的アグリゲーションネットワークと動的時間進化テンプレートマッチング機構を提案する。
我々は,DAVISベンチマークで1フレームあたり0.14秒,J&Fで75.9%の速度で,複雑なベルとホイッスルを伴わずに,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2020-07-11T05:44:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。