論文の概要: Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking
- arxiv url: http://arxiv.org/abs/2503.00516v1
- Date: Sat, 01 Mar 2025 14:44:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:19:05.424231
- Title: Two-stream Beats One-stream: Asymmetric Siamese Network for Efficient Visual Tracking
- Title(参考訳): 2ストリームビート1ストリーム:効率的な視覚追跡のための非対称シームネットワーク
- Authors: Jiawen Zhu, Huayi Tang, Xin Chen, Xinying Wang, Dong Wang, Huchuan Lu,
- Abstract要約: 効率的な追跡を行うために,textbfAsymTrack という新しい非対称なシームズトラッカーを提案する。
このアーキテクチャに基づいて、検索機能に重要な手がかりを注入する効率的なテンプレート変調機構を考案する。
実験によると、AsymTrackは異なるプラットフォーム間で、より優れたスピード精度のトレードオフを提供する。
- 参考スコア(独自算出の注目度): 54.124445709376154
- License:
- Abstract: Efficient tracking has garnered attention for its ability to operate on resource-constrained platforms for real-world deployment beyond desktop GPUs. Current efficient trackers mainly follow precision-oriented trackers, adopting a one-stream framework with lightweight modules. However, blindly adhering to the one-stream paradigm may not be optimal, as incorporating template computation in every frame leads to redundancy, and pervasive semantic interaction between template and search region places stress on edge devices. In this work, we propose a novel asymmetric Siamese tracker named \textbf{AsymTrack} for efficient tracking. AsymTrack disentangles template and search streams into separate branches, with template computing only once during initialization to generate modulation signals. Building on this architecture, we devise an efficient template modulation mechanism to unidirectional inject crucial cues into the search features, and design an object perception enhancement module that integrates abstract semantics and local details to overcome the limited representation in lightweight tracker. Extensive experiments demonstrate that AsymTrack offers superior speed-precision trade-offs across different platforms compared to the current state-of-the-arts. For instance, AsymTrack-T achieves 60.8\% AUC on LaSOT and 224/81/84 FPS on GPU/CPU/AGX, surpassing HiT-Tiny by 6.0\% AUC with higher speeds. The code is available at https://github.com/jiawen-zhu/AsymTrack.
- Abstract(参考訳): 効率的なトラッキングは、デスクトップGPUを超えた現実のデプロイのために、リソースに制約のあるプラットフォームで運用できることに注意を向けている。
現在の効率的なトラッカーは主に精度指向のトラッカーに従っており、軽量モジュールを備えたワンストリームフレームワークを採用している。
しかし、各フレームにテンプレート計算を組み込むことで冗長性が生じ、テンプレートと検索領域間の広範囲なセマンティックな相互作用がエッジデバイスにストレスを与えるため、一ストリームのパラダイムに盲目的に固執することは最適ではないかもしれない。
本研究では,効率的な追跡のための新しい非対称なシームズトラッカーであるtextbf{AsymTrack} を提案する。
AsymTrackはテンプレートと検索ストリームを別々のブランチに切り離し、初期化時にのみテンプレートコンピューティングを使用して変調信号を生成する。
このアーキテクチャに基づいて,検索機能に一方向の重要な手がかりを注入するための効率的なテンプレート変調機構を考案し,軽量トラッカーにおける限られた表現を克服するために,抽象的意味論と局所的詳細を統合したオブジェクト知覚拡張モジュールを設計する。
大規模な実験により、AsymTrackは現在の最先端技術と比較して、異なるプラットフォーム間での速度精度のトレードオフが優れていることが示されている。
例えば、AsymTrack-T は LaSOT で 60.8\% AUC、GPU/CPU/AGXで 224/81/84 FPS を達成し、高速で HiT-Tiny を 6.0\% AUC で上回っている。
コードはhttps://github.com/jiawen-zhu/AsymTrack.comで公開されている。
関連論文リスト
- Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - BACTrack: Building Appearance Collection for Aerial Tracking [13.785254511683966]
Appearance Collection Trackingの構築 オンラインでターゲットテンプレートの動的コレクションを構築し、堅牢なトラッキングを実現するために効率的なマルチテンプレートマッチングを実行する。
BACTrackは、4つの挑戦的な空中トラッキングベンチマークで最高パフォーマンスを達成し、1つのGPU上で87FPSを超える驚くべきスピードを維持している。
論文 参考訳(メタデータ) (2023-12-11T05:55:59Z) - Separable Self and Mixed Attention Transformers for Efficient Object
Tracking [3.9160947065896803]
本稿では,軽量トラッキングのための自己・混在型アテンショントランスフォーマーアーキテクチャを提案する。
これらの貢献により、提案された軽量トラッカーは、トランスフォーマーベースのバックボーンとヘッドモジュールを、初めて同時にデプロイする。
シミュレーションの結果、SMATはGOT10k、TrackingNet、LaSOT、NfS30、UAV123、AVisTデータセット上の関連する軽量トラッカーのパフォーマンスを上回っている。
論文 参考訳(メタデータ) (2023-09-07T19:23:02Z) - Exploring Lightweight Hierarchical Vision Transformers for Efficient
Visual Tracking [69.89887818921825]
HiTは、さまざまなデバイス上で高速に動作可能な、効率的なトラッキングモデルの新たなファミリーだ。
HiTはLaSOTベンチマークで64.6%のAUCを達成した。
論文 参考訳(メタデータ) (2023-08-14T02:51:34Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Joint Feature Learning and Relation Modeling for Tracking: A One-Stream
Framework [76.70603443624012]
特徴学習と関係モデリングを統合した新しい一ストリーム追跡(OSTrack)フレームワークを提案する。
このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。
OSTrackは、複数のベンチマークで最先端のパフォーマンスを実現しており、特に、ワンショットトラッキングベンチマークのGOT-10kでは印象的な結果を示している。
論文 参考訳(メタデータ) (2022-03-22T18:37:11Z) - FEAR: Fast, Efficient, Accurate and Robust Visual Tracker [2.544539499281093]
私たちは、新しい、高速で、効率的で、正確で、堅牢なシームズ・ビジュアル・トラッカーであるFEARを紹介します。
FEAR-XSトラッカーは、LightTrack [62]より2.4倍小さく、4.3倍高速で精度が高い。
論文 参考訳(メタデータ) (2021-12-15T08:28:55Z) - TrTr: Visual Tracking with Transformer [29.415900191169587]
トランスフォーマーエンコーダデコーダアーキテクチャと呼ばれる強力な注意メカニズムに基づく新しいトラッカーネットワークを提案する。
形状非依存アンカーに基づくターゲットのローカライズを行うトランスの出力を用いて,分類と回帰ヘッドを設計する。
本手法は最先端のアルゴリズムに好適に作用する。
論文 参考訳(メタデータ) (2021-05-09T02:32:28Z) - Learning Spatio-Appearance Memory Network for High-Performance Visual
Tracking [79.80401607146987]
既存のオブジェクトトラッキングは通常、フレーム間の視覚的ターゲットにマッチするバウンディングボックスベースのテンプレートを学習する。
本稿では,局所時間メモリネットワークを備え,正確な時空間対応を学習するセグメンテーションに基づくトラッキングアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-09-21T08:12:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。