論文の概要: Exploring Reliable Spatiotemporal Dependencies for Efficient Visual Tracking
- arxiv url: http://arxiv.org/abs/2601.09078v1
- Date: Wed, 14 Jan 2026 02:22:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.223058
- Title: Exploring Reliable Spatiotemporal Dependencies for Efficient Visual Tracking
- Title(参考訳): 効率的な視覚追跡のための信頼性のある時空間依存性の探索
- Authors: Junze Shi, Yang Yu, Jian Shi, Haibo Luo,
- Abstract要約: STDTrackは、信頼性のある時間的依存関係を軽量トラッカーに統合する先駆的なフレームワークである。
本稿では,時間的プロパゲートトークンを導入し,フレーム単位の特徴抽出をガイドする。
異なるサイズのオブジェクトに動的に適応するマルチスケール予測ヘッドを開発した。
- 参考スコア(独自算出の注目度): 9.64398631601942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in transformer-based lightweight object tracking have established new standards across benchmarks, leveraging the global receptive field and powerful feature extraction capabilities of attention mechanisms. Despite these achievements, existing methods universally employ sparse sampling during training--utilizing only one template and one search image per sequence--which fails to comprehensively explore spatiotemporal information in videos. This limitation constrains performance and cause the gap between lightweight and high-performance trackers. To bridge this divide while maintaining real-time efficiency, we propose STDTrack, a framework that pioneers the integration of reliable spatiotemporal dependencies into lightweight trackers. Our approach implements dense video sampling to maximize spatiotemporal information utilization. We introduce a temporally propagating spatiotemporal token to guide per-frame feature extraction. To ensure comprehensive target state representation, we disign the Multi-frame Information Fusion Module (MFIFM), which augments current dependencies using historical context. The MFIFM operates on features stored in our constructed Spatiotemporal Token Maintainer (STM), where a quality-based update mechanism ensures information reliability. Considering the scale variation among tracking targets, we develop a multi-scale prediction head to dynamically adapt to objects of different sizes. Extensive experiments demonstrate state-of-the-art results across six benchmarks. Notably, on GOT-10k, STDTrack rivals certain high-performance non-real-time trackers (e.g., MixFormer) while operating at 192 FPS(GPU) and 41 FPS(CPU).
- Abstract(参考訳): 近年のトランスフォーマーによる軽量物体追跡の進歩は、グローバルな受容場とアテンション機構の強力な特徴抽出機能を活用して、ベンチマークにまたがる新しい標準を確立している。
これらの成果にもかかわらず、既存の手法では、訓練中にスパースサンプリング(テンプレート1つとシーケンス1つあたりの検索画像)を普遍的に採用しているが、ビデオ内の時空間情報を包括的に探索することができない。
この制限は性能を制限し、軽量トラッカーと高性能トラッカーのギャップを生じさせる。
リアルタイムの効率を保ちながらこの分割をブリッジするために,信頼性の高い時空間依存を軽量トラッカーに統合するフレームワークSTDTrackを提案する。
提案手法は,時空間情報利用を最大化するための高密度ビデオサンプリングを実現する。
時間的に伝播する時空間トークンを導入し,フレーム単位の特徴抽出をガイドする。
MFIFM(Multi-frame Information Fusion Module)は歴史的文脈を用いて,現在の依存関係を増大させるモジュールである。
MFIFMは構築した時空間トークン管理装置(STM)に格納された機能で動作し、品質ベースの更新機構によって情報の信頼性が保証される。
追跡対象のスケール変動を考慮し、異なる大きさの物体に動的に適応するマルチスケール予測ヘッドを開発する。
大規模な実験では、6つのベンチマークで最先端の結果が示されている。
特に GOT-10k では、STDTrack は 192 FPS(GPU) と 41 FPS(CPU) で動作しながら、一部の高性能な非リアルタイムトラッカー (例えば MixFormer) と競合する。
関連論文リスト
- Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。