論文の概要: SMTrack: State-Aware Mamba for Efficient Temporal Modeling in Visual Tracking
- arxiv url: http://arxiv.org/abs/2602.01677v1
- Date: Mon, 02 Feb 2026 05:44:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.933762
- Title: SMTrack: State-Aware Mamba for Efficient Temporal Modeling in Visual Tracking
- Title(参考訳): SMTrack:ビジュアルトラッキングにおける効率的な時間モデリングのための状態認識型マンバ
- Authors: Yinchao Ma, Dengqing Yang, Zhangyu He, Wenfei Yang, Tianzhu Zhang,
- Abstract要約: 我々は、状態認識型マンバトラッカー(SMTrack)と呼ばれる視覚追跡のための新しい時間的モデリングパラダイムを提案する。
SMTrackは、カスタマイズされたモジュールや、長期の時間的依存関係を構築するための相当な計算コストを必要とせずに、トレーニングとトラッキングのための適切なパイプラインを提供する。
SMTrackは計算コストの低い有望な性能を実現している。
- 参考スコア(独自算出の注目度): 39.1131712751769
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual tracking aims to automatically estimate the state of a target object in a video sequence, which is challenging especially in dynamic scenarios. Thus, numerous methods are proposed to introduce temporal cues to enhance tracking robustness. However, conventional CNN and Transformer architectures exhibit inherent limitations in modeling long-range temporal dependencies in visual tracking, often necessitating either complex customized modules or substantial computational costs to integrate temporal cues. Inspired by the success of the state space model, we propose a novel temporal modeling paradigm for visual tracking, termed State-aware Mamba Tracker (SMTrack), providing a neat pipeline for training and tracking without needing customized modules or substantial computational costs to build long-range temporal dependencies. It enjoys several merits. First, we propose a novel selective state-aware space model with state-wise parameters to capture more diverse temporal cues for robust tracking. Second, SMTrack facilitates long-range temporal interactions with linear computational complexity during training. Third, SMTrack enables each frame to interact with previously tracked frames via hidden state propagation and updating, which releases computational costs of handling temporal cues during tracking. Extensive experimental results demonstrate that SMTrack achieves promising performance with low computational costs.
- Abstract(参考訳): ビジュアルトラッキングは、特に動的シナリオにおいて困難な、ビデオシーケンス中の対象オブジェクトの状態を自動的に推定することを目的としている。
このようにして、追跡堅牢性を高めるための時間的手がかりを導入するために、多くの方法が提案されている。
しかし、従来のCNNとTransformerアーキテクチャは、視覚的トラッキングにおける長期の時間的依存関係をモデル化するのに固有の制約を示しており、複雑なカスタマイズモジュールや時間的キューを統合するためのかなりの計算コストを必要とすることが多い。
状態空間モデルの成功にインスパイアされた、視覚的トラッキングのための新しい時間的モデリングパラダイムである、ステート・アウェア・マンバ・トラッカー(SMTrack, State-aware Mamba Tracker)を提案する。
いくつかの利点を享受している。
まず、より多様な時間的手がかりを捕捉し、ロバストな追跡を行うために、状態的パラメータを持つ新しい選択型状態認識空間モデルを提案する。
第二に、SMTrackは訓練中の線形計算複雑性と長距離時間的相互作用を促進する。
第3に、SMTrackでは、各フレームが隠れ状態の伝搬と更新を通じて、以前追跡されたフレームと対話することが可能で、トラッキング中の時間的キューを処理する計算コストが解放される。
SMTrackは計算コストの低い有望な性能を実現している。
関連論文リスト
- Exploring Reliable Spatiotemporal Dependencies for Efficient Visual Tracking [9.64398631601942]
STDTrackは、信頼性のある時間的依存関係を軽量トラッカーに統合する先駆的なフレームワークである。
本稿では,時間的プロパゲートトークンを導入し,フレーム単位の特徴抽出をガイドする。
異なるサイズのオブジェクトに動的に適応するマルチスケール予測ヘッドを開発した。
論文 参考訳(メタデータ) (2026-01-14T02:22:05Z) - TrackingMiM: Efficient Mamba-in-Mamba Serialization for Real-time UAV Object Tracking [4.6672950054734255]
本稿では,追跡問題の画像列処理のための最小計算負荷モデルであるTrackingMiMを提案する。
本フレームワークでは,時間的および空間的コヒーレントなパッチトークンを独立に処理しながら,ネストした方法でマンバスキャンを行う。
論文 参考訳(メタデータ) (2025-07-02T09:40:37Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - Exploiting Multimodal Spatial-temporal Patterns for Video Object Tracking [53.33637391723555]
本研究では,STTrack というマルチモーダル空間時間追跡手法を提案する。
従来のパラダイムとは対照的に,マルチモーダル時間情報を含むトークン列を連続的に生成する時間状態生成器(TSG)を導入している。
これらの時間情報トークンは、次の時刻におけるターゲットの局所化を誘導し、ビデオフレーム間の長距離コンテキスト関係を確立し、ターゲットの時間軌道を捕捉するために使用される。
論文 参考訳(メタデータ) (2024-12-20T09:10:17Z) - Exploring Dynamic Transformer for Efficient Object Tracking [58.120191254379854]
効率的なトラッキングのための動的トランスフォーマーフレームワークであるDyTrackを提案する。
DyTrackは、様々な入力に対して適切な推論ルートを設定することを学習し、利用可能な計算予算をより活用する。
複数のベンチマークの実験では、DyTrackは単一のモデルで有望な速度精度のトレードオフを実現している。
論文 参考訳(メタデータ) (2024-03-26T12:31:58Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。