論文の概要: TrackingMiM: Efficient Mamba-in-Mamba Serialization for Real-time UAV Object Tracking
- arxiv url: http://arxiv.org/abs/2507.01535v1
- Date: Wed, 02 Jul 2025 09:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.134417
- Title: TrackingMiM: Efficient Mamba-in-Mamba Serialization for Real-time UAV Object Tracking
- Title(参考訳): TrackingMiM:リアルタイムUAVオブジェクト追跡のための効率的なマンバ・イン・マンバシリアライズ
- Authors: Bingxi Liu, Calvin Chen, Junhao Li, Guyang Yu, Haoqian Song, Xuchen Liu, Jinqiang Cui, Hong Zhang,
- Abstract要約: 本稿では,追跡問題の画像列処理のための最小計算負荷モデルであるTrackingMiMを提案する。
本フレームワークでは,時間的および空間的コヒーレントなパッチトークンを独立に処理しながら,ネストした方法でマンバスキャンを行う。
- 参考スコア(独自算出の注目度): 4.6672950054734255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Vision Transformer (ViT) model has long struggled with the challenge of quadratic complexity, a limitation that becomes especially critical in unmanned aerial vehicle (UAV) tracking systems, where data must be processed in real time. In this study, we explore the recently proposed State-Space Model, Mamba, leveraging its computational efficiency and capability for long-sequence modeling to effectively process dense image sequences in tracking tasks. First, we highlight the issue of temporal inconsistency in existing Mamba-based methods, specifically the failure to account for temporal continuity in the Mamba scanning mechanism. Secondly, building upon this insight,we propose TrackingMiM, a Mamba-in-Mamba architecture, a minimal-computation burden model for handling image sequence of tracking problem. In our framework, the mamba scan is performed in a nested way while independently process temporal and spatial coherent patch tokens. While the template frame is encoded as query token and utilized for tracking in every scan. Extensive experiments conducted on five UAV tracking benchmarks confirm that the proposed TrackingMiM achieves state-of-the-art precision while offering noticeable higher speed in UAV tracking.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)モデルは、データをリアルタイムに処理しなければならない無人航空機(UAV)の追跡システムにおいて特に重要な制限である二次的複雑性の課題に長年取り組んできた。
本研究では,最近提案された状態空間モデルであるMambaについて検討し,その計算効率と長周期モデリング能力を利用して,追跡タスクにおける高密度画像シーケンスを効果的に処理する。
まず,既存のマンバ法における時間的不整合の問題,特にマンバ走査機構における時間的連続性を考慮できないことを強調する。
次に,この知見に基づいて,追跡問題の画像列を扱う最小計算負荷モデルであるTrackingMiMを提案する。
本フレームワークでは,時間的および空間的コヒーレントなパッチトークンを独立に処理しながら,ネストした方法でマンバスキャンを行う。
テンプレートフレームはクエリトークンとしてエンコードされ、スキャン毎にトラッキングに使用される。
5つのUAV追跡ベンチマークで実施された大規模な実験は、提案されたTrackingMiMが最先端の精度を達成し、UAV追跡の顕著な高速化を提供することを確認した。
関連論文リスト
- Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - MambaNUT: Nighttime UAV Tracking via Mamba-based Adaptive Curriculum Learning [5.9089796108568855]
本稿では,線形複雑度を背骨とする状態空間モデルを用いた純粋なMambaベースのトラッキングフレームワーク(MambaNUT)を提案する。
適応型カリキュラム学習(ACL)アプローチを導入し、動的サンプリング戦略と損失重みを調整する。
複数の夜間UAV追跡ベンチマークでの被曝実験は、提案されたMambaNUTが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-01T00:51:23Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks [77.84636815364905]
本稿では,種々の時間的マッチングに基づくダウンストリームタスクに対して,マスク付きオートエンコーダ(MAE)ビデオの事前学習を行う。
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Unsupervised Learning of Accurate Siamese Tracking [68.58171095173056]
分類枝と回帰枝の両方で時間対応を学習できる新しい教師なし追跡フレームワークを提案する。
トラッカーは、トラッカーネットやLaSOTのような大規模データセット上で、教師なしの手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2022-04-04T13:39:43Z) - Unsupervised Multiple Person Tracking using AutoEncoder-Based Lifted
Multicuts [11.72025865314187]
最小限の視覚的特徴とリフトマルチカットに基づく教師なし多重物体追跡手法を提案する。
提案したアノテーションを使わずにトレーニングされているにもかかわらず,我々のモデルは,歩行者追跡のための挑戦的なMOTベンチマークにおいて,競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2020-02-04T09:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。