論文の概要: TrackingMiM: Efficient Mamba-in-Mamba Serialization for Real-time UAV Object Tracking
- arxiv url: http://arxiv.org/abs/2507.01535v1
- Date: Wed, 02 Jul 2025 09:40:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-03 14:23:00.134417
- Title: TrackingMiM: Efficient Mamba-in-Mamba Serialization for Real-time UAV Object Tracking
- Title(参考訳): TrackingMiM:リアルタイムUAVオブジェクト追跡のための効率的なマンバ・イン・マンバシリアライズ
- Authors: Bingxi Liu, Calvin Chen, Junhao Li, Guyang Yu, Haoqian Song, Xuchen Liu, Jinqiang Cui, Hong Zhang,
- Abstract要約: 本稿では,追跡問題の画像列処理のための最小計算負荷モデルであるTrackingMiMを提案する。
本フレームワークでは,時間的および空間的コヒーレントなパッチトークンを独立に処理しながら,ネストした方法でマンバスキャンを行う。
- 参考スコア(独自算出の注目度): 4.6672950054734255
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The Vision Transformer (ViT) model has long struggled with the challenge of quadratic complexity, a limitation that becomes especially critical in unmanned aerial vehicle (UAV) tracking systems, where data must be processed in real time. In this study, we explore the recently proposed State-Space Model, Mamba, leveraging its computational efficiency and capability for long-sequence modeling to effectively process dense image sequences in tracking tasks. First, we highlight the issue of temporal inconsistency in existing Mamba-based methods, specifically the failure to account for temporal continuity in the Mamba scanning mechanism. Secondly, building upon this insight,we propose TrackingMiM, a Mamba-in-Mamba architecture, a minimal-computation burden model for handling image sequence of tracking problem. In our framework, the mamba scan is performed in a nested way while independently process temporal and spatial coherent patch tokens. While the template frame is encoded as query token and utilized for tracking in every scan. Extensive experiments conducted on five UAV tracking benchmarks confirm that the proposed TrackingMiM achieves state-of-the-art precision while offering noticeable higher speed in UAV tracking.
- Abstract(参考訳): ビジョントランスフォーマー(ViT)モデルは、データをリアルタイムに処理しなければならない無人航空機(UAV)の追跡システムにおいて特に重要な制限である二次的複雑性の課題に長年取り組んできた。
本研究では,最近提案された状態空間モデルであるMambaについて検討し,その計算効率と長周期モデリング能力を利用して,追跡タスクにおける高密度画像シーケンスを効果的に処理する。
まず,既存のマンバ法における時間的不整合の問題,特にマンバ走査機構における時間的連続性を考慮できないことを強調する。
次に,この知見に基づいて,追跡問題の画像列を扱う最小計算負荷モデルであるTrackingMiMを提案する。
本フレームワークでは,時間的および空間的コヒーレントなパッチトークンを独立に処理しながら,ネストした方法でマンバスキャンを行う。
テンプレートフレームはクエリトークンとしてエンコードされ、スキャン毎にトラッキングに使用される。
5つのUAV追跡ベンチマークで実施された大規模な実験は、提案されたTrackingMiMが最先端の精度を達成し、UAV追跡の顕著な高速化を提供することを確認した。
関連論文リスト
- CoWTracker: Tracking by Warping instead of Correlation [53.834673070954494]
ワープに有利なコストを削減できる高密度な点トラッカーを提案する。
近年の光学的流れの進展に触発されて,本手法では,現在の推定値に基づいて,対象フレームからクエリフレームへ特徴を変換することで,トラック推定を反復的に洗練する。
我々のモデルは,TAP-Vid-DAVIS,TAP-Vid-Kinetics,Robo-TAPなど,標準的な高密度点追跡ベンチマークの最先端性能を実現する。
論文 参考訳(メタデータ) (2026-02-04T18:58:59Z) - SMTrack: State-Aware Mamba for Efficient Temporal Modeling in Visual Tracking [39.1131712751769]
我々は、状態認識型マンバトラッカー(SMTrack)と呼ばれる視覚追跡のための新しい時間的モデリングパラダイムを提案する。
SMTrackは、カスタマイズされたモジュールや、長期の時間的依存関係を構築するための相当な計算コストを必要とせずに、トレーニングとトラッキングのための適切なパイプラインを提供する。
SMTrackは計算コストの低い有望な性能を実現している。
論文 参考訳(メタデータ) (2026-02-02T05:44:59Z) - Exploring Reliable Spatiotemporal Dependencies for Efficient Visual Tracking [9.64398631601942]
STDTrackは、信頼性のある時間的依存関係を軽量トラッカーに統合する先駆的なフレームワークである。
本稿では,時間的プロパゲートトークンを導入し,フレーム単位の特徴抽出をガイドする。
異なるサイズのオブジェクトに動的に適応するマルチスケール予測ヘッドを開発した。
論文 参考訳(メタデータ) (2026-01-14T02:22:05Z) - MATrack: Efficient Multiscale Adaptive Tracker for Real-Time Nighttime UAV Operations [9.890908637252709]
夜間UAV追跡は、現実世界のロボット操作において重大な課題に直面している。
低照度条件は視覚的知覚能力を制限するが、背景が散らばり、視界が頻繁に変化するため、既存のトラッカーが配置中にドリフトしたり失敗したりする。
夜間のUAV追跡に特化して設計されたマルチスケール適応システムであるMATrackを提案する。
論文 参考訳(メタデータ) (2025-10-24T15:54:05Z) - Trajectory-aware Shifted State Space Models for Online Video Super-Resolution [57.87099307245989]
本稿では、トラジェクトリ対応シフトSSM(TS-Mamba)に基づく新しいオンラインVSR手法を提案する。
TS-Mambaは、最初にビデオ内の軌跡を構築し、以前のフレームから最もよく似たトークンを選択する。
私たちのTS-Mambaは、ほとんどのケースで最先端のパフォーマンスを実現し、22.7%以上の削減複雑性(MAC)を実現しています。
論文 参考訳(メタデータ) (2025-08-14T08:42:15Z) - Tracking the Unstable: Appearance-Guided Motion Modeling for Robust Multi-Object Tracking in UAV-Captured Videos [58.156141601478794]
マルチオブジェクトトラッキング(UAVT)は、ビデオのフレーム間で一貫したアイデンティティを維持しながら、複数のオブジェクトを追跡することを目的としている。
既存の手法は、通常、動作キューと外観を別々にモデル化し、それらの相互作用を見渡して、最適下追跡性能をもたらす。
本稿では、AMC行列とMTCモジュールの2つの主要コンポーネントを通して、外観と動きの手がかりを利用するAMOTを提案する。
論文 参考訳(メタデータ) (2025-08-03T12:06:47Z) - Online Dense Point Tracking with Streaming Memory [54.22820729477756]
デンスポイントトラッキングは、ビデオのかなりの部分を通して、初期フレーム内のすべてのポイントの連続的な追跡を必要とする、困難なタスクである。
最近の点追跡アルゴリズムは、通常、最初のフレームから現在のフレームへの間接的な情報伝達のためにスライドウィンドウに依存する。
我々は、高密度のtextbfPOint textbfTracking とオンラインビデオ処理のための textbfStreaming メモリを備えた軽量で高速なモデルを提案する。
論文 参考訳(メタデータ) (2025-03-09T06:16:49Z) - MambaNUT: Nighttime UAV Tracking via Mamba-based Adaptive Curriculum Learning [5.9089796108568855]
本稿では,線形複雑度を背骨とする状態空間モデルを用いた純粋なMambaベースのトラッキングフレームワーク(MambaNUT)を提案する。
適応型カリキュラム学習(ACL)アプローチを導入し、動的サンプリング戦略と損失重みを調整する。
複数の夜間UAV追跡ベンチマークでの被曝実験は、提案されたMambaNUTが最先端の性能を達成することを示す。
論文 参考訳(メタデータ) (2024-12-01T00:51:23Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z) - Temporal Correlation Meets Embedding: Towards a 2nd Generation of JDE-based Real-Time Multi-Object Tracking [52.04679257903805]
共同検出・埋め込み(JDE)トラッカーは多目的追跡(MOT)タスクにおいて優れた性能を示した。
TCBTrackという名前のトラッカーは、複数の公開ベンチマークで最先端のパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2024-07-19T07:48:45Z) - Autoregressive Queries for Adaptive Tracking with Spatio-TemporalTransformers [55.46413719810273]
リッチ時間情報は、視覚追跡における複雑なターゲットの出現に不可欠である。
提案手法は,6つの一般的な追跡ベンチマークにおいてトラッカーの性能を向上させる。
論文 参考訳(メタデータ) (2024-03-15T02:39:26Z) - Multi-step Temporal Modeling for UAV Tracking [14.687636301587045]
MT-Track(MT-Track)は,UAV追跡の効率化を目的とした,効率的な多段階時間モデリングフレームワークである。
我々はテンプレートと検索領域の特徴間の相互作用を動的に評価するユニークな時間相関モジュールを公表する。
トラッキングシーケンスにおける時間的知識をモデル化することにより,過去のフレームと現在のフレームの相関マップを洗練するための相互変換モジュールを提案する。
論文 参考訳(メタデータ) (2024-03-07T09:48:13Z) - ACTrack: Adding Spatio-Temporal Condition for Visual Object Tracking [0.5371337604556311]
視覚的物体追跡(VOT)において,物体の時間的関係を効果的にモデル化することが重要な課題である
既存の手法は外観に基づく類似性や長期関係モデリングによって追跡され、連続するフレーム間の時間的コンテキストは容易に見過ごされてしまう。
本稿では,大規模な記憶条件を持つ付加的前時間追跡フレームワークであるACTrackについて述べる。このフレームワークは,そのパラメータを凍結することにより,トレーニング済みバックボーンの品質と性能を保ち,トラッキングにおける時間関係をモデル化するためのトレーニング可能な軽量付加性ネットを作成する。
我々は空間的特徴と時間的順序の整合性を確保するための付加的なシアム畳み込みネットワークを設計する。
論文 参考訳(メタデータ) (2024-02-27T07:34:08Z) - DropMAE: Learning Representations via Masked Autoencoders with Spatial-Attention Dropout for Temporal Matching Tasks [77.84636815364905]
本稿では,種々の時間的マッチングに基づくダウンストリームタスクに対して,マスク付きオートエンコーダ(MAE)ビデオの事前学習を行う。
そこで我々は,映像における時間的対応学習を容易にするために,フレーム再構成において空間的アテンション・ドロップアウトを適応的に行うDropMAEを提案する。
論文 参考訳(メタデータ) (2023-04-02T16:40:42Z) - Unsupervised Learning of Accurate Siamese Tracking [68.58171095173056]
分類枝と回帰枝の両方で時間対応を学習できる新しい教師なし追跡フレームワークを提案する。
トラッカーは、トラッカーネットやLaSOTのような大規模データセット上で、教師なしの手法と同等の性能を発揮する。
論文 参考訳(メタデータ) (2022-04-04T13:39:43Z) - DEFT: Detection Embeddings for Tracking [3.326320568999945]
我々は,DEFT と呼ばれる効率的な関節検出・追跡モデルを提案する。
提案手法は,外見に基づくオブジェクトマッチングネットワークと,下層のオブジェクト検出ネットワークとの協調学習に依存している。
DEFTは2Dオンライントラッキングリーダーボードのトップメソッドに匹敵する精度とスピードを持っている。
論文 参考訳(メタデータ) (2021-02-03T20:00:44Z) - Unsupervised Multiple Person Tracking using AutoEncoder-Based Lifted
Multicuts [11.72025865314187]
最小限の視覚的特徴とリフトマルチカットに基づく教師なし多重物体追跡手法を提案する。
提案したアノテーションを使わずにトレーニングされているにもかかわらず,我々のモデルは,歩行者追跡のための挑戦的なMOTベンチマークにおいて,競争力のある結果をもたらすことを示した。
論文 参考訳(メタデータ) (2020-02-04T09:42:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。