論文の概要: UBATrack: Spatio-Temporal State Space Model for General Multi-Modal Tracking
- arxiv url: http://arxiv.org/abs/2601.14799v1
- Date: Wed, 21 Jan 2026 09:24:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.313496
- Title: UBATrack: Spatio-Temporal State Space Model for General Multi-Modal Tracking
- Title(参考訳): UBATrack: 汎用マルチモーダルトラッキングのための時空間時空間モデル
- Authors: Qihua Liang, Liang Chen, Yaozong Zheng, Jian Nong, Zhiyi Mo, Bineng Zhong,
- Abstract要約: UBATrackと呼ばれる,マンバスタイルの状態に基づく新しいマルチモーダルトラッキングフレームワークを提案する。
UBATrack は S-temporal Mamba Adapter (MA) と Dynamic Multi-modal Feature Mixer の2つの単純かつ効果的な作業空間から構成されている。
実験により、UBATrackはRGB-T、RGB-D、RGB-E追跡ベンチマークにおいて最先端の手法より優れていることが示された。
- 参考スコア(独自算出の注目度): 40.8191099453086
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multi-modal object tracking has attracted considerable attention by integrating multiple complementary inputs (e.g., thermal, depth, and event data) to achieve outstanding performance. Although current general-purpose multi-modal trackers primarily unify various modal tracking tasks (i.e., RGB-Thermal infrared, RGB-Depth or RGB-Event tracking) through prompt learning, they still overlook the effective capture of spatio-temporal cues. In this work, we introduce a novel multi-modal tracking framework based on a mamba-style state space model, termed UBATrack. Our UBATrack comprises two simple yet effective modules: a Spatio-temporal Mamba Adapter (STMA) and a Dynamic Multi-modal Feature Mixer. The former leverages Mamba's long-sequence modeling capability to jointly model cross-modal dependencies and spatio-temporal visual cues in an adapter-tuning manner. The latter further enhances multi-modal representation capacity across multiple feature dimensions to improve tracking robustness. In this way, UBATrack eliminates the need for costly full-parameter fine-tuning, thereby improving the training efficiency of multi-modal tracking algorithms. Experiments show that UBATrack outperforms state-of-the-art methods on RGB-T, RGB-D, and RGB-E tracking benchmarks, achieving outstanding results on the LasHeR, RGBT234, RGBT210, DepthTrack, VOT-RGBD22, and VisEvent datasets.
- Abstract(参考訳): マルチモーダル物体追跡は、優れた性能を達成するために複数の補完的な入力(例えば、熱、深さ、事象データ)を統合することで、かなりの注目を集めている。
現在の汎用マルチモーダルトラッカーは、様々なモーダルトラッキングタスク(RGB-サーマル赤外線、RGB-Depth、RGB-Eventトラッキングなど)を即時学習を通じて統合しているが、時空間の効果的な捕捉は見落としている。
本研究では,マンバ型状態空間モデルに基づく新しいマルチモーダルトラッキングフレームワークUBATrackを提案する。
我々のUBATrackは、時空間マンバアダプタ(STMA)と動的マルチモーダル特徴混合器の2つの単純かつ効果的なモジュールで構成されている。
前者は、Mambaの長いシーケンスモデリング機能を活用して、アダプタチューニング方式で、相互依存と時空間視覚的キューを共同でモデル化する。
後者は、トラッキングの堅牢性を改善するために、複数の特徴次元にわたるマルチモーダル表現能力をさらに強化する。
このようにして、UBATrackはコストのかかるフルパラメータの微調整を必要としないため、マルチモーダルトラッキングアルゴリズムのトレーニング効率が向上する。
実験の結果、UBATrackはRGB-T、RGB-D、RGB-Eのトラッキングベンチマークで最先端の手法よりも優れており、LasHeR、RGBT234、RGBT210、DepthTrack、VOT-RGBD22、VisEventのデータセットで優れた結果が得られた。
関連論文リスト
- Learning Frequency and Memory-Aware Prompts for Multi-Modal Object Tracking [74.15663758681849]
凍結したRGBトラッカーに軽量なプロンプトを注入するデュアルアダプタフレームワークであるLearning Frequency and Memory-Aware Promptsを紹介する。
周波数誘導型ビジュアルアダプタは、相補的なキューをモダリティ間で適応的に転送する。
短い、長い、永続的なメモリストアを持つマルチレベルメモリアダプタは、信頼できる時間的コンテキストを格納し、更新し、取得する。
論文 参考訳(メタデータ) (2025-06-30T15:38:26Z) - Mamba-FETrack V2: Revisiting State Space Model for Frame-Event based Visual Object Tracking [9.353589376846902]
線形複雑ビジョン・マンバネットワークに基づく効率的なRGB-Eventオブジェクト追跡フレームワークを提案する。
ソースコードと事前トレーニングされたモデルはhttps://github.com/Event-AHU/Mamba_FETrack.comで公開される。
論文 参考訳(メタデータ) (2025-06-30T12:24:01Z) - Diff-MM: Exploring Pre-trained Text-to-Image Generation Model for Unified Multi-modal Object Tracking [45.341224888996514]
マルチモーダルオブジェクトトラッキングは、深度、熱赤外、イベントフロー、言語などの補助的なモダリティを統合する。
既存の手法は通常、RGBベースのトラッカーから始まり、トレーニングデータのみから補助的なモダリティを理解することを学ぶ。
本研究では,事前学習したテキスト・ツー・イメージ生成モデルのマルチモーダル理解機能を利用して,統合されたマルチモーダル・トラッカーDiff-MMを提案する。
論文 参考訳(メタデータ) (2025-05-19T01:42:13Z) - Bi-directional Adapter for Multi-modal Tracking [67.01179868400229]
汎用の双方向アダプタを用いたマルチモーダル視覚プロンプト追跡モデルを提案する。
我々は、モーダリティ固有の情報をあるモーダリティから別のモーダリティへ転送するための、シンプルだが効果的なライト・フィーチャー・アダプタを開発した。
本モデルでは,完全微調整法と素早い学習法の両方と比較して,追跡性能が優れている。
論文 参考訳(メタデータ) (2023-12-17T05:27:31Z) - Visual Prompt Multi-Modal Tracking [71.53972967568251]
Visual Prompt Multi-modal Tracking (ViPT)は、凍結したトレーニング済み基礎モデルを様々な下流マルチモーダル追跡タスクに適応させるモーダル関連プロンプトを学習する。
ViPTは、RGB+Depth、RGB+Thermal、RGB+Eventトラッキングなど、複数のダウンストリームトラッキングタスクにおいて、完全な微調整パラダイムを上回っている。
論文 参考訳(メタデータ) (2023-03-20T01:51:07Z) - Prompting for Multi-Modal Tracking [70.0522146292258]
マルチモーダルトラッキングのための新しいマルチモーダルプロンプトトラッカー(ProTrack)を提案する。
ProTrackはプロンプトパラダイムにより、マルチモーダル入力を単一モーダルに変換することができる。
我々のProTrackは、マルチモーダルデータに余分な訓練を加えることなく、入力を変更するだけで高性能なマルチモーダルトラッキングを実現することができる。
論文 参考訳(メタデータ) (2022-07-29T09:35:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。