論文の概要: MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking
- arxiv url: http://arxiv.org/abs/2408.07889v1
- Date: Thu, 15 Aug 2024 02:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 15:19:12.810272
- Title: MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking
- Title(参考訳): MambaVT:ロバストなRGB-T追跡のための時空間時空間モデリング
- Authors: Simiao Lai, Chang Liu, Jiawen Zhu, Ben Kang, Yang Liu, Dong Wang, Huchuan Lu,
- Abstract要約: 本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 51.28485682954006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGB-T tracking algorithms have made remarkable progress by leveraging the global interaction capability and extensive pre-trained models of the Transformer architecture. Nonetheless, these methods mainly adopt imagepair appearance matching and face challenges of the intrinsic high quadratic complexity of the attention mechanism, resulting in constrained exploitation of temporal information. Inspired by the recently emerged State Space Model Mamba, renowned for its impressive long sequence modeling capabilities and linear computational complexity, this work innovatively proposes a pure Mamba-based framework (MambaVT) to fully exploit spatio-temporal contextual modeling for robust visible-thermal tracking. Specifically, we devise the long-range cross-frame integration component to globally adapt to target appearance variations, and introduce short-term historical trajectory prompts to predict the subsequent target states based on local temporal location clues. Extensive experiments show the significant potential of vision Mamba for RGB-T tracking, with MambaVT achieving state-of-the-art performance on four mainstream benchmarks while requiring lower computational costs. We aim for this work to serve as a simple yet strong baseline, stimulating future research in this field. The code and pre-trained models will be made available.
- Abstract(参考訳): 既存のRGB-T追跡アルゴリズムは、Transformerアーキテクチャのグローバルインタラクション機能と広範な事前学習モデルを活用することで、顕著な進歩を遂げている。
それにもかかわらず、これらの手法は、主にイメージペアの外観整合と、注意機構の本質的な高次複雑さの対面課題を採用し、時間情報の限定的利用をもたらす。
最近登場したState Space Model Mambaに触発されたこの研究は、長いシーケンスモデリング能力と線形計算の複雑さで有名だが、革新的に純粋なMambaベースのフレームワーク(MambaVT)を提案し、堅牢な可視熱追跡のための時空間モデリングを完全に活用する。
具体的には、長期のクロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応させ、短期的な歴史的軌跡のプロンプトを導入し、局所的な時間的位置の手がかりに基づいて、その後の目標状態を予測する。
大規模な実験により、RGB-T追跡のためのMambaのビジョンが大幅に向上し、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成し、計算コストの低減を図っている。
我々は,本研究を,シンプルながら強力なベースラインとして機能させることを目標とし,今後の研究を奨励する。
コードと事前訓練されたモデルは利用可能になる。
関連論文リスト
- STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - A Comparative Study on Dynamic Graph Embedding based on Mamba and Transformers [0.29687381456164]
本研究では,変圧器と最近提案されたMambaアーキテクチャを用いた動的グラフ埋め込み手法の比較解析を行った。
グラフ畳み込みネットワークを用いたTransformerG2G Augment、グラフ同型ネットワークエッジ畳み込みを用いたDG-Mamba、GDG-Mambaの3つの新しいモデルを導入する。
複数のベンチマークデータセットに対する実験により,Mambaベースのモデルが,リンク予測タスクにおけるトランスフォーマーベースのアプローチに匹敵する,あるいは優れた性能を達成できることが示されている。
論文 参考訳(メタデータ) (2024-12-15T19:56:56Z) - Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。
ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。
大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文 参考訳(メタデータ) (2024-11-23T06:36:16Z) - UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。
U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。
UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文 参考訳(メタデータ) (2024-10-15T04:56:43Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。
このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文 参考訳(メタデータ) (2024-08-04T14:10:33Z) - Cross-Scan Mamba with Masked Training for Robust Spectral Imaging [51.557804095896174]
本研究では,空間スペクトルSSMを用いたクロススキャンマンバ(CS-Mamba)を提案する。
実験の結果, CS-Mambaは最先端の性能を達成し, マスク付きトレーニング手法によりスムーズな特徴を再構築し, 視覚的品質を向上させることができた。
論文 参考訳(メタデータ) (2024-08-01T15:14:10Z) - DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。
Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文 参考訳(メタデータ) (2024-08-01T08:22:47Z) - MambaLRP: Explaining Selective State Space Sequence Models [18.133138020777295]
選択状態空間列モデル(マンバモデルと呼ばれる)を用いた最近のシーケンスモデリング手法は、関心が高まりつつある。
これらのモデルは、線形時間における長いシーケンスの効率的な処理を可能にし、言語モデリングのような広範囲のアプリケーションで急速に採用されている。
現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
論文 参考訳(メタデータ) (2024-06-11T12:15:47Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。