論文の概要: MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking
- arxiv url: http://arxiv.org/abs/2408.07889v1
- Date: Thu, 15 Aug 2024 02:29:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-16 15:19:12.810272
- Title: MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking
- Title(参考訳): MambaVT:ロバストなRGB-T追跡のための時空間時空間モデリング
- Authors: Simiao Lai, Chang Liu, Jiawen Zhu, Ben Kang, Yang Liu, Dong Wang, Huchuan Lu,
- Abstract要約: 本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
- 参考スコア(独自算出の注目度): 51.28485682954006
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing RGB-T tracking algorithms have made remarkable progress by leveraging the global interaction capability and extensive pre-trained models of the Transformer architecture. Nonetheless, these methods mainly adopt imagepair appearance matching and face challenges of the intrinsic high quadratic complexity of the attention mechanism, resulting in constrained exploitation of temporal information. Inspired by the recently emerged State Space Model Mamba, renowned for its impressive long sequence modeling capabilities and linear computational complexity, this work innovatively proposes a pure Mamba-based framework (MambaVT) to fully exploit spatio-temporal contextual modeling for robust visible-thermal tracking. Specifically, we devise the long-range cross-frame integration component to globally adapt to target appearance variations, and introduce short-term historical trajectory prompts to predict the subsequent target states based on local temporal location clues. Extensive experiments show the significant potential of vision Mamba for RGB-T tracking, with MambaVT achieving state-of-the-art performance on four mainstream benchmarks while requiring lower computational costs. We aim for this work to serve as a simple yet strong baseline, stimulating future research in this field. The code and pre-trained models will be made available.
- Abstract(参考訳): 既存のRGB-T追跡アルゴリズムは、Transformerアーキテクチャのグローバルインタラクション機能と広範な事前学習モデルを活用することで、顕著な進歩を遂げている。
それにもかかわらず、これらの手法は、主にイメージペアの外観整合と、注意機構の本質的な高次複雑さの対面課題を採用し、時間情報の限定的利用をもたらす。
最近登場したState Space Model Mambaに触発されたこの研究は、長いシーケンスモデリング能力と線形計算の複雑さで有名だが、革新的に純粋なMambaベースのフレームワーク(MambaVT)を提案し、堅牢な可視熱追跡のための時空間モデリングを完全に活用する。
具体的には、長期のクロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応させ、短期的な歴史的軌跡のプロンプトを導入し、局所的な時間的位置の手がかりに基づいて、その後の目標状態を予測する。
大規模な実験により、RGB-T追跡のためのMambaのビジョンが大幅に向上し、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成し、計算コストの低減を図っている。
我々は,本研究を,シンプルながら強力なベースラインとして機能させることを目標とし,今後の研究を奨励する。
コードと事前訓練されたモデルは利用可能になる。
関連論文リスト
- MambaLRP: Explaining Selective State Space Sequence Models [18.133138020777295]
マンバモデルは線形時間で長い列の効率的な処理を可能にする。
これらのモデルは、言語モデリングのような広範囲のアプリケーションで急速に採用されている。
現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
我々は、より安定かつ信頼性の高い関連伝播を保証するLRPフレームワーク内での新しいアルゴリズムであるMambaLRPを提案する。
論文 参考訳(メタデータ) (2024-06-11T12:15:47Z) - IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model [7.842507196763463]
赤外(IR)画像の超解像は、均質な背景画素分布とスパースターゲット領域の課題に直面している。
マンバをベースとした(選択的構造化状態空間モデル)モデルの最近の進歩は、視覚タスクにおいて大きな可能性を示している。
IRSRMamba: Infrared Image Super-Resolution via Mamba-based Wavelet Transform Feature Modulation Model。
論文 参考訳(メタデータ) (2024-05-16T07:49:24Z) - A Mixture of Experts Approach to 3D Human Motion Prediction [1.4974445469089412]
本研究は,Au-Tonomous Vehicle Motion Detectionなどのアプリケーションにとって重要な領域である,人間の動作予測の課題に対処する。
私たちの主な目的は、既存のモデルar-tectureを批判的に評価し、その利点と改善の機会を特定することです。
これは完全に微分可能なスパーストランスであり、推論コストの低いモデルキャパシティを有効にする有望な能力を示している。
論文 参考訳(メタデータ) (2024-05-09T20:26:58Z) - MiM-ISTD: Mamba-in-Mamba for Efficient Infrared Small Target Detection [72.46396769642787]
ネスト構造であるMamba-in-Mamba(MiM-ISTD)を開発した。
MiM-ISTDはSOTA法より8倍高速で、2048×2048$のイメージでテストすると、GPUメモリ使用率を62.2$%削減する。
論文 参考訳(メタデータ) (2024-03-04T15:57:29Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive
Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。
我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。
リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文 参考訳(メタデータ) (2023-06-20T03:02:14Z) - Global-to-Local Modeling for Video-based 3D Human Pose and Shape
Estimation [53.04781510348416]
フレーム内精度とフレーム間スムーズさにより,映像に基づく3次元人間のポーズと形状推定を評価する。
エンドツーエンドフレームワークGLoT(Global-to-Local Transformer)における長期的・短期的相関のモデル化を構造的に分離することを提案する。
我々のGLoTは、一般的なベンチマーク(3DPW、MPI-INF-3DHP、Human3.6M)において、最も低いモデルパラメータを持つ従来の最先端の手法を上回る。
論文 参考訳(メタデータ) (2023-03-26T14:57:49Z) - Goal-driven Self-Attentive Recurrent Networks for Trajectory Prediction [31.02081143697431]
人間の軌道予測は、自動運転車、社会認識ロボット、およびビデオ監視アプリケーションの主要な構成要素である。
本稿では,過去の観測位置のみに作用する軽量な注意型リカレントバックボーンを提案する。
我々はU-Netアーキテクチャに基づく共通のゴールモジュールを使用し、シーン準拠の目的地を予測するために意味情報を抽出する。
論文 参考訳(メタデータ) (2022-04-25T11:12:37Z) - Numerical Weather Forecasting using Convolutional-LSTM with Attention
and Context Matcher Mechanisms [10.759556555869798]
本稿では,高解像度気象データを予測するための新しいディープラーニングアーキテクチャを提案する。
我々の気象モデルは,ベースラインの深層学習モデルと比較して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2021-02-01T08:30:42Z) - Convolutional Tensor-Train LSTM for Spatio-temporal Learning [116.24172387469994]
本稿では,ビデオシーケンスの長期相関を効率的に学習できる高次LSTMモデルを提案する。
これは、時間をかけて畳み込み特徴を組み合わせることによって予測を行う、新しいテンソルトレインモジュールによって達成される。
この結果は,幅広いアプリケーションやデータセットにおいて,最先端のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-02-21T05:00:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。