Fugu-MT 論文翻訳(概要): MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking

論文の概要: MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking

arxiv url: http://arxiv.org/abs/2408.07889v1
Date: Thu, 15 Aug 2024 02:29:00 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 15:19:12.810272
Title: MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking
Title（参考訳）: MambaVT:ロバストなRGB-T追跡のための時空間時空間モデリング
Authors: Simiao Lai, Chang Liu, Jiawen Zhu, Ben Kang, Yang Liu, Dong Wang, Huchuan Lu,
Abstract要約: 本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
参考スコア（独自算出の注目度）: 51.28485682954006
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing RGB-T tracking algorithms have made remarkable progress by leveraging the global interaction capability and extensive pre-trained models of the Transformer architecture. Nonetheless, these methods mainly adopt imagepair appearance matching and face challenges of the intrinsic high quadratic complexity of the attention mechanism, resulting in constrained exploitation of temporal information. Inspired by the recently emerged State Space Model Mamba, renowned for its impressive long sequence modeling capabilities and linear computational complexity, this work innovatively proposes a pure Mamba-based framework (MambaVT) to fully exploit spatio-temporal contextual modeling for robust visible-thermal tracking. Specifically, we devise the long-range cross-frame integration component to globally adapt to target appearance variations, and introduce short-term historical trajectory prompts to predict the subsequent target states based on local temporal location clues. Extensive experiments show the significant potential of vision Mamba for RGB-T tracking, with MambaVT achieving state-of-the-art performance on four mainstream benchmarks while requiring lower computational costs. We aim for this work to serve as a simple yet strong baseline, stimulating future research in this field. The code and pre-trained models will be made available.
Abstract（参考訳）: 既存のRGB-T追跡アルゴリズムは、Transformerアーキテクチャのグローバルインタラクション機能と広範な事前学習モデルを活用することで、顕著な進歩を遂げている。それにもかかわらず、これらの手法は、主にイメージペアの外観整合と、注意機構の本質的な高次複雑さの対面課題を採用し、時間情報の限定的利用をもたらす。最近登場したState Space Model Mambaに触発されたこの研究は、長いシーケンスモデリング能力と線形計算の複雑さで有名だが、革新的に純粋なMambaベースのフレームワーク(MambaVT)を提案し、堅牢な可視熱追跡のための時空間モデリングを完全に活用する。具体的には、長期のクロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応させ、短期的な歴史的軌跡のプロンプトを導入し、局所的な時間的位置の手がかりに基づいて、その後の目標状態を予測する。大規模な実験により、RGB-T追跡のためのMambaのビジョンが大幅に向上し、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成し、計算コストの低減を図っている。我々は,本研究を,シンプルながら強力なベースラインとして機能させることを目標とし,今後の研究を奨励する。コードと事前訓練されたモデルは利用可能になる。

関連論文リスト

An Efficient and Mixed Heterogeneous Model for Image Restoration [71.85124734060665]
現在の主流のアプローチは、CNN、Transformers、Mambasの3つのアーキテクチャパラダイムに基づいている。混合構造融合に基づく効率的で汎用的なIRモデルであるRestorMixerを提案する。
論文参考訳（メタデータ） (2025-04-15T08:19:12Z)
EventMamba: Enhancing Spatio-Temporal Locality with State Space Models for Event-Based Video Reconstruction [66.84997711357101]
EventMambaは、イベントベースのビデオ再構成タスク用に設計された、特殊なモデルである。 EventMambaは、Transformerベースの方法と比較して、優れた視覚的品質を提供しながら、スピードを著しく向上させる。
論文参考訳（メタデータ） (2025-03-25T14:46:45Z)
RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing [28.488986896516284]
RoMAは、大規模で多様なラベルのないデータを使用して、RSファンデーションモデルのスケーラブルな自己教師付き事前トレーニングを可能にするフレームワークである。 RoMAは、カスタマイズされた自動回帰学習戦略により、高解像度画像のスケーラビリティを向上させる。シーン分類、オブジェクト検出、セマンティックセグメンテーションタスクにわたる実験により、RoMAで事前訓練されたMambaモデルは、精度と計算効率の両方において、ViTベースのモデルよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-13T14:09:18Z)
MambaFlow: A Novel and Flow-guided State Space Model for Scene Flow Estimation [5.369567679302849]
本稿では,マンバに基づくデコーダを用いたシーンフロー推定ネットワークであるマンバを提案する。 MambaFlowは、既存の作業間でリアルタイム推論速度で最先端のパフォーマンスを実現する。 Argoverse 2ベンチマークの実験は、MambaFlowがリアルタイムの推論速度で最先端のパフォーマンスを達成することを示した。
論文参考訳（メタデータ） (2025-02-24T07:05:49Z)
A Comparative Study on Dynamic Graph Embedding based on Mamba and Transformers [0.29687381456164]
本研究では,変圧器と最近提案されたMambaアーキテクチャを用いた動的グラフ埋め込み手法の比較解析を行った。グラフ畳み込みネットワークを用いたTransformerG2G Augment、グラフ同型ネットワークエッジ畳み込みを用いたDG-Mamba、GDG-Mambaの3つの新しいモデルを導入する。複数のベンチマークデータセットに対する実験により,Mambaベースのモデルが,リンク予測タスクにおけるトランスフォーマーベースのアプローチに匹敵する,あるいは優れた性能を達成できることが示されている。
論文参考訳（メタデータ） (2024-12-15T19:56:56Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
UmambaTSF: A U-shaped Multi-Scale Long-Term Time Series Forecasting Method Using Mamba [7.594115034632109]
本稿では,新しい時系列予測フレームワークであるUmambaTSFを提案する。 U字型エンコーダ・デコーダ多層パーセプトロン(MLP)のマルチスケール特徴抽出機能とMambaのロングシーケンス表現を統合する。 UmambaTSFは、広く使用されているベンチマークデータセットで最先端のパフォーマンスと優れた汎用性を達成する。
論文参考訳（メタデータ） (2024-10-15T04:56:43Z)
HRVMamba: High-Resolution Visual State Space Model for Dense Prediction [60.80423207808076]
効率的なハードウェアを意識した設計のステートスペースモデル(SSM)は、コンピュータビジョンタスクにおいて大きな可能性を証明している。これらのモデルは、誘導バイアスの不足、長距離の忘れ、低解像度の出力表現の3つの主要な課題によって制約されている。本稿では, 変形可能な畳み込みを利用して, 長距離忘れ問題を緩和する動的ビジュアル状態空間(DVSS)ブロックを提案する。また,DVSSブロックに基づく高分解能視覚空間モデル(HRVMamba)を導入し,プロセス全体を通して高分解能表現を保存する。
論文参考訳（メタデータ） (2024-10-04T06:19:29Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
Mamba-Spike: Enhancing the Mamba Architecture with a Spiking Front-End for Efficient Temporal Data Processing [4.673285689826945]
Mamba-Spikeは、スパイクするフロントエンドとMambaのバックボーンを統合して、効率的な時間的データ処理を実現する新しいニューロモルフィックアーキテクチャである。このアーキテクチャは、最先端のベースラインを一貫して上回り、高い精度、低いレイテンシ、エネルギー効率の向上を実現している。
論文参考訳（メタデータ） (2024-08-04T14:10:33Z)
DiM-Gesture: Co-Speech Gesture Generation with Adaptive Layer Normalization Mamba-2 framework [2.187990941788468]
生音声のみから、高度にパーソナライズされた3Dフルボディジェスチャーを作成するために作られた生成モデル。 Modelは、Mambaベースのファジィ特徴抽出器と非自己回帰適応層正規化(AdaLN)Mamba-2拡散アーキテクチャを統合している。
論文参考訳（メタデータ） (2024-08-01T08:22:47Z)
MambaLRP: Explaining Selective State Space Sequence Models [18.133138020777295]
選択状態空間列モデル(マンバモデルと呼ばれる)を用いた最近のシーケンスモデリング手法は、関心が高まりつつある。これらのモデルは、線形時間における長いシーケンスの効率的な処理を可能にし、言語モデリングのような広範囲のアプリケーションで急速に採用されている。現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
論文参考訳（メタデータ） (2024-06-11T12:15:47Z)
PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文参考訳（メタデータ） (2024-02-16T14:56:13Z)
OpenSTL: A Comprehensive Benchmark of Spatio-Temporal Predictive Learning [67.07363529640784]
提案するOpenSTLは,一般的なアプローチを再帰的モデルと再帰的モデルに分類する。我々は, 合成移動物体軌道, 人間の動き, 運転シーン, 交通流, 天気予報など, さまざまな領域にわたるデータセットの標準評価を行う。リカレントフリーモデルは、リカレントモデルよりも効率と性能のバランスが良いことがわかった。
論文参考訳（メタデータ） (2023-06-20T03:02:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。