論文の概要: MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2511.17929v1
- Date: Sat, 22 Nov 2025 06:04:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.51968
- Title: MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection
- Title(参考訳): MambaTAD: 状態空間モデルが長時間の時間的行動検出と出会うとき
- Authors: Hui Lu, Yi Yu, Shijian Lu, Deepu Rajan, Boon Poh Ng, Alex C. Kot, Xudong Jiang,
- Abstract要約: 本稿では,長距離モデリングとグローバル機能検出機能を導入した新しい状態空間TADモデルであるMambaTADを提案する。
MambaTADは、複数の公開ベンチマークで一貫して優れたTAD性能を達成する。
- 参考スコア(独自算出の注目度): 94.12444452690329
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal Action Detection (TAD) aims to identify and localize actions by determining their starting and ending frames within untrimmed videos. Recent Structured State-Space Models such as Mamba have demonstrated potential in TAD due to their long-range modeling capability and linear computational complexity. On the other hand, structured state-space models often face two key challenges in TAD, namely, decay of temporal context due to recursive processing and self-element conflict during global visual context modeling, which become more severe while handling long-span action instances. Additionally, traditional methods for TAD struggle with detecting long-span action instances due to a lack of global awareness and inefficient detection heads. This paper presents MambaTAD, a new state-space TAD model that introduces long-range modeling and global feature detection capabilities for accurate temporal action detection. MambaTAD comprises two novel designs that complement each other with superior TAD performance. First, it introduces a Diagonal-Masked Bidirectional State-Space (DMBSS) module which effectively facilitates global feature fusion and temporal action detection. Second, it introduces a global feature fusion head that refines the detection progressively with multi-granularity features and global awareness. In addition, MambaTAD tackles TAD in an end-to-end one-stage manner using a new state-space temporal adapter(SSTA) which reduces network parameters and computation cost with linear complexity. Extensive experiments show that MambaTAD achieves superior TAD performance consistently across multiple public benchmarks.
- Abstract(参考訳): 時間的行動検出(TAD)は、未トリミングビデオ内の開始フレームと終了フレームを決定することによって、アクションを識別し、ローカライズすることを目的としている。
マンバのような最近の構造化状態空間モデルは、その長距離モデリング能力と線形計算複雑性により、TADの可能性を実証している。
一方、構造化状態空間モデルでは、再帰的処理による時間的コンテキストの崩壊と、グローバルな視覚的コンテキストモデリングにおける自己要素の衝突という2つの大きな課題に直面することが多い。
さらに、TADの従来の方法は、グローバルな認識の欠如と非効率な検出ヘッドのために、長期にわたるアクションインスタンスの検出に苦労する。
本稿では,時間的行動検出のための長距離モデリングとグローバル特徴検出機能を導入した新しい状態空間TADモデルであるMambaTADを提案する。
MambaTADは2つの新しい設計で構成され、優れたTAD性能で相互に補完する。
まず、グローバルな特徴融合と時間的行動検出を効果的に促進するDMBSS(Diagonal-Masked Bidirectional State-Space)モジュールを導入する。
第二に、グローバルな特徴融合ヘッドを導入し、多粒度特徴とグローバルな認識によって検出を徐々に洗練する。
さらに、MambaTADは、ネットワークパラメータと計算コストを線形複雑度で削減する新しい状態空間時間アダプタ(SSTA)を用いて、エンド・ツー・エンドのワンステージ方式でDADに取り組む。
大規模な実験により、MambaTADは複数の公開ベンチマークにおいて、優れたTAD性能を実現していることが示された。
関連論文リスト
- High-Resolution Spatiotemporal Modeling with Global-Local State Space Models for Video-Based Human Pose Estimation [34.450956424316196]
ビデオに基づく人間のポーズ推定には高分解能時間表現のモデル化が不可欠である。
現在の最先端の手法は、大域的および局所的動的モデリングのバランスをとるのが難しいのが普通である。
本稿では,VHPEのグローバルおよびローカルな高解像度表現を個別に学習するために,Mambaコンテキストを拡張したフレームワークを提案する。
論文 参考訳(メタデータ) (2025-10-13T05:18:27Z) - StateSpaceDiffuser: Bringing Long Context to Diffusion World Models [52.92249035412797]
本稿では、状態空間モデルから機能を統合することで、拡散モデルが長時間コンテキストタスクの実行を可能にするStateSpaceDiffuserを紹介する。
この設計は拡散モデルの高忠実性合成を保ちながら長期記憶を復元する。
論文 参考訳(メタデータ) (2025-05-28T11:27:54Z) - MDDFNet: Mamba-based Dynamic Dual Fusion Network for Traffic Sign Detection [0.081585306387285]
交通信号検出のための新しいオブジェクト検出ネットワークであるMDDFNetを提案する。
ネットワークは動的二重融合モジュールとMambaベースのバックボーンを統合し、上記の問題に同時に対処する。
TT100K(Tsinghua-Tencent 100K)データセットで実施された大規模な実験は、MDDFNetが他の最先端検出器よりも優れていることを示した。
論文 参考訳(メタデータ) (2025-05-02T14:53:25Z) - A Deep Learning Framework for Sequence Mining with Bidirectional LSTM and Multi-Scale Attention [11.999319439383918]
本稿では、複雑なシーケンスデータにおける潜在パターンのマイニングとコンテキスト依存のモデル化の課題に対処する。
Bidirectional Long Short-Term Memory (BiLSTM) とマルチスケールアテンション機構を組み合わせたシーケンスパターンマイニングアルゴリズムを提案する。
BiLSTMはシーケンスの前方および後方の依存関係をキャプチャし、グローバルなコンテキスト構造を知覚するモデルの能力を高める。
論文 参考訳(メタデータ) (2025-04-21T16:53:02Z) - MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection [11.534493974662304]
未トリミングビデオにおける時間的行動検出(TAD)は、長期保存ビデオを効率的に処理できるモデルを必要とする。
我々は,多スケールテンポラルマンバ (MS-Temba) を提案する。
MS-Tembaは、長期ビデオの最先端のパフォーマンスを達成し、短いセグメントで競争力を維持し、モデルの複雑さを88%削減する。
論文 参考訳(メタデータ) (2025-01-10T17:52:47Z) - STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。
具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。
実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2024-08-15T02:29:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。