論文の概要: MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2501.06138v2
- Date: Thu, 13 Mar 2025 18:31:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:03:57.470783
- Title: MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection
- Title(参考訳): MS-Temba : 効果的な時間行動検出のためのマルチスケールテンポラルマンバ
- Authors: Arkaprava Sinha, Monish Soundar Raj, Pu Wang, Ahmed Helmy, Srijan Das,
- Abstract要約: 未トリミングビデオにおける時間的行動検出(TAD)は、長期保存ビデオを効率的に処理できるモデルを必要とする。
我々は,多スケールテンポラルマンバ (MS-Temba) を提案する。
MS-Tembaは、長期ビデオの最先端のパフォーマンスを達成し、短いセグメントで競争力を維持し、モデルの複雑さを88%削減する。
- 参考スコア(独自算出の注目度): 11.534493974662304
- License:
- Abstract: Temporal Action Detection (TAD) in untrimmed videos requires models that can efficiently (1) process long-duration videos, (2) capture temporal variations within action classes, and (3) handle dense, overlapping actions, all while remaining suitable for resource-constrained edge deployment. While Transformer-based methods achieve high accuracy, their quadratic complexity hinders deployment in such scenarios. Given the recent popularity of linear complexity Mamba-based models, leveraging them for TAD is a natural choice. However, naively adapting Mamba from language or vision tasks fails to provide an optimal solution and does not address the challenges of long, untrimmed videos. Therefore, we propose Multi-Scale Temporal Mamba (MS-Temba), the first Mamba-based architecture specifically designed for densely labeled TAD tasks. MS-Temba features Temporal Mamba Blocks (Temba Blocks), consisting of Temporal Convolutional Module (TCM) and Dilated SSM (D-SSM). TCM captures short-term dependencies using dilated convolutions, while D-SSM introduces a novel dilated state-space mechanism to model long-range temporal relationships effectively at each temporal scale. These multi-scale representations are aggregated by Scale-Aware State Fuser, which learns a unified representation for detecting densely overlapping actions. Experiments show that MS-Temba achieves state-of-the-art performance on long-duration videos, remains competitive on shorter segments, and reduces model complexity by 88%. Its efficiency and effectiveness make MS-Temba well-suited for real-world edge deployment.
- Abstract(参考訳): 非トリミングビデオにおける時間的アクション検出(TAD)には,(1)長周期ビデオの処理,(2)アクションクラス内の時間的変動のキャプチャ,(3)重み付き重なり合うアクションの処理を行うモデルが必要である。
Transformerベースのメソッドは高い精度を達成するが、その二次的な複雑さはそのようなシナリオでのデプロイメントを妨げる。
最近の線形複雑性モデルの人気を考えると、それらをTADに活用することは自然な選択である。
しかし、言語や視覚のタスクからMambaを自然に適応させることは、最適な解決策を提供することができず、長い未編集ビデオの課題に対処することができない。
そこで我々は,多スケールテンポラルマンバ (MS-Temba) を提案する。
MS-TembaはTCM(Temporal Convolutional Module)とDilated SSM(D-SSM)で構成されるテンポラルマンバブロック(Temba Blocks)を特徴とする。
TCMは拡張畳み込みを用いて短期的依存関係をキャプチャする一方、D-SSMは時間スケールごとに時間的関係を効果的にモデル化する新しい拡張状態空間機構を導入している。
これらのマルチスケール表現はScale-Aware State Fuserによって集約される。
実験の結果、MS-Tembaは長期ビデオの最先端のパフォーマンスを達成し、短いセグメントで競争力を維持し、モデルの複雑さを88%削減した。
その効率性と有効性により、MS-Tembaは現実世界のエッジデプロイメントに適している。
関連論文リスト
- STNMamba: Mamba-based Spatial-Temporal Normality Learning for Video Anomaly Detection [48.997518615379995]
ビデオ異常検出(VAD)は、インテリジェントなビデオシステムの可能性から広く研究されている。
CNNやトランスフォーマーをベースとした既存の手法の多くは、依然としてかなりの計算負荷に悩まされている。
空間的時間的正規性の学習を促進するために,STNMambaという軽量で効果的なネットワークを提案する。
論文 参考訳(メタデータ) (2024-12-28T08:49:23Z) - Look Every Frame All at Once: Video-Ma$^2$mba for Efficient Long-form Video Understanding with Multi-Axis Gradient Checkpointing [52.050036778325094]
Video-Ma$2$mbaは、Mamba-2フレームワークにステートスペースモデル(SSM)を組み込んだ新しいアーキテクチャである。
本手法は,標準勾配チェックポイントに比べてメモリフットプリントを大幅に削減する。
時間的ダイナミクスの詳細なキャプチャーを維持することで、長いビデオ理解タスクにおける応答の精度と関連性を改善することができる。
論文 参考訳(メタデータ) (2024-11-29T04:12:13Z) - PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba [20.435381963248787]
従来のディープラーニングに基づくr測定は主にCNNとTransformerに基づいている。
本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。
PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
論文 参考訳(メタデータ) (2024-09-18T14:48:50Z) - Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge [47.750073410717604]
時間的接地機能を備えたMLLMをブートストラップする新しいフレームワークである時間的接地橋(TGB)について紹介する。
7つのビデオベンチマークでTGBを検証し,従来のMLLMと比較して大幅な性能向上を示した。
4フレームのシーケンスをトレーニングした本モデルでは,性能を犠牲にすることなく,最大16のシーケンスを効果的に処理する。
論文 参考訳(メタデータ) (2024-02-25T10:27:46Z) - TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization [52.234877003211814]
我々は,抽出したビデオクリップの特徴から情報を最大化しながら,長期の時間的文脈モデリングを最小化するTemporalMaxerを紹介する。
我々は、TemporalMaxerが、長期時間文脈モデリングを利用した他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-16T03:11:26Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。