論文の概要: MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection
- arxiv url: http://arxiv.org/abs/2501.06138v1
- Date: Fri, 10 Jan 2025 17:52:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-13 15:27:15.220803
- Title: MS-Temba : Multi-Scale Temporal Mamba for Efficient Temporal Action Detection
- Title(参考訳): MS-Temba : 効果的な時間行動検出のためのマルチスケールテンポラルマンバ
- Authors: Arkaprava Sinha, Monish Soundar Raj, Pu Wang, Ahmed Helmy, Srijan Das,
- Abstract要約: 実世界のシナリオにおけるアクション検出は、時間長の未トリミングビデオにおける密集したアクションのため、特に困難である。
動作検出にマンバアーキテクチャを適用し,マルチスケールテンポラルマンバ(MS-Temba)を提案する。
MS-Tembaは3つの公開データセットで検証され、長いビデオでSOTAメソッドを上回り、短いビデオで先行メソッドにマッチする。
- 参考スコア(独自算出の注目度): 11.534493974662304
- License:
- Abstract: Action detection in real-world scenarios is particularly challenging due to densely distributed actions in hour-long untrimmed videos. It requires modeling both short- and long-term temporal relationships while handling significant intra-class temporal variations. Previous state-of-the-art (SOTA) Transformer-based architectures, though effective, are impractical for real-world deployment due to their high parameter count, GPU memory usage, and limited throughput, making them unsuitable for very long videos. In this work, we innovatively adapt the Mamba architecture for action detection and propose Multi-scale Temporal Mamba (MS-Temba), comprising two key components: Temporal Mamba (Temba) Blocks and the Temporal Mamba Fuser. Temba Blocks include the Temporal Local Module (TLM) for short-range temporal modeling and the Dilated Temporal SSM (DTS) for long-range dependencies. By introducing dilations, a novel concept for Mamba, TLM and DTS capture local and global features at multiple scales. The Temba Fuser aggregates these scale-specific features using Mamba to learn comprehensive multi-scale representations of untrimmed videos. MS-Temba is validated on three public datasets, outperforming SOTA methods on long videos and matching prior methods on short videos while using only one-eighth of the parameters.
- Abstract(参考訳): 実世界のシナリオにおけるアクション検出は、時間長の未トリミングビデオにおける密集したアクションのため、特に困難である。
クラス内の時間的変動に対処しながら、短期的・長期的関係の両方をモデル化する必要がある。
従来の最先端(SOTA)トランスフォーマーベースのアーキテクチャは、有効ではあるが、高いパラメータ数、GPUメモリ使用量、スループットの制限により、現実のデプロイメントには実用的ではないため、非常に長いビデオには適さない。
本研究では,動作検出のためのマンバアーキテクチャを革新的に適用し,テンポラルマンバブロックとテンポラルマンバフーザーの2つの重要な構成要素からなるマルチスケールテンポラルマンバ(MS-Temba)を提案する。
テンバブロックには、短距離時間モデリングのためのTLM(Temporal Local Module)と長距離依存のためのDilated Temporal SSM(DTS)が含まれる。
ダイレーションを導入することで、Mamba, TLM, DTSの新たなコンセプトが、複数のスケールでローカルおよびグローバルな特徴をキャプチャする。
Temba Fuserは、Mambaを使ってこれらのスケール固有の機能を集約して、未トリミングビデオの包括的なマルチスケール表現を学習する。
MS-Tembaは3つの公開データセットで検証され、長いビデオでSOTAメソッドを上回り、パラメータの8分の1しか使用せずに短いビデオで先行メソッドをマッチングする。
関連論文リスト
- PhysMamba: Efficient Remote Physiological Measurement with SlowFast Temporal Difference Mamba [20.435381963248787]
従来のディープラーニングに基づくr測定は主にCNNとTransformerに基づいている。
本稿では,マンバをベースとしたフレームワークであるPhysMambaを提案する。
PhysMambaの優位性と効率性を示すために、3つのベンチマークデータセットで大規模な実験を行った。
論文 参考訳(メタデータ) (2024-09-18T14:48:50Z) - MambaMixer: Efficient Selective State Space Models with Dual Token and Channel Selection [5.37935922811333]
MambaMixerは、トークンとチャネル間の二重選択機構を使用する、データ依存の重みを持つ新しいアーキテクチャである。
概念実証として,Vision MambaMixer (ViM2) とTime Series MambaMixer (TSM2) を設計した。
論文 参考訳(メタデータ) (2024-03-29T00:05:13Z) - Efficient Temporal Extrapolation of Multimodal Large Language Models with Temporal Grounding Bridge [47.750073410717604]
時間的接地機能を備えたMLLMをブートストラップする新しいフレームワークである時間的接地橋(TGB)について紹介する。
7つのビデオベンチマークでTGBを検証し,従来のMLLMと比較して大幅な性能向上を示した。
4フレームのシーケンスをトレーニングした本モデルでは,性能を犠牲にすることなく,最大16のシーケンスを効果的に処理する。
論文 参考訳(メタデータ) (2024-02-25T10:27:46Z) - MVBench: A Comprehensive Multi-modal Video Understanding Benchmark [63.14000659130736]
本稿では、MVBenchという総合的なマルチモーダルビデオ理解ベンチマークを紹介する。
まず、これらの時間的タスクを定義するための新しい静的-動的手法を提案する。
そして,タスク定義に従って,公開ビデオアノテーションを複数選択QAに自動的に変換し,各タスクを評価する。
論文 参考訳(メタデータ) (2023-11-28T17:59:04Z) - TemporalMaxer: Maximize Temporal Context with only Max Pooling for
Temporal Action Localization [52.234877003211814]
我々は,抽出したビデオクリップの特徴から情報を最大化しながら,長期の時間的文脈モデリングを最小化するTemporalMaxerを紹介する。
我々は、TemporalMaxerが、長期時間文脈モデリングを利用した他の最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-03-16T03:11:26Z) - Slow-Fast Visual Tempo Learning for Video-based Action Recognition [78.3820439082979]
アクション・ビジュアル・テンポ(Action visual tempo)は、アクションのダイナミクスと時間スケールを特徴付ける。
以前の方法は、複数のレートで生のビデオをサンプリングするか、階層的にバックボーンの特徴をサンプリングすることによって、視覚的テンポをキャプチャする。
単一層における低レベルバックボーン特徴からアクション・テンポを抽出するための時間相関モジュール(TCM)を提案する。
論文 参考訳(メタデータ) (2022-02-24T14:20:04Z) - MS-TCT: Multi-Scale Temporal ConvTransformer for Action Detection [37.25262046781015]
アクション検出は不可欠で困難なタスクであり、特に未トリミングビデオの高密度にラベル付けされたデータセットに対してである。
本稿では,短期情報と長期情報の両方を効率的にキャプチャする行動検出のための新しいConvTransformerネットワークを提案する。
我々のネットワークは3つのデータセットすべてにおいて最先端の手法よりも優れています。
論文 参考訳(メタデータ) (2021-12-07T18:57:37Z) - TAM: Temporal Adaptive Module for Video Recognition [60.83208364110288]
時間適応モジュール(bf TAM)は、自身の特徴マップに基づいてビデオ固有の時間カーネルを生成する。
Kinetics-400およびSomethingデータセットの実験は、我々のTAMが他の時間的モデリング手法より一貫して優れていることを示した。
論文 参考訳(メタデータ) (2020-05-14T08:22:45Z) - Temporal Pyramid Network for Action Recognition [129.12076009042622]
本稿では,2次元あるいは3次元のバックボーンネットワークに柔軟に統合可能な汎用時間ピラミッドネットワーク(TPN)を提案する。
TPNは、いくつかのアクション認識データセット上で、他の困難なベースラインよりも一貫して改善されている。
論文 参考訳(メタデータ) (2020-04-07T17:17:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。