論文の概要: Long Movie Clip Classification with State-Space Video Models
- arxiv url: http://arxiv.org/abs/2204.01692v1
- Date: Mon, 4 Apr 2022 17:58:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 16:25:00.586129
- Title: Long Movie Clip Classification with State-Space Video Models
- Title(参考訳): 状態空間映像モデルを用いたロングムービークリップ分類
- Authors: Md Mohaiminul Islam, Gedas Bertasius
- Abstract要約: ViS4merは、自己アテンションと構造化状態空間シーケンス(S4)の強度を組み合わせた効率的な長距離ビデオモデルである。
本モデルでは,短距離時空間特徴抽出のための標準トランスフォーマーエンコーダと,その後の長距離時空間推論のためのマルチスケール時空間S4デコーダを用いる。
ViS4merは2.63倍高速で、それに対応する純粋な自己保持型モデルよりも8ドル安いメモリを必要とする。
- 参考スコア(独自算出の注目度): 14.46525612314649
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most modern video recognition models are designed to operate on short video
clips (e.g., 5-10s in length). Because of this, it is challenging to apply such
models to long movie understanding tasks, which typically require sophisticated
long-range temporal reasoning capabilities. The recently introduced video
transformers partially address this issue by using long-range temporal
self-attention. However, due to the quadratic cost of self-attention, such
models are often costly and impractical to use. Instead, we propose ViS4mer, an
efficient long-range video model that combines the strengths of self-attention
and the recently introduced structured state-space sequence (S4) layer. Our
model uses a standard Transformer encoder for short-range spatiotemporal
feature extraction, and a multi-scale temporal S4 decoder for subsequent
long-range temporal reasoning. By progressively reducing the spatiotemporal
feature resolution and channel dimension at each decoder layer, ViS4mer learns
complex long-range spatiotemporal dependencies in a video. Furthermore, ViS4mer
is $2.63\times$ faster and requires $8\times$ less GPU memory than the
corresponding pure self-attention-based model. Additionally, ViS4mer achieves
state-of-the-art results in $7$ out of $9$ long-form movie video classification
tasks on the LVU benchmark. Furthermore, we also show that our approach
successfully generalizes to other domains, achieving competitive results on the
Breakfast and the COIN procedural activity datasets. The code will be made
publicly available.
- Abstract(参考訳): ほとんどの現代のビデオ認識モデルは短いビデオクリップ(例えば5-10秒)で動作するように設計されている。
このため、通常、高度な長距離時間的推論能力を必要とする長い映画理解タスクに、そのようなモデルを適用することは困難である。
最近導入されたビデオトランスは、長距離時間自己注意を用いてこの問題に部分的に対処している。
しかし、自己着脱の二次的なコストのため、そのようなモデルはしばしば費用がかかり、実用的でない。
代わりに、自己注意の強みと最近導入された構造化状態空間シーケンス(S4)層を組み合わせた、効率的な長距離ビデオモデルViS4merを提案する。
本モデルでは、短距離時空間特徴抽出のための標準トランスコーダと、後続の長距離時間推論のためのマルチスケール時空s4デコーダを用いる。
各デコーダ層における時空間的特徴分解能とチャネル次元を段階的に減少させることで、ViS4merはビデオ内の複雑な長距離時空間依存性を学習する。
さらに、ViS4merは2.63\times$高速で、対応する純粋な自己注意モデルよりも8\times$低いGPUメモリを必要とする。
さらにvis4merは、lvuベンチマークで9ドルのロングフォーム映画ビデオ分類タスクから7ドル(約7,700円)で最新結果を達成している。
さらに,本手法が他のドメインへの一般化に成功し,朝食とコインプロシージャアクティビティデータセットの競合結果が得られることを示した。
コードは公開される予定だ。
関連論文リスト
- MAMBA4D: Efficient Long-Sequence Point Cloud Video Understanding with Disentangled Spatial-Temporal State Space Models [14.024240637175216]
状態空間モデル(SSM)に基づく新しい点雲理解バックボーンを提案する。
具体的には,まず空間と時間を4次元ビデオシーケンスで切り離し,設計したマンバブロックと空間的時間的相関を確立する。
提案手法は, 87.5%のGPUメモリ削減と5.36倍の高速化を実現した。
論文 参考訳(メタデータ) (2024-05-23T09:08:09Z) - No Time to Waste: Squeeze Time into Channel for Mobile Video Understanding [38.60950616529459]
我々は,ビデオシーケンスの時間軸をチャネル次元に絞り込み,モバイルビデオ理解のための軽量なビデオ認識ネットワークであるtextitSqueezeTime を提案する。
提案されているSqueezeTimeは、非常に軽量で高速で、モバイルビデオ理解の精度が高い。
論文 参考訳(メタデータ) (2024-05-14T06:32:40Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Revisiting Kernel Temporal Segmentation as an Adaptive Tokenizer for
Long-form Video Understanding [57.917616284917756]
実世界のビデオは、しばしば数分間の長さであり、意味的に一貫した長さのセグメントがある。
長いビデオを処理するための一般的なアプローチは、一定時間の長さの一様にサンプリングされたクリップにショートフォームビデオモデルを適用することである。
このアプローチは、固定長のクリップがしばしば冗長または非形式的であるため、長いビデオの基本的な性質を無視する。
論文 参考訳(メタデータ) (2023-09-20T18:13:32Z) - Video-FocalNets: Spatio-Temporal Focal Modulation for Video Action
Recognition [112.66832145320434]
Video-FocalNetは、ローカルなグローバルなコンテキストの両方をモデル化する、ビデオ認識のための効率的かつ効率的なアーキテクチャである。
Video-FocalNetは、自己注意の相互作用と集約のステップを反転させる時間的焦点変調アーキテクチャに基づいている。
我々は,5つの大規模データセット上での映像認識のための最先端のトランスフォーマーモデルに対して,Video-FocalNetsが好適に動作することを示す。
論文 参考訳(メタデータ) (2023-07-13T17:59:33Z) - Selective Structured State-Spaces for Long-Form Video Understanding [15.993227540449011]
本稿では,軽量マスク生成器を用いて情報化画像トークンを適応的に選択するSelective S4(S5)モデルを提案する。
トランスにおける従来のマスクベースのトークン削減手法とは異なり、S5モデルは高密度自己注意計算を回避している。
我々のアプローチは、従来の最先端のS4モデルを最大9.6%の精度で改善し、メモリフットプリントを23%削減する。
論文 参考訳(メタデータ) (2023-03-25T17:47:12Z) - Efficient Movie Scene Detection using State-Space Transformers [11.372828843493899]
本研究は,長期映像の依存関係を効率的にキャプチャし,正確なシーン検出を行う状態空間変換器モデルを提案する。
我々のモデルはTranS4merと呼ばれ、構造化状態空間列(S4)と自己注意層(A)の強みを組み合わせた新しいS4Aビルディングブロックを用いて構築されている。
提案するTranS4merは,MovieNet, BBC, OVSDを含む3つの映画シーン検出データセットにおいて,従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-12-29T18:57:27Z) - Generating Long Videos of Dynamic Scenes [66.56925105992472]
本稿では、物体の動きを再現する映像生成モデル、カメラ視点の変化、時間とともに現れる新しいコンテンツについて述べる。
よくある障害ケースは、コンテンツが時間的一貫性を提供する誘導バイアスに過度に依存するため、決して変化しないことです。
論文 参考訳(メタデータ) (2022-06-07T16:29:51Z) - Learning Trajectory-Aware Transformer for Video Super-Resolution [50.49396123016185]
ビデオ超解像は、高解像度(HR)フレームを低解像度(LR)フレームから復元することを目的としている。
既存のアプローチは通常、隣接する限られたフレームからビデオフレームを並べて集約する。
ビデオ超解像用トランスフォーマー(TTVSR)を提案する。
論文 参考訳(メタデータ) (2022-04-08T03:37:39Z) - MeMViT: Memory-Augmented Multiscale Vision Transformer for Efficient
Long-Term Video Recognition [74.35009770905968]
既存のモデルに比べて30倍の時間的サポートを持つメモリ拡張型視覚変換器を構築した。
MeMViTは、AVA、EPIC-Kitchens-100アクション分類、アクション予測データセットの最先端結果を取得する。
論文 参考訳(メタデータ) (2022-01-20T18:59:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。