論文の概要: Selective Structured State-Spaces for Long-Form Video Understanding
- arxiv url: http://arxiv.org/abs/2303.14526v1
- Date: Sat, 25 Mar 2023 17:47:12 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 19:04:22.313168
- Title: Selective Structured State-Spaces for Long-Form Video Understanding
- Title(参考訳): 長期ビデオ理解のための選択的構造化状態空間
- Authors: Jue Wang, Wentao Zhu, Pichao Wang, Xiang Yu, Linda Liu, Mohamed Omar,
Raffay Hamid
- Abstract要約: 本稿では,軽量マスク生成器を用いて情報化画像トークンを適応的に選択するSelective S4(S5)モデルを提案する。
トランスにおける従来のマスクベースのトークン削減手法とは異なり、S5モデルは高密度自己注意計算を回避している。
我々のアプローチは、従来の最先端のS4モデルを最大9.6%の精度で改善し、メモリフットプリントを23%削減する。
- 参考スコア(独自算出の注目度): 15.993227540449011
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Effective modeling of complex spatiotemporal dependencies in long-form videos
remains an open problem. The recently proposed Structured State-Space Sequence
(S4) model with its linear complexity offers a promising direction in this
space. However, we demonstrate that treating all image-tokens equally as done
by S4 model can adversely affect its efficiency and accuracy. To address this
limitation, we present a novel Selective S4 (i.e., S5) model that employs a
lightweight mask generator to adaptively select informative image tokens
resulting in more efficient and accurate modeling of long-term spatiotemporal
dependencies in videos. Unlike previous mask-based token reduction methods used
in transformers, our S5 model avoids the dense self-attention calculation by
making use of the guidance of the momentum-updated S4 model. This enables our
model to efficiently discard less informative tokens and adapt to various
long-form video understanding tasks more effectively. However, as is the case
for most token reduction methods, the informative image tokens could be dropped
incorrectly. To improve the robustness and the temporal horizon of our model,
we propose a novel long-short masked contrastive learning (LSMCL) approach that
enables our model to predict longer temporal context using shorter input
videos. We present extensive comparative results using three challenging
long-form video understanding datasets (LVU, COIN and Breakfast), demonstrating
that our approach consistently outperforms the previous state-of-the-art S4
model by up to 9.6% accuracy while reducing its memory footprint by 23%.
- Abstract(参考訳): 長期ビデオにおける複雑な時空間依存性の効果的なモデリングは未解決の問題である。
最近提案された構造化状態空間列(s4)モデルとその線形複雑性は、この空間において有望な方向を与える。
しかし,S4モデルが行うように,全ての画像の処理が効率や精度に悪影響を及ぼすことを示した。
この制限に対処するため、軽量マスク生成器を用いて情報化画像トークンを適応的に選択するSelective S4(S5)モデルを提案する。
従来の変圧器用マスク式トークン削減法とは異なり,s5モデルは運動量更新型s4モデルの誘導を用いることで,密集した自己着線計算を回避している。
これにより,より少ないインフォメーショントークンを効率的に破棄し,様々な長文映像理解タスクをより効果的に適応できる。
しかし、ほとんどのトークン削減メソッドの場合と同様に、インフォメーションイメージトークンは誤って削除される可能性がある。
このモデルのロバスト性と時間軸を改善するために,我々は,短い入力ビデオを用いてより長い時間的文脈を予測できる,新しいlsmcl(long-short masked contrastive learning)アプローチを提案する。
本稿では,3つの挑戦的長文ビデオ理解データセット(LVU,COIN,Breakfast)を用いて,従来のS4モデルの精度を最大9.6%向上し,メモリフットプリントを23%削減することを示す。
関連論文リスト
- SIGMA:Sinkhorn-Guided Masked Video Modeling [69.31715194419091]
SIGMA (Sinkhorn-guided Masked Video Modelling) は、新しいビデオ事前学習法である。
時空管の特徴を,限られた数の学習可能なクラスタに均等に分散する。
10個のデータセットによる実験結果から,より高性能で時間的,堅牢な映像表現を学習する上で,SIGMAの有効性が検証された。
論文 参考訳(メタデータ) (2024-07-22T08:04:09Z) - 4Diffusion: Multi-view Video Diffusion Model for 4D Generation [55.82208863521353]
現在の4D生成法は, 高度な拡散生成モデルの助けを借りて, 有意義な有効性を実現している。
モノクロビデオから空間的・時間的に一貫した4Dコンテンツを生成することを目的とした,新しい4D生成パイプライン,すなわち4Diffusionを提案する。
論文 参考訳(メタデータ) (2024-05-31T08:18:39Z) - A Simple Recipe for Contrastively Pre-training Video-First Encoders
Beyond 16 Frames [54.90226700939778]
我々は,大規模な画像テキストモデルを浅部時間融合によりビデオに転送する共通パラダイムを構築した。
1)標準ビデオデータセットにおけるビデオ言語アライメントの低下による空間能力の低下と,(2)処理可能なフレーム数のボトルネックとなるメモリ消費の増大である。
論文 参考訳(メタデータ) (2023-12-12T16:10:19Z) - Video BagNet: short temporal receptive fields increase robustness in
long-term action recognition [11.452704540879513]
大きな時間的受容場により、モデルはビデオの正確なサブアクション順序を符号化することができる。
我々は,時間的受容場を縮小することにより,モデルロバスト性をサブアクション順に改善できるかどうかを検討する。
短い受容場はサブアクションの順序変化に対して頑健であり、大きい時間受容場はサブアクションの順序に敏感である。
論文 参考訳(メタデータ) (2023-08-22T07:44:59Z) - Counterfactual Outcome Prediction using Structured State Space Model [0.0]
処理効果ニューラル制御微分方程式(TE-CDE)と構造化状態空間モデル(S4Model)の2つのモデルの性能を比較した。
S4Modelは、長距離依存のモデリングがより効率的で、トレーニングも簡単です。
この結果から, 状態空間モデルが長手データにおける実測結果予測に有望なアプローチである可能性が示唆された。
論文 参考訳(メタデータ) (2023-05-16T06:32:43Z) - Deep Latent State Space Models for Time-Series Generation [68.45746489575032]
状態空間ODEに従って進化する潜伏変数を持つ列の生成モデルLS4を提案する。
近年の深層状態空間モデル(S4)に着想を得て,LS4の畳み込み表現を利用して高速化を実現する。
LS4は, 実世界のデータセット上での限界分布, 分類, 予測スコアにおいて, 従来の連続時間生成モデルよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-24T15:17:42Z) - Long Movie Clip Classification with State-Space Video Models [14.46525612314649]
ViS4merは、自己アテンションと構造化状態空間シーケンス(S4)の強度を組み合わせた効率的な長距離ビデオモデルである。
本モデルでは,短距離時空間特徴抽出のための標準トランスフォーマーエンコーダと,その後の長距離時空間推論のためのマルチスケール時空間S4デコーダを用いる。
ViS4merは2.63倍高速で、それに対応する純粋な自己保持型モデルよりも8ドル安いメモリを必要とする。
論文 参考訳(メタデータ) (2022-04-04T17:58:02Z) - VidTr: Video Transformer Without Convolutions [32.710988574799735]
時間的映像分類のための分離アテンション付きビデオトランスフォーマー(VidTr)を導入する。
VidTrは、スタックされた注意を通して時間情報を集約し、より高い効率でパフォーマンスを向上させることができる。
論文 参考訳(メタデータ) (2021-04-23T17:59:01Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。