論文の概要: STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition
- arxiv url: http://arxiv.org/abs/2003.08042v1
- Date: Wed, 18 Mar 2020 04:46:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-22 10:16:56.424107
- Title: STH: Spatio-Temporal Hybrid Convolution for Efficient Action Recognition
- Title(参考訳): STH:効率的な行動認識のための時空間ハイブリッド畳み込み
- Authors: Xu Li, Jingwen Wang, Lin Ma, Kaihao Zhang, Fengzong Lian, Zhanhui Kang
and Jinjun Wang
- Abstract要約: 本稿では,空間的・時間的映像情報を小さなパラメータで同時に符号化するS-Temporal Hybrid Network(STH)を提案する。
このような設計は、効率的な時間的モデリングを可能にし、小さなモデルスケールを維持する。
STHは、3D CNNよりもパフォーマンス上の優位性を持ち、2D CNNよりもはるかに少ないパラメータコストを維持している。
- 参考スコア(独自算出の注目度): 39.58542259261567
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Effective and Efficient spatio-temporal modeling is essential for action
recognition. Existing methods suffer from the trade-off between model
performance and model complexity. In this paper, we present a novel
Spatio-Temporal Hybrid Convolution Network (denoted as "STH") which
simultaneously encodes spatial and temporal video information with a small
parameter cost. Different from existing works that sequentially or parallelly
extract spatial and temporal information with different convolutional layers,
we divide the input channels into multiple groups and interleave the spatial
and temporal operations in one convolutional layer, which deeply incorporates
spatial and temporal clues. Such a design enables efficient spatio-temporal
modeling and maintains a small model scale. STH-Conv is a general building
block, which can be plugged into existing 2D CNN architectures such as ResNet
and MobileNet by replacing the conventional 2D-Conv blocks (2D convolutions).
STH network achieves competitive or even better performance than its
competitors on benchmark datasets such as Something-Something (V1 & V2),
Jester, and HMDB-51. Moreover, STH enjoys performance superiority over 3D CNNs
while maintaining an even smaller parameter cost than 2D CNNs.
- Abstract(参考訳): 効果的な時空間モデリングは行動認識に不可欠である。
既存のメソッドは、モデルのパフォーマンスとモデルの複雑さの間のトレードオフに苦しむ。
本稿では,空間的・時間的映像情報を少ないパラメータコストで同時に符号化する,空間的・時間的ハイブリッド・コンボリューション・ネットワーク(STH)を提案する。
コンボリューション層が異なる空間的・時間的情報を逐次的または並列に抽出する既存の作業とは異なり、入力チャネルを複数のグループに分割し、空間的・時間的操作を1つの畳み込み層にインターリーブする。
このような設計は効率的な時空間モデリングを可能にし、小さなモデルスケールを維持する。
STH-Convは一般的なビルディングブロックであり、従来の2D-Convブロック(2D畳み込み)を置き換えることで、ResNetやMobileNetのような既存の2D CNNアーキテクチャにプラグインすることができる。
STHネットワークは、Something (V1 & V2)、Jester、HMDB-51といったベンチマークデータセットの競合製品よりも、競争力やパフォーマンスの向上を実現している。
さらに、sthは2d cnnよりもさらに小さなパラメータコストを維持しながら、3d cnnよりも優れた性能を享受する。
関連論文リスト
- Dynamic 3D Point Cloud Sequences as 2D Videos [81.46246338686478]
3Dポイントクラウドシーケンスは、現実世界の環境における最も一般的で実用的な表現の1つとして機能する。
textitStructured Point Cloud Videos (SPCV) と呼ばれる新しい汎用表現を提案する。
SPCVは点雲列を空間的滑らかさと時間的一貫性を持つ2Dビデオとして再編成し、画素値は点の3D座標に対応する。
論文 参考訳(メタデータ) (2024-03-02T08:18:57Z) - Disentangling Spatial and Temporal Learning for Efficient Image-to-Video
Transfer Learning [59.26623999209235]
ビデオの空間的側面と時間的側面の学習を両立させるDiSTを提案する。
DiSTの非絡み合い学習は、大量の事前学習パラメータのバックプロパゲーションを避けるため、非常に効率的である。
5つのベンチマークの大規模な実験は、DiSTが既存の最先端メソッドよりも優れたパフォーマンスを提供することを示す。
論文 参考訳(メタデータ) (2023-09-14T17:58:33Z) - Spatiotemporal Modeling Encounters 3D Medical Image Analysis:
Slice-Shift UNet with Multi-View Fusion [0.0]
本稿では,2次元CNNにおける3次元特徴をエンコードする2次元モデルSlice SHift UNetを提案する。
より正確にマルチビュー機能は、ボリュームの3次元平面に沿って2次元の畳み込みを実行することで協調的に学習される。
提案手法の有効性は,多モード腹部多臓器軸 (AMOS) と Cranial Vault (BTCV) データセットを越えたマルチアトラスラベリング (Multi-Atlas Labeling Beyond the Cranial Vault) で検証した。
論文 参考訳(メタデータ) (2023-07-24T14:53:23Z) - Gait Recognition in the Wild with Multi-hop Temporal Switch [81.35245014397759]
野生での歩行認識は、より実践的な問題であり、マルチメディアとコンピュータビジョンのコミュニティの注目を集めています。
本稿では,現実のシーンにおける歩行パターンの効果的な時間的モデリングを実現するために,新しいマルチホップ時間スイッチ方式を提案する。
論文 参考訳(メタデータ) (2022-09-01T10:46:09Z) - MVFNet: Multi-View Fusion Network for Efficient Video Recognition [79.92736306354576]
分離可能な畳み込みを効率よく利用し,ビデオの複雑さを生かしたマルチビュー融合(MVF)モジュールを提案する。
MVFNetは一般的なビデオモデリングフレームワークと考えることができる。
論文 参考訳(メタデータ) (2020-12-13T06:34:18Z) - Diverse Temporal Aggregation and Depthwise Spatiotemporal Factorization
for Efficient Video Classification [12.787763599624173]
本稿では,時間的ワンショットアグリゲーション(T-OSA)モジュールと深度分解成分D(2+1)Dからなる,VoV3Dと呼ばれる効率的な時間的モデリング3Dアーキテクチャを提案する。
時間モデリングの効率性と有効性により、VoV3D-Lは6倍のモデルパラメータと16倍の計算能力を有しており、SomesingとKineeticsの双方で最先端の時間モデリング手法に勝っている。
論文 参考訳(メタデータ) (2020-12-01T07:40:06Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Comparison of Spatiotemporal Networks for Learning Video Related Tasks [0.0]
シーケンスから学習する多くの方法は、個々のフレームから時間的に2D CNNの特徴を処理したり、高性能な2D CNNアーキテクチャ内で直接的に3D畳み込みを利用する。
この研究は、MNISTベースのビデオデータセットを構築し、一般的なビデオ関連タスクのファセット(分類、順序付け、速度推定)のパラメータを制御する。
このデータセットでトレーニングされたモデルは、タスクと2D畳み込み、3D畳み込み、または畳み込みLSTMの使用によって、重要な方法で異なることが示されている。
論文 参考訳(メタデータ) (2020-09-15T19:57:50Z) - MixTConv: Mixed Temporal Convolutional Kernels for Efficient Action
Recogntion [16.067602635607965]
MixTConvは、カーネルサイズが異なる複数の深度1D畳み込みフィルタで構成されている。
動作認識のためのMSTNetという,効率的かつ効率的なネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-01-19T04:21:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。