論文の概要: F4D: Factorized 4D Convolutional Neural Network for Efficient
Video-level Representation Learning
- arxiv url: http://arxiv.org/abs/2401.08609v1
- Date: Tue, 28 Nov 2023 19:21:57 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-22 10:06:11.319134
- Title: F4D: Factorized 4D Convolutional Neural Network for Efficient
Video-level Representation Learning
- Title(参考訳): f4d:効率的ビデオレベル表現学習のための因子化4次元畳み込みニューラルネットワーク
- Authors: Mohammad Al-Saad, Lakshmish Ramaswamy and Suchendra Bhandarkar
- Abstract要約: 既存の3D畳み込みニューラルネットワーク(CNN)ベースのビデオレベルの表現学習方法は、クリップベースである。
本稿では,より効果的で細かな時間的映像表現を学習できる,注意力のある分解型4D CNNアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 4.123763595394021
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have shown that video-level representation learning is crucial
to the capture and understanding of the long-range temporal structure for video
action recognition. Most existing 3D convolutional neural network (CNN)-based
methods for video-level representation learning are clip-based and focus only
on short-term motion and appearances. These CNN-based methods lack the capacity
to incorporate and model the long-range spatiotemporal representation of the
underlying video and ignore the long-range video-level context during training.
In this study, we propose a factorized 4D CNN architecture with attention (F4D)
that is capable of learning more effective, finer-grained, long-term
spatiotemporal video representations. We demonstrate that the proposed F4D
architecture yields significant performance improvements over the conventional
2D, and 3D CNN architectures proposed in the literature. Experiment evaluation
on five action recognition benchmark datasets, i.e., Something-Something-v1,
SomethingSomething-v2, Kinetics-400, UCF101, and HMDB51 demonstrate the
effectiveness of the proposed F4D network architecture for video-level action
recognition.
- Abstract(参考訳): 近年の研究では、ビデオレベルの表現学習は、ビデオ行動認識のための長距離時間構造を捕捉し理解するために重要であることが示されている。
ビデオレベルの表現学習のための既存の3D畳み込みニューラルネットワーク(CNN)ベースのほとんどの方法はクリップベースであり、短期的な動きと外観のみに焦点を当てている。
これらのcnnベースの手法は、基礎となるビデオの長距離時空間表現を取り入れ、モデル化する能力がなく、トレーニング中の長距離ビデオレベルコンテキストを無視している。
本研究では,より効果的で,よりきめ細かな,長期の時空間映像表現を学習できる4次元CNNアーキテクチャ(F4D)を提案する。
提案したF4Dアーキテクチャは,従来の2Dアーキテクチャと3D CNNアーキテクチャよりも大幅に性能が向上することを示す。
5つのアクション認識ベンチマークデータセット、すなわち something-something-v1, somethingsomething-v2, kinetics-400, ucf101, hmdb51 の実験評価は、ビデオレベルのアクション認識におけるf4dネットワークアーキテクチャの有効性を示している。
関連論文リスト
- Intelligent 3D Network Protocol for Multimedia Data Classification using
Deep Learning [0.0]
我々はSTIPと3D CNNの機能を組み合わせたハイブリッドディープラーニングアーキテクチャを実装し、3Dビデオのパフォーマンスを効果的に向上させる。
その結果,UCF101の動作認識のための文献から得られた最新のフレームワークを95%の精度で比較した。
論文 参考訳(メタデータ) (2022-07-23T12:24:52Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Learning Compositional Representation for 4D Captures with Neural ODE [72.56606274691033]
本稿では, 形状, 初期状態, 動きを区別する4次元キャプチャの合成表現法を提案する。
運動をモデル化するために、学習した動作コードに基づいて条件付けられた初期状態を更新するために、神経常微分方程式(ode)を訓練する。
デコーダはシェイプコードと更新されたポーズコードを取り、スタンプごとに4Dキャプチャを再構築する。
論文 参考訳(メタデータ) (2021-03-15T10:55:55Z) - TCLR: Temporal Contrastive Learning for Video Representation [49.6637562402604]
2つの新しい損失からなる新しい時間的コントラスト学習フレームワークを開発し、既存のコントラスト自己監督ビデオ表現学習方法を改善する。
一般的な3D-ResNet-18アーキテクチャでは、UCF101で82.4%(+5.1%)、HMDB51で52.9%(+5.4%)の精度を達成した。
論文 参考訳(メタデータ) (2021-01-20T05:38:16Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - V4D:4D Convolutional Neural Networks for Video-level Representation
Learning [58.548331848942865]
映像表現学習用3D CNNの多くはクリップベースであるため,映像時間進化は考慮していない。
4D畳み込みを伴う長距離表現をモデル化するために,ビデオレベル4Dコナールニューラルネットワーク(V4D)を提案する。
V4Dは、最近の3D CNNよりも大きなマージンで優れた結果を得る。
論文 参考訳(メタデータ) (2020-02-18T09:27:41Z) - An Information-rich Sampling Technique over Spatio-Temporal CNN for
Classification of Human Actions in Videos [5.414308305392762]
本稿では,3次元畳み込みニューラルネットワーク(3D CNN)を用いたビデオにおける人間の行動認識手法を提案する。
本稿では,3次元CNNアーキテクチャを用いて特徴量抽出を行い,人間の行動を認識するためのLong Short-Term Memory (LSTM) について述べる。
KTHとWEIZMANNの人間の行動データセットを用いて実験を行い、最先端技術と同等の結果が得られることを示した。
論文 参考訳(メタデータ) (2020-02-06T05:07:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。