論文の概要: 3D CNNs with Adaptive Temporal Feature Resolutions
- arxiv url: http://arxiv.org/abs/2011.08652v4
- Date: Wed, 11 Aug 2021 09:14:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-24 16:55:49.486878
- Title: 3D CNNs with Adaptive Temporal Feature Resolutions
- Title(参考訳): 適応時間特徴分解能を有する3次元CNN
- Authors: Mohsen Fayyaz, Emad Bahrami, Ali Diba, Mehdi Noroozi, Ehsan Adeli, Luc
Van Gool, Juergen Gall
- Abstract要約: similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
- 参考スコア(独自算出の注目度): 83.43776851586351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While state-of-the-art 3D Convolutional Neural Networks (CNN) achieve very
good results on action recognition datasets, they are computationally very
expensive and require many GFLOPs. While the GFLOPs of a 3D CNN can be
decreased by reducing the temporal feature resolution within the network, there
is no setting that is optimal for all input clips. In this work, we therefore
introduce a differentiable Similarity Guided Sampling (SGS) module, which can
be plugged into any existing 3D CNN architecture. SGS empowers 3D CNNs by
learning the similarity of temporal features and grouping similar features
together. As a result, the temporal feature resolution is not anymore static
but it varies for each input video clip. By integrating SGS as an additional
layer within current 3D CNNs, we can convert them into much more efficient 3D
CNNs with adaptive temporal feature resolutions (ATFR). Our evaluations show
that the proposed module improves the state-of-the-art by reducing the
computational cost (GFLOPs) by half while preserving or even improving the
accuracy. We evaluate our module by adding it to multiple state-of-the-art 3D
CNNs on various datasets such as Kinetics-600, Kinetics-400, mini-Kinetics,
Something-Something V2, UCF101, and HMDB51.
- Abstract(参考訳): 最先端の3D畳み込みニューラルネットワーク(CNN)は、アクション認識データセットに非常に優れた結果をもたらすが、計算は非常に高価であり、多くのGFLOPを必要とする。
3次元CNNのGFLOPは、ネットワーク内の時間的特徴分解能を小さくすることで低減できるが、全ての入力クリップに最適な設定は存在しない。
そこで本研究では,既存の3d cnnアーキテクチャにプラグイン可能な微分可能類似性誘導サンプリング(sgs)モジュールを導入する。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
その結果、時間的特徴分解能はもはや静的ではないが、入力されたビデオクリップごとに異なる。
現在の3D CNNにSGSを付加層として統合することにより、適応的時間的特徴分解能(ATFR)を備えたより効率的な3D CNNに変換することができる。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
Kinetics-600, Kinetics-400, mini-Kinetics, Something-Something V2, UCF101, HMDB51など,さまざまなデータセット上で, 最先端の3D CNNにこれを追加することで, モジュールの評価を行った。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - In Defense of Image Pre-Training for Spatiotemporal Recognition [32.56468478601864]
画像事前学習を効果的に活用する鍵は、空間的特徴と時間的特徴の学習の分解にある。
新しいパイプラインは、大きなスピードアップを伴うビデオ認識において、常により良い結果を達成する。
論文 参考訳(メタデータ) (2022-05-03T18:45:44Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - Would Mega-scale Datasets Further Enhance Spatiotemporal 3D CNNs? [18.95620388632382]
ディープニューラルネットワークの初期において、ビデオ認識の文脈では、2D CNNは3D CNNよりも優れていた。
最近の研究では、3D CNNが大規模なビデオデータセットでトレーニングされた2D CNNより優れていることが判明した。
論文 参考訳(メタデータ) (2020-04-10T09:44:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。