論文の概要: Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos
- arxiv url: http://arxiv.org/abs/2106.00050v1
- Date: Mon, 31 May 2021 18:30:52 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-02 14:34:48.625862
- Title: Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos
- Title(参考訳): 映像のリアルタイム処理のための連続3次元畳み込みニューラルネットワーク
- Authors: Lukas Hedegaard and Alexandros Iosifidis
- Abstract要約: 連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
- 参考スコア(独自算出の注目度): 93.73198973454944
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces Continual 3D Convolutional Neural Networks (Co3D CNNs),
a new computational formulation of spatio-temporal 3D CNNs, in which videos are
processed frame-by-frame rather than by clip. In online processing tasks
demanding frame-wise predictions, Co3D CNNs dispense with the computational
redundancies of regular 3D CNNs, namely the repeated convolutions over frames,
which appear in multiple clips. While yielding an order of magnitude in
computational savings, Co3D CNNs have memory requirements comparable with that
of corresponding regular 3D CNNs and are less affected by changes in the size
of the temporal receptive field. We show that Continual 3D CNNs initialised on
the weights from preexisting state-of-the-art video recognition models reduce
the floating point operations for frame-wise computations by 10.0-12.4x while
improving accuracy on Kinetics-400 by 2.3-3.8. Moreover, we investigate the
transient start-up response of Co3D CNNs and perform an extensive benchmark of
online processing speed as well as accuracy for publicly available
state-of-the-art 3D CNNs on modern hardware.
- Abstract(参考訳): 本稿では,ビデオがクリップではなくフレーム単位で処理される時空間CNNの新しい計算式であるContinuous 3D Convolutional Neural Networks (Co3D CNNs)を紹介する。
フレームワイズ予測を必要とするオンライン処理タスクでは、Co3D CNNは通常の3D CNNの計算冗長性、すなわち複数のクリップに現れるフレーム上の繰り返し畳み込みを省く。
Co3D CNNは、計算保存量において桁違いのオーダーを得られるが、メモリ要件は対応する3D CNNと同等であり、時間的受容野の大きさの変化の影響を受けない。
その結果,既存の映像認識モデルから重み付けされた連続3次元cnnは,フレーム演算の浮動小数点演算を10.0-12.4x削減するとともに,動力学的s-400の精度を2.3-3.8で向上させた。
さらに,Co3D CNNの過渡的起動応答について検討し,オンライン処理速度の広範なベンチマークと,最新のハードウェア上で公開されている最先端3D CNNの精度について検討する。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Dissected 3D CNNs: Temporal Skip Connections for Efficient Online Video
Processing [15.980090046426193]
3Dカーネル(3D-CNN)を持つコナールニューラルネットワークは、現在、ビデオ認識タスクにおける最先端の結果を達成している。
本稿では,ネットワークの中間ボリュームを分割し,深度(時間)次元で伝搬する3D-CNNを提案する。
アクション分類では、ResNetモデルの分解されたバージョンは、オンライン操作時に77-90%少ない計算を実行する。
論文 参考訳(メタデータ) (2020-09-30T12:48:52Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。