論文の概要: Dissected 3D CNNs: Temporal Skip Connections for Efficient Online Video
Processing
- arxiv url: http://arxiv.org/abs/2009.14639v2
- Date: Mon, 18 Oct 2021 13:47:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 23:18:52.682084
- Title: Dissected 3D CNNs: Temporal Skip Connections for Efficient Online Video
Processing
- Title(参考訳): 分割3D CNN: 効率的なオンラインビデオ処理のための時間的スキップ接続
- Authors: Okan K\"op\"ukl\"u, Stefan H\"ormann, Fabian Herzog, Hakan Cevikalp,
Gerhard Rigoll
- Abstract要約: 3Dカーネル(3D-CNN)を持つコナールニューラルネットワークは、現在、ビデオ認識タスクにおける最先端の結果を達成している。
本稿では,ネットワークの中間ボリュームを分割し,深度(時間)次元で伝搬する3D-CNNを提案する。
アクション分類では、ResNetモデルの分解されたバージョンは、オンライン操作時に77-90%少ない計算を実行する。
- 参考スコア(独自算出の注目度): 15.980090046426193
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional Neural Networks with 3D kernels (3D-CNNs) currently achieve
state-of-the-art results in video recognition tasks due to their supremacy in
extracting spatiotemporal features within video frames. There have been many
successful 3D-CNN architectures surpassing the state-of-the-art results
successively. However, nearly all of them are designed to operate offline
creating several serious handicaps during online operation. Firstly,
conventional 3D-CNNs are not dynamic since their output features represent the
complete input clip instead of the most recent frame in the clip. Secondly,
they are not temporal resolution-preserving due to their inherent temporal
downsampling. Lastly, 3D-CNNs are constrained to be used with fixed temporal
input size limiting their flexibility. In order to address these drawbacks, we
propose dissected 3D-CNNs, where the intermediate volumes of the network are
dissected and propagated over depth (time) dimension for future calculations,
substantially reducing the number of computations at online operation. For
action classification, the dissected version of ResNet models performs 77-90%
fewer computations at online operation while achieving ~5% better
classification accuracy on the Kinetics-600 dataset than conventional 3D-ResNet
models. Moreover, the advantages of dissected 3D-CNNs are demonstrated by
deploying our approach onto several vision tasks, which consistently improved
the performance.
- Abstract(参考訳): 3dカーネル(3d-cnns)を備えた畳み込みニューラルネットワークは、現在、ビデオフレーム内の時空間的特徴抽出の優位性から、ビデオ認識タスクにおける最先端の成果を達成している。
最先端の成果を次々に上回る3d-cnnアーキテクチャが成功している。
しかし、そのほとんどがオフラインで動作し、オンライン操作中にいくつかの深刻な障害を発生させるように設計されている。
まず、従来の3d-cnnは、その出力特性がクリップの最新のフレームではなく完全な入力クリップを表しているため、動的ではない。
第二に、それらは時間分解能保存ではない。
最後に、3D-CNNは、その柔軟性を制限する固定時間入力サイズで使用されるように制約されている。
これらの欠点に対処するために,ネットワークの中間ボリュームを分割し,将来の計算のために深さ(時間)次元に伝播させる3d-cnnsを提案する。
アクション分類では、ResNetモデルの分離バージョンでは、オンライン操作時の計算量が77-90%少なくなり、従来の3D-ResNetモデルよりもキネティクス600データセットの分類精度が約5%向上した。
さらに,複数の視覚タスクにアプローチをデプロイすることで,分解した3D-CNNの利点を実証した。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - Gate-Shift-Fuse for Video Action Recognition [43.8525418821458]
Gate-Fuse (GSF) は、時間内相互作用を制御し、時間を通して特徴を適応的にルーティングし、それらをデータ依存的に組み合わせることを学ぶ、新しい時間的特徴抽出モジュールである。
GSFは既存の2D CNNに挿入して、パラメータや計算オーバーヘッドを無視して、効率的かつ高性能に変換することができる。
2つの人気のある2次元CNNファミリを用いてGSFを広範囲に解析し、5つの標準動作認識ベンチマークで最先端または競合性能を達成する。
論文 参考訳(メタデータ) (2022-03-16T19:19:04Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z) - FADNet: A Fast and Accurate Network for Disparity Estimation [18.05392578461659]
本研究では,FADNetという分散度推定のための効率的かつ高精度なディープネットワークを提案する。
高速な計算を保存するために、2Dベースの効率的な相関層と積み重ねブロックを利用する。
精度を向上させるために、マルチスケールの重みスケジューリングトレーニング技術を活用するために、マルチスケールの予測を含んでいる。
論文 参考訳(メタデータ) (2020-03-24T10:27:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。