論文の概要: MoViNets: Mobile Video Networks for Efficient Video Recognition
- arxiv url: http://arxiv.org/abs/2103.11511v1
- Date: Sun, 21 Mar 2021 23:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-23 15:03:12.744492
- Title: MoViNets: Mobile Video Networks for Efficient Video Recognition
- Title(参考訳): MoViNets:効率的なビデオ認識のためのモバイルビデオネットワーク
- Authors: Dan Kondratyuk, Liangzhe Yuan, Yandong Li, Li Zhang, Mingxing Tan,
Matthew Brown, Boqing Gong
- Abstract要約: 3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
- 参考スコア(独自算出の注目度): 52.49314494202433
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present Mobile Video Networks (MoViNets), a family of computation and
memory efficient video networks that can operate on streaming video for online
inference. 3D convolutional neural networks (CNNs) are accurate at video
recognition but require large computation and memory budgets and do not support
online inference, making them difficult to work on mobile devices. We propose a
three-step approach to improve computational efficiency while substantially
reducing the peak memory usage of 3D CNNs. First, we design a video network
search space and employ neural architecture search to generate efficient and
diverse 3D CNN architectures. Second, we introduce the Stream Buffer technique
that decouples memory from video clip duration, allowing 3D CNNs to embed
arbitrary-length streaming video sequences for both training and inference with
a small constant memory footprint. Third, we propose a simple ensembling
technique to improve accuracy further without sacrificing efficiency. These
three progressive techniques allow MoViNets to achieve state-of-the-art
accuracy and efficiency on the Kinetics, Moments in Time, and Charades video
action recognition datasets. For instance, MoViNet-A5-Stream achieves the same
accuracy as X3D-XL on Kinetics 600 while requiring 80% fewer FLOPs and 65% less
memory. Code will be made available at
https://github.com/tensorflow/models/tree/master/official/vision.
- Abstract(参考訳): 提案するMoViNet(Mobile Video Networks)は,オンライン推論のためのストリーミングビデオで動作する,計算とメモリ効率のよいビデオネットワークである。
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大規模な計算とメモリ予算を必要とし、オンライン推論をサポートしないので、モバイルデバイスで作業することが難しい。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
まず、ビデオネットワークの検索空間を設計し、ニューラルネットワークを用いて効率的で多様な3D CNNアーキテクチャを生成する。
第2に,ビデオクリップの持続時間からメモリを分離するStream Buffer技術を導入し,トレーニングと推論の両方に3D CNNを任意の長さのストリーミングビデオシーケンスを組み込むことができる。
第3に,効率を犠牲にすることなく精度を向上させるための簡易なセンシング手法を提案する。
これら3つのプログレッシブなテクニックにより、モビネットは、運動量、モーメント、チャレードのビデオアクション認識データセットにおいて最先端の精度と効率を実現できる。
例えば、MoViNet-A5-Stream は Kinetics 600 の X3D-XL と同じ精度で、FLOP の80%削減とメモリの65%削減を実現している。
コードはhttps://github.com/tensorflow/models/tree/master/official/visionで公開される。
関連論文リスト
- OA-CNNs: Omni-Adaptive Sparse CNNs for 3D Semantic Segmentation [70.17681136234202]
設計上の違いを再検討し、スパースCNNが達成できることの限界をテストする。
本稿では,このギャップを埋めるために,適応受容場(親和性)と適応関係という2つの重要な要素を提案する。
この調査により、軽量モジュールを統合するネットワークのファミリーであるOmni-Adaptive 3D CNN(OA-CNN)が開発された。
論文 参考訳(メタデータ) (2024-03-21T14:06:38Z) - Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Dissected 3D CNNs: Temporal Skip Connections for Efficient Online Video
Processing [15.980090046426193]
3Dカーネル(3D-CNN)を持つコナールニューラルネットワークは、現在、ビデオ認識タスクにおける最先端の結果を達成している。
本稿では,ネットワークの中間ボリュームを分割し,深度(時間)次元で伝搬する3D-CNNを提案する。
アクション分類では、ResNetモデルの分解されたバージョンは、オンライン操作時に77-90%少ない計算を実行する。
論文 参考訳(メタデータ) (2020-09-30T12:48:52Z) - RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices [57.877112704841366]
本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
論文 参考訳(メタデータ) (2020-07-20T02:05:32Z) - A Real-time Action Representation with Temporal Encoding and Deep
Compression [115.3739774920845]
動作表現のための時間畳み込み3Dネットワーク(T-C3D)と呼ばれる新しいリアルタイム畳み込みアーキテクチャを提案する。
T-C3Dは、高プロセス速度を得ながら、階層的な多粒度でビデオアクション表現を学習する。
提案手法は,5MB未満のストレージモデルを用いて,提案手法の精度5.4%,推論速度2倍の高速化を実現した。
論文 参考訳(メタデータ) (2020-06-17T06:30:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。