論文の概要: RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices
- arxiv url: http://arxiv.org/abs/2007.09835v2
- Date: Sun, 3 Jan 2021 18:03:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-08 10:13:14.692315
- Title: RT3D: Achieving Real-Time Execution of 3D Convolutional Neural Networks
on Mobile Devices
- Title(参考訳): RT3D:モバイルデバイス上の3D畳み込みニューラルネットワークのリアルタイム実行を実現する
- Authors: Wei Niu, Mengshu Sun, Zhengang Li, Jou-An Chen, Jiexiong Guan, Xipeng
Shen, Yanzhi Wang, Sijia Liu, Xue Lin, Bin Ren
- Abstract要約: 本稿では3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークRT3Dを提案する。
3D CNNのリアルタイム実行は、市販のモバイル上で初めて実現された。
- 参考スコア(独自算出の注目度): 57.877112704841366
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Mobile devices are becoming an important carrier for deep learning tasks, as
they are being equipped with powerful, high-end mobile CPUs and GPUs. However,
it is still a challenging task to execute 3D Convolutional Neural Networks
(CNNs) targeting for real-time performance, besides high inference accuracy.
The reason is more complex model structure and higher model dimensionality
overwhelm the available computation/storage resources on mobile devices. A
natural way may be turning to deep learning weight pruning techniques. However,
the direct generalization of existing 2D CNN weight pruning methods to 3D CNNs
is not ideal for fully exploiting mobile parallelism while achieving high
inference accuracy.
This paper proposes RT3D, a model compression and mobile acceleration
framework for 3D CNNs, seamlessly integrating neural network weight pruning and
compiler code generation techniques. We propose and investigate two structured
sparsity schemes i.e., the vanilla structured sparsity and kernel group
structured (KGS) sparsity that are mobile acceleration friendly. The vanilla
sparsity removes whole kernel groups, while KGS sparsity is a more fine-grained
structured sparsity that enjoys higher flexibility while exploiting full
on-device parallelism. We propose a reweighted regularization pruning algorithm
to achieve the proposed sparsity schemes. The inference time speedup due to
sparsity is approaching the pruning rate of the whole model FLOPs (floating
point operations). RT3D demonstrates up to 29.1$\times$ speedup in end-to-end
inference time comparing with current mobile frameworks supporting 3D CNNs,
with moderate 1%-1.5% accuracy loss. The end-to-end inference time for 16 video
frames could be within 150 ms, when executing representative C3D and R(2+1)D
models on a cellphone. For the first time, real-time execution of 3D CNNs is
achieved on off-the-shelf mobiles.
- Abstract(参考訳): モバイルデバイスは、パワフルでハイエンドなモバイルcpuとgpuを備えているため、ディープラーニングタスクの重要なキャリアになりつつある。
しかし、3D畳み込みニューラルネットワーク(CNN)の実行は、高い推論精度に加えて、リアルタイムのパフォーマンスを目標とする課題である。
理由は、より複雑なモデル構造とより高いモデル次元が、モバイルデバイスで利用可能な計算/ストレージリソースを圧倒するからだ。
自然に、深層学習の重み付け技術に変わるかもしれません。
しかし,既存の2次元CNN重み付け法の3次元CNNへの直接的一般化は,高い推論精度を達成しつつ,モバイル並列性を完全に活用するには理想的ではない。
本稿では,3次元CNNのためのモデル圧縮およびモバイルアクセラレーションフレームワークであるRT3Dを提案し,ニューラルネットワークの重み付けとコンパイラコード生成技術をシームレスに統合する。
本稿では,移動加速度に親しみやすい2つの構造的疎性スキーム,すなわち,バニラ構造的疎性とカーネル群構造的疎性(KGS)について検討する。
バニラスパーシティはカーネルグループ全体を取り除き、kgsスパーシティはよりきめ細かい構造スパーシティであり、デバイス上の完全な並列処理を活用しながら高い柔軟性を享受する。
提案手法を実現するために,再重み付け正則化プルーニングアルゴリズムを提案する。
スパルシリティによる推定時間の高速化は、モデルフラップ全体のプルーニングレート(浮動小数点演算)に近づいている。
RT3Dは3D CNNをサポートする現在のモバイルフレームワークと比較して、エンドツーエンドの推論時間の最大29.1$\times$スピードアップを示し、1%-1.5%の精度損失がある。
16の動画フレームのエンドツーエンドの推論時間は、C3DとR(2+1)Dモデルを携帯電話で実行する場合、150ミリ秒以内であった。
3D CNNのリアルタイム実行が初めて、市販のモバイル上で実現される。
関連論文リスト
- Maximizing Spatio-Temporal Entropy of Deep 3D CNNs for Efficient Video
Recognition [25.364148451584356]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識において一般的な選択肢である。
我々は,新しい学習自由なニューラルアーキテクチャ探索手法を用いて,効率的な3次元CNNアーキテクチャを自動設計することを提案する。
Something-Something V1&V2 と Kinetics400 の実験は、E3D ファミリーが最先端のパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2023-03-05T15:11:53Z) - DS-Net++: Dynamic Weight Slicing for Efficient Inference in CNNs and
Transformers [105.74546828182834]
本稿では,様々な難易度を持つ入力に対して,ネットワークパラメータの一部を適応的にスライスする動的ウェイトスライシングという,ハードウェア効率のよい動的推論方式を示す。
我々は、CNNのフィルタ数とCNNと変換器の多重次元を入力依存的に調整することで、動的スライム可能なネットワーク(DS-Net)と動的スライス可能なネットワーク(DS-Net++)を提案する。
論文 参考訳(メタデータ) (2021-09-21T09:57:21Z) - Continual 3D Convolutional Neural Networks for Real-time Processing of
Videos [93.73198973454944]
連続3次元コンテンポラルニューラルネットワーク(Co3D CNN)について紹介する。
Co3D CNNはクリップ・バイ・クリップではなく、フレーム・バイ・フレームで動画を処理する。
本研究では,既存の映像認識モデルの重みを初期化したCo3D CNNを用いて,フレームワイズ計算における浮動小数点演算を10.0-12.4倍削減し,Kinetics-400の精度を2.3-3.8倍に向上したことを示す。
論文 参考訳(メタデータ) (2021-05-31T18:30:52Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - RANP: Resource Aware Neuron Pruning at Initialization for 3D CNNs [32.054160078692036]
3D CNNを高いスパーシティレベルにプルーンするResource Aware Neuron Pruning (RANP)アルゴリズムを紹介します。
提案アルゴリズムは, FLOPの約50%-95%の削減, メモリの35%-80%の削減を実現している。
論文 参考訳(メタデータ) (2021-02-09T04:35:29Z) - 3D CNNs with Adaptive Temporal Feature Resolutions [83.43776851586351]
similarity Guided Sampling (SGS)モジュールは既存のCNNアーキテクチャにプラグインできる。
SGSは、時間的特徴の類似性を学び、類似した特徴をまとめることで、3D CNNに権限を与える。
評価の結果,提案モジュールは精度を保ちながら計算コスト(GFLOP)を半分に減らし,最先端化を実現していることがわかった。
論文 参考訳(メタデータ) (2020-11-17T14:34:05Z) - Making a Case for 3D Convolutions for Object Segmentation in Videos [16.167397418720483]
本研究では,3次元畳み込みネットワークが高精細な物体分割などの高密度映像予測タスクに効果的に適用可能であることを示す。
本稿では,新しい3Dグローバル・コンボリューション・レイヤと3Dリファインメント・モジュールからなる3Dデコーダアーキテクチャを提案する。
提案手法は,DAVIS'16 Unsupervised, FBMS, ViSalベンチマークにおいて,既存の最先端技術よりもはるかに優れている。
論文 参考訳(メタデータ) (2020-08-26T12:24:23Z) - PatDNN: Achieving Real-Time DNN Execution on Mobile Devices with
Pattern-based Weight Pruning [57.20262984116752]
粗粒構造の内部に新しい次元、きめ細かなプルーニングパターンを導入し、これまで知られていなかった設計空間の点を明らかにした。
きめ細かいプルーニングパターンによって高い精度が実現されているため、コンパイラを使ってハードウェア効率を向上し、保証することがユニークな洞察である。
論文 参考訳(メタデータ) (2020-01-01T04:52:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。