論文の概要: Compressing CNN Kernels for Videos Using Tucker Decompositions: Towards
Lightweight CNN Applications
- arxiv url: http://arxiv.org/abs/2203.07033v1
- Date: Thu, 10 Mar 2022 11:53:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-20 07:37:45.880727
- Title: Compressing CNN Kernels for Videos Using Tucker Decompositions: Towards
Lightweight CNN Applications
- Title(参考訳): タッカー分解によるビデオ用CNNカーネル圧縮:軽量CNNアプリケーションに向けて
- Authors: Tobias Engelhardt Rasmussen, Line H Clemmensen and Andreas Baum
- Abstract要約: 畳み込みニューラルネットワーク(CNN)は、ビジュアルコンピューティングの分野における最先端技術である。
CNNの大きな問題は、大量の浮動小数点演算(FLOP)が大きな入力に対して畳み込みを行うのに必要なものである。
本稿では,画像のための事前学習ネットワークの畳み込みカーネルを圧縮するタッカー分解法を提案する。
- 参考スコア(独自算出の注目度): 2.191505742658975
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Convolutional Neural Networks (CNN) are the state-of-the-art in the field of
visual computing. However, a major problem with CNNs is the large number of
floating point operations (FLOPs) required to perform convolutions for large
inputs. When considering the application of CNNs to video data, convolutional
filters become even more complex due to the extra temporal dimension. This
leads to problems when respective applications are to be deployed on mobile
devices, such as smart phones, tablets, micro-controllers or similar,
indicating less computational power.
Kim et al. (2016) proposed using a Tucker-decomposition to compress the
convolutional kernel of a pre-trained network for images in order to reduce the
complexity of the network, i.e. the number of FLOPs. In this paper, we
generalize the aforementioned method for application to videos (and other 3D
signals) and evaluate the proposed method on a modified version of the THETIS
data set, which contains videos of individuals performing tennis shots. We show
that the compressed network reaches comparable accuracy, while indicating a
memory compression by a factor of 51. However, the actual computational
speed-up (factor 1.4) does not meet our theoretically derived expectation
(factor 6).
- Abstract(参考訳): 畳み込みニューラルネットワーク(CNN)は、ビジュアルコンピューティングの分野における最先端技術である。
しかし、CNNの大きな問題は大量の浮動小数点演算(FLOP)が大きな入力に対して畳み込みを行うのに必要なことである。
ビデオデータへのcnnの適用を考えると、畳み込みフィルタは余分な時間次元のためさらに複雑になる。
これにより、スマートフォンやタブレット、マイクロコントローラなど、各アプリケーションがモバイルデバイスにデプロイされる場合、計算能力の低下を示す問題が発生する。
Kim et al. (2016) は、ネットワークの複雑さ、すなわちFLOPの数を減らすために、事前訓練されたネットワークの畳み込みカーネルを圧縮するためにタッカー分解を用いて提案した。
本稿では、前述のビデオ(および他の3D信号)に適用するための手法を一般化し、テニスショットを行う個人のビデオを含むTheTISデータセットの修正版に対して提案手法の評価を行う。
その結果、圧縮されたネットワークは、メモリ圧縮を51倍の精度で示しながら、同等の精度に達することが分かった。
しかし、実際の計算スピードアップ(第1.4因子)は、理論上導かれた期待(第6因子)を満たさない。
関連論文リスト
- Tensor network compressibility of convolutional models [0.0]
我々は,CNNの畳み込みカーネル(拡張されていない)が,その精度に与える影響を評価する。
カーネルはしばしばいくつかのカットに沿って切り替わることができ、カーネルノルムは著しく低下するが、分類精度は低下しないことがわかった。
論文 参考訳(メタデータ) (2024-03-21T13:12:33Z) - Attention-based Feature Compression for CNN Inference Offloading in Edge
Computing [93.67044879636093]
本稿では,デバイスエッジ共振器におけるCNN推論の計算負荷について検討する。
エンドデバイスにおける効率的な特徴抽出のための新しいオートエンコーダベースのCNNアーキテクチャ(AECNN)を提案する。
実験の結果、AECNNは中間データを約4%の精度で256倍圧縮できることがわかった。
論文 参考訳(メタデータ) (2022-11-24T18:10:01Z) - DeltaCNN: End-to-End CNN Inference of Sparse Frame Differences in Videos [16.644938608211202]
ビデオデータ上の畳み込みニューラルネットワーク推論は、リアルタイム処理に強力なハードウェアを必要とする。
スパースフレーム・バイ・フレーム更新を可能にするスパース畳み込みニューラルネットワークフレームワークを提案する。
我々は,厳密な参照であるcuDNNを,精度の限界差のみで最大7倍のスピードアップを達成するために,初めて性能を向上した。
論文 参考訳(メタデータ) (2022-03-08T10:54:00Z) - Implicit Neural Video Compression [17.873088127087605]
暗黙的なニューラル表現で全解像度映像列を圧縮する手法を提案する。
各フレームは、座標位置をピクセル値にマッピングするニューラルネットワークとして表現される。
我々は、異なる暗黙ネットワークを用いて座標入力を変調し、フレーム間の効率的な動き補償を可能にする。
論文 参考訳(メタデータ) (2021-12-21T15:59:00Z) - MoViNets: Mobile Video Networks for Efficient Video Recognition [52.49314494202433]
3D畳み込みニューラルネットワーク(CNN)は、ビデオ認識では正確だが、大きな計算とメモリ予算を必要とする。
本稿では,3次元CNNのピークメモリ使用量を大幅に削減しつつ,計算効率を向上させる3段階の手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:06:38Z) - Fixed-point Quantization of Convolutional Neural Networks for Quantized
Inference on Embedded Platforms [0.9954382983583577]
本稿では,事前学習したCNNの各レイヤの重み,バイアス,アクティベーションを最適に定量化する手法を提案する。
このプロセスでは、パラメータの層単位での量子化が大いに役立ちます。
論文 参考訳(メタデータ) (2021-02-03T17:05:55Z) - The Mind's Eye: Visualizing Class-Agnostic Features of CNNs [92.39082696657874]
本稿では,特定のレイヤの最も情報性の高い特徴を表現した対応する画像を作成することにより,画像の集合を視覚的に解釈する手法を提案する。
本手法では, 生成ネットワークを必要とせず, 元のモデルに変更を加えることなく, デュアルオブジェクトのアクティベーションと距離損失を利用する。
論文 参考訳(メタデータ) (2021-01-29T07:46:39Z) - L2PF -- Learning to Prune Faster [57.32153461504626]
本稿では,cnnの冗長フィルタを離散的に学習するマルチタスクのtry-and-learn法と,レイヤの微調整期間の連続的動作を提案する。
ResNet20では、最小精度で圧縮比3.84xを達成しました。
最先端プルーニング法と比較して,GPU時間を1.71倍に短縮した。
論文 参考訳(メタデータ) (2021-01-07T18:13:37Z) - Efficient Integer-Arithmetic-Only Convolutional Neural Networks [87.01739569518513]
我々は従来のReLUを境界ReLUに置き換え、その減少は活性化量子化によるものであることを示す。
我々の整数ネットワークは、対応するFPNネットワークと同等の性能を発揮するが、メモリコストは1/4に過ぎず、最新のGPUでは2倍高速である。
論文 参考訳(メタデータ) (2020-06-21T08:23:03Z) - Approximation and Non-parametric Estimation of ResNet-type Convolutional
Neural Networks [52.972605601174955]
本稿では,ResNet型CNNが重要な関数クラスにおいて最小誤差率を達成可能であることを示す。
Barron と H'older のクラスに対する前述のタイプの CNN の近似と推定誤差率を導出する。
論文 参考訳(メタデータ) (2019-03-24T19:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。