論文の概要: ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks
- arxiv url: http://arxiv.org/abs/2007.13384v1
- Date: Mon, 27 Jul 2020 09:01:22 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-06 07:35:17.560683
- Title: ALF: Autoencoder-based Low-rank Filter-sharing for Efficient
Convolutional Neural Networks
- Title(参考訳): ALF:効率的な畳み込みニューラルネットワークのためのオートエンコーダに基づく低ランクフィルタ共有
- Authors: Alexander Frickenstein, Manoj-Rohit Vemparala, Nael Fasfous, Laura
Hauenschild, Naveen-Shankar Nagaraja, Christian Unger, Walter Stechele
- Abstract要約: オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
ALFは、ネットワークパラメータの70%、オペレーションの61%、実行時間の41%を削減し、精度の低下を最小限にしている。
- 参考スコア(独自算出の注目度): 63.91384986073851
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Closing the gap between the hardware requirements of state-of-the-art
convolutional neural networks and the limited resources constraining embedded
applications is the next big challenge in deep learning research. The
computational complexity and memory footprint of such neural networks are
typically daunting for deployment in resource constrained environments. Model
compression techniques, such as pruning, are emphasized among other
optimization methods for solving this problem. Most existing techniques require
domain expertise or result in irregular sparse representations, which increase
the burden of deploying deep learning applications on embedded hardware
accelerators. In this paper, we propose the autoencoder-based low-rank
filter-sharing technique technique (ALF). When applied to various networks, ALF
is compared to state-of-the-art pruning methods, demonstrating its efficient
compression capabilities on theoretical metrics as well as on an accurate,
deterministic hardware-model. In our experiments, ALF showed a reduction of
70\% in network parameters, 61\% in operations and 41\% in execution time, with
minimal loss in accuracy.
- Abstract(参考訳): 最先端の畳み込みニューラルネットワークのハードウェア要件と組み込みアプリケーションを制限する限られたリソースとのギャップを埋めることは、ディープラーニング研究における次の大きな課題である。
このようなニューラルネットワークの計算の複雑さとメモリフットプリントは、リソース制約のある環境でのデプロイを難しくしている。
プルーニングのようなモデル圧縮手法は、この問題を解決する他の最適化手法の中で強調されている。
既存の技術の多くは、ドメインの専門知識や不規則なスパース表現を必要とするため、ディープラーニングアプリケーションを組み込みハードウェアアクセラレータにデプロイする負担が増加する。
本稿では,オートエンコーダを用いた低ランクフィルタ共有技術(ALF)を提案する。
様々なネットワークに適用すると、ALFは最先端のプルーニング手法と比較され、理論的なメトリクスや正確な決定論的ハードウェアモデル上での効率的な圧縮能力を示す。
実験では,ネットワークパラメータの70 %,オペレーションの61 %,実行時間の41 %,精度の低下を最小限に抑えた。
関連論文リスト
- FPGA Resource-aware Structured Pruning for Real-Time Neural Networks [3.294652922898631]
プルーニングはニューラルネットワークをスパースし、乗算とメモリの数を減らします。
資源対応テンソル構造を持つクナップサック問題として定式化することで,ハードウェア中心のプルーニングの定式化を提案する。
提案手法は, DSP使用率の55%から92%, BRAM使用率の81%の削減を実現する。
論文 参考訳(メタデータ) (2023-08-09T18:14:54Z) - Low Rank Optimization for Efficient Deep Learning: Making A Balance
between Compact Architecture and Fast Training [36.85333789033387]
本稿では,効率的なディープラーニング技術のための低ランク最適化に焦点を当てる。
空間領域では、ディープニューラルネットワークは、ネットワークパラメータの低階近似によって圧縮される。
時間領域では、ネットワークパラメータをいくつかのサブスペースでトレーニングできるため、高速収束のための効率的なトレーニングが可能になる。
論文 参考訳(メタデータ) (2023-03-22T03:55:16Z) - Complexity-Driven CNN Compression for Resource-constrained Edge AI [1.6114012813668934]
本稿では,CNNの層レベルでの複雑さを生かして,新しい,計算効率の高いプルーニングパイプラインを提案する。
パラメータ認識(PA)、FLOP認識(FA)、メモリ認識(MA)の3つのモードを定義し、CNNの汎用圧縮を導入する。
論文 参考訳(メタデータ) (2022-08-26T16:01:23Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - An Information Theory-inspired Strategy for Automatic Network Pruning [88.51235160841377]
深層畳み込みニューラルネットワークは、リソース制約のあるデバイスで圧縮されることがよく知られている。
既存のネットワークプルーニング手法の多くは、人的努力と禁忌な計算資源を必要とする。
本稿では,自動モデル圧縮のための情報理論に基づく戦略を提案する。
論文 参考訳(メタデータ) (2021-08-19T07:03:22Z) - A New Clustering-Based Technique for the Acceleration of Deep
Convolutional Networks [2.7393821783237184]
MCA(Model Compression and Acceleration)技術は、大規模な事前学習ネットワークをより小さなモデルに変換するために用いられる。
本稿では,採用したセントロイド/表現量を増やすクラスタリングに基づく手法を提案する。
これは、被雇用者に対して特別な構造を課すことによって達成され、これは、目の前の問題の特異性によって実現される。
論文 参考訳(メタデータ) (2021-07-19T18:22:07Z) - Manifold Regularized Dynamic Network Pruning [102.24146031250034]
本稿では,全インスタンスの多様体情報をプルーンドネットワークの空間に埋め込むことにより,冗長フィルタを動的に除去する新しいパラダイムを提案する。
提案手法の有効性をいくつかのベンチマークで検証し,精度と計算コストの両面で優れた性能を示す。
論文 参考訳(メタデータ) (2021-03-10T03:59:03Z) - Ps and Qs: Quantization-aware pruning for efficient low latency neural
network inference [56.24109486973292]
超低遅延アプリケーションのためのニューラルネットワークのトレーニング中の分級と量子化の相互作用を研究します。
量子化アウェアプルーニングは,タスクのプルーニングや量子化のみよりも計算効率のよいモデルであることが判明した。
論文 参考訳(メタデータ) (2021-02-22T19:00:05Z) - An Efficient Statistical-based Gradient Compression Technique for
Distributed Training Systems [77.88178159830905]
Sparsity-Inducing Distribution-based Compression (SIDCo) は閾値に基づくスペーシフィケーションスキームであり、DGCと同等のしきい値推定品質を享受する。
SIDCoは,非圧縮ベースライン,Topk,DGC圧縮機と比較して,最大で41:7%,7:6%,1:9%の速度でトレーニングを高速化する。
論文 参考訳(メタデータ) (2021-01-26T13:06:00Z) - A Variational Information Bottleneck Based Method to Compress Sequential
Networks for Human Action Recognition [9.414818018857316]
本稿では,人間行動認識(HAR)に用いるリカレントニューラルネットワーク(RNN)を効果的に圧縮する手法を提案する。
変分情報ボトルネック(VIB)理論に基づくプルーニング手法を用いて,RNNの逐次セルを流れる情報の流れを小さなサブセットに制限する。
我々は、圧縮を大幅に改善する特定のグループ・ラッソ正規化手法とプルーニング手法を組み合わせる。
提案手法は,UCF11上での動作認識の精度に比較して,最も近い競合に比べて70倍以上の圧縮を実現する。
論文 参考訳(メタデータ) (2020-10-03T12:41:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。