論文の概要: Neural Network Compression Framework for fast model inference
- arxiv url: http://arxiv.org/abs/2002.08679v4
- Date: Wed, 30 Dec 2020 08:17:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 08:12:00.649238
- Title: Neural Network Compression Framework for fast model inference
- Title(参考訳): 高速モデル推論のためのニューラルネットワーク圧縮フレームワーク
- Authors: Alexander Kozlov and Ivan Lazarevich and Vasily Shamporov and Nikolay
Lyalyushkin and Yury Gorbachev
- Abstract要約: 我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
- 参考スコア(独自算出の注目度): 59.65531492759006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work we present a new framework for neural networks compression with
fine-tuning, which we called Neural Network Compression Framework (NNCF). It
leverages recent advances of various network compression methods and implements
some of them, such as sparsity, quantization, and binarization. These methods
allow getting more hardware-friendly models which can be efficiently run on
general-purpose hardware computation units (CPU, GPU) or special Deep Learning
accelerators. We show that the developed methods can be successfully applied to
a wide range of models to accelerate the inference time while keeping the
original accuracy. The framework can be used within the training samples, which
are supplied with it, or as a standalone package that can be seamlessly
integrated into the existing training code with minimal adaptations. Currently,
a PyTorch version of NNCF is available as a part of OpenVINO Training
Extensions at https://github.com/openvinotoolkit/nncf.
- Abstract(参考訳): 本稿では,ニューラルネット圧縮フレームワーク(nncf)と呼ばれる,微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、スパーシティ、量子化、バイナリ化などいくつかの手法を実装している。
これらの方法では、汎用ハードウェア計算ユニット(cpu、gpu)や特別なディープラーニングアクセラレータ上で効率的に実行できる、よりハードウェアフレンドリーなモデルを得ることができる。
提案手法は,従来の精度を維持しつつ,推論時間を高速化するために,幅広いモデルに適用可能であることを示す。
フレームワークはトレーニングサンプル内で使用することができ、それが供給されるか、あるいは最小限の適応で既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
現在、NNCFのPyTorchバージョンがOpenVINO Training Extensionsの一部としてhttps://github.com/openvinotoolkit/nncfで公開されている。
関連論文リスト
- Tiled Bit Networks: Sub-Bit Neural Network Compression Through Reuse of Learnable Binary Vectors [4.95475852994362]
本稿では,バイナリ重み付きニューラルネットワークのサブビット圧縮を実現するために,ビット列を持つタイル型ニューラルネットワーク層に対する新しい量子化方式を提案する。
私たちは完全に接続された層と畳み込み層の両方にアプローチを採用しています。
論文 参考訳(メタデータ) (2024-07-16T15:55:38Z) - LCS: Learning Compressible Subspaces for Adaptive Network Compression at
Inference Time [57.52251547365967]
本稿では,ニューラルネットワークの「圧縮可能な部分空間」を訓練する手法を提案する。
構造的・非構造的空間に対する推定時間における微粒な精度・効率のトレードオフを任意に達成するための結果を示す。
我々のアルゴリズムは、可変ビット幅での量子化にまで拡張し、個別に訓練されたネットワークと同等の精度を実現する。
論文 参考訳(メタデータ) (2021-10-08T17:03:34Z) - Compact representations of convolutional neural networks via weight
pruning and quantization [63.417651529192014]
本稿では、音源符号化に基づく畳み込みニューラルネットワーク(CNN)の新しいストレージフォーマットを提案し、重み付けと量子化の両方を活用する。
我々は、全接続層で0.6%、ネットワーク全体で5.44%のスペース占有率を削減し、最低でもベースラインと同じくらいの競争力を発揮する。
論文 参考訳(メタデータ) (2021-08-28T20:39:54Z) - Quantized Neural Networks via {-1, +1} Encoding Decomposition and
Acceleration [83.84684675841167]
本稿では,量子化されたニューラルネットワーク(QNN)をマルチブランチバイナリネットワークに分解するために,-1,+1を用いた新しい符号化方式を提案する。
本稿では,大規模画像分類,オブジェクト検出,セマンティックセグメンテーションにおける提案手法の有効性を検証する。
論文 参考訳(メタデータ) (2021-06-18T03:11:15Z) - Compact CNN Structure Learning by Knowledge Distillation [34.36242082055978]
知識蒸留とカスタマイズ可能なブロックワイズ最適化を活用し、軽量なCNN構造を学習するフレームワークを提案する。
提案手法は,予測精度の向上を図りながら,アートネットワーク圧縮の状態を再現する。
特に,すでにコンパクトなネットワークであるMobileNet_v2では,モデル圧縮が最大2倍,モデル圧縮が5.2倍向上する。
論文 参考訳(メタデータ) (2021-04-19T10:34:22Z) - SparseDNN: Fast Sparse Deep Learning Inference on CPUs [1.6244541005112747]
CPUをターゲットとしたスパースディープラーニング推論エンジンであるSparseDNNを紹介します。
我々のスパースコードジェネレータは,最先端のスパースライブラリや高密度ライブラリよりも大幅に高速化できることを示す。
論文 参考訳(メタデータ) (2021-01-20T03:27:35Z) - Structured Sparsification with Joint Optimization of Group Convolution
and Channel Shuffle [117.95823660228537]
本稿では,効率的なネットワーク圧縮のための新しい構造空間分割法を提案する。
提案手法は, 畳み込み重みに対する構造的疎度を自動的に誘導する。
また,学習可能なチャネルシャッフル機構によるグループ間通信の問題にも対処する。
論文 参考訳(メタデータ) (2020-02-19T12:03:10Z) - Model Fusion via Optimal Transport [64.13185244219353]
ニューラルネットワークのための階層モデル融合アルゴリズムを提案する。
これは、不均一な非i.d.データに基づいてトレーニングされたニューラルネットワーク間での"ワンショット"な知識伝達に成功していることを示す。
論文 参考訳(メタデータ) (2019-10-12T22:07:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。