論文の概要: Empirical Evaluation of Deep Learning Model Compression Techniques on
the WaveNet Vocoder
- arxiv url: http://arxiv.org/abs/2011.10469v1
- Date: Fri, 20 Nov 2020 16:01:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-23 06:51:26.239694
- Title: Empirical Evaluation of Deep Learning Model Compression Techniques on
the WaveNet Vocoder
- Title(参考訳): WaveNet Vocoderを用いたディープラーニングモデル圧縮手法の実証評価
- Authors: Sam Davis, Giuseppe Coccia, Sam Gooch, Julian Mack
- Abstract要約: WaveNetはテキストから音声へのボイコーダであり、自動回帰ループのためデプロイが困難である。
アーキテクチャの変更とは対照的に、オリジナルWaveNetアーキテクチャを直接高速化する方法に重点を置いています。
我々は,様々なハードウェアプラットフォームに展開可能な,多種多様なモデル圧縮手法を調査した。
- 参考スコア(独自算出の注目度): 0.03904704996625027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: WaveNet is a state-of-the-art text-to-speech vocoder that remains challenging
to deploy due to its autoregressive loop. In this work we focus on ways to
accelerate the original WaveNet architecture directly, as opposed to modifying
the architecture, such that the model can be deployed as part of a scalable
text-to-speech system. We survey a wide variety of model compression techniques
that are amenable to deployment on a range of hardware platforms. In
particular, we compare different model sparsity methods and levels, and seven
widely used precisions as targets for quantization; and are able to achieve
models with a compression ratio of up to 13.84 without loss in audio fidelity
compared to a dense, single-precision floating-point baseline. All techniques
are implemented using existing open source deep learning frameworks and
libraries to encourage their wider adoption.
- Abstract(参考訳): WaveNetは最先端のテキストから音声へのボイコーダであり、自動回帰ループのためデプロイが困難である。
この作業では、スケーラブルなテキスト音声合成システムの一部としてモデルをデプロイできるように、アーキテクチャを変更するのとは対照的に、元のWaveNetアーキテクチャを直接高速化する方法に焦点を当てます。
我々は,様々なハードウェアプラットフォームに展開可能な,多種多様なモデル圧縮手法を調査した。
特に、異なるモデルのスパーシティの方法とレベルを比較し、7つの広く使われている精度を量子化のターゲットとし、密度の高い単精度浮動小数点ベースラインと比較して、オーディオの忠実度を損なうことなく最大13.84の圧縮率のモデルを実現することができる。
すべてのテクニックは、既存のオープンソースのディープラーニングフレームワークとライブラリを使用して実装され、より広範な採用を促進する。
関連論文リスト
- Computer Vision Model Compression Techniques for Embedded Systems: A Survey [75.38606213726906]
本稿では,コンピュータビジョンタスクに適用される主モデル圧縮技術について述べる。
本稿では,圧縮サブ領域の特性について述べるとともに,異なるアプローチを比較し,最適な手法を選択する方法について論じる。
初期の実装課題を克服する上で、研究者や新しい実践者を支援するためのコードも共有しています。
論文 参考訳(メタデータ) (2024-08-15T16:41:55Z) - Multiscale Augmented Normalizing Flows for Image Compression [17.441496966834933]
本稿では,非可逆潜在変数モデルである拡張正規化フローに対して,階層的潜在空間を適応させる新しい概念を提案する。
私たちの最高のパフォーマンスモデルは、比較対象のシングルスケールモデルよりも7%以上、平均的なコスト削減を実現しました。
論文 参考訳(メタデータ) (2023-05-09T13:42:43Z) - I3D: Transformer architectures with input-dependent dynamic depth for
speech recognition [41.35563331283372]
本稿では,入力依存動的深さ(I3D)を用いたトランスフォーマーエンコーダを提案する。
また、ゲート確率と入力依存性について興味深い分析を行い、より深いエンコーダの理解を深める。
論文 参考訳(メタデータ) (2023-03-14T04:47:00Z) - High Fidelity Neural Audio Compression [92.4812002532009]
我々は、ニューラルネットワークを利用した最先端のリアルタイム、高忠実、オーディオを導入する。
ストリーミングエンコーダ-デコーダアーキテクチャと、エンドツーエンドでトレーニングされた量子化潜在空間で構成されている。
単一マルチスケール・スペクトログラム・アドバイザリーを用いて、トレーニングを簡素化し、高速化する。
論文 参考訳(メタデータ) (2022-10-24T17:52:02Z) - Low Bit-Rate Wideband Speech Coding: A Deep Generative Model based
Approach [4.02517560480215]
従来の低ビットレート音声符号化方式は、8kHzでのみ狭帯域音声を扱う。
本稿では,メル周波数ケプストラム係数(MFCC)のベクトル量子化(VQ)による新しい手法を提案する。
これは、最先端の古典的なMELPegressiveと比較して、低ビットレートで優れた音声品質を提供する。
論文 参考訳(メタデータ) (2021-02-04T14:37:16Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z) - Training with Quantization Noise for Extreme Model Compression [57.51832088938618]
与えられたモデルサイズに対する精度を最大化しながら、コンパクトなモデルを作成するという問題に取り組む。
標準的な解決策は、トレーニング中に重みが定量化され、勾配がストレート・スルー推定器に近似される量子化意識訓練(Quantization Aware Training)でネットワークをトレーニングすることである。
本稿では, この手法を, 極端な圧縮法を用いて, int8 の固定点量子化を超えて機能するように拡張する。
論文 参考訳(メタデータ) (2020-04-15T20:10:53Z) - Neural Network Compression Framework for fast model inference [59.65531492759006]
我々は、ニューラルネットワーク圧縮フレームワーク(NNCF)と呼ばれる、微調整によるニューラルネットワーク圧縮のための新しいフレームワークを提案する。
様々なネットワーク圧縮手法の最近の進歩を活用し、空間性、量子化、双項化などのいくつかの実装を行っている。
フレームワークは、トレーニングサンプル内に提供され、あるいは既存のトレーニングコードにシームレスに統合可能なスタンドアロンパッケージとして使用することができる。
論文 参考訳(メタデータ) (2020-02-20T11:24:01Z) - Learning End-to-End Lossy Image Compression: A Benchmark [90.35363142246806]
まず,学習した画像の圧縮方法に関する総合的な文献調査を行う。
本稿では,最先端の学習画像圧縮手法のマイルストーンについて述べるとともに,既存の幅広い作品について概観し,その歴史的開発ルートについて考察する。
エントロピー推定と信号再構成のための粗大な超高次モデルを導入することにより、速度歪み性能の向上を実現する。
論文 参考訳(メタデータ) (2020-02-10T13:13:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。