論文の概要: Bunched LPCNet : Vocoder for Low-cost Neural Text-To-Speech Systems
- arxiv url: http://arxiv.org/abs/2008.04574v1
- Date: Tue, 11 Aug 2020 08:15:45 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-31 12:40:39.101168
- Title: Bunched LPCNet : Vocoder for Low-cost Neural Text-To-Speech Systems
- Title(参考訳): bunched lpcnet : 低コストニューラルネットワークのためのvocoder
- Authors: Ravichander Vipperla, Sangjun Park, Kihyun Choo, Samin Ishtiaq,
Kyoungbo Min, Sourav Bhattacharya, Abhinav Mehrotra, Alberto Gil C. P. Ramos
and Nicholas D. Lane
- Abstract要約: LPCNetは、線形予測とディープニューラルネットワークモジュールを組み合わせて計算複雑性を低くする効率的なボコーダである。
低コストなLPCNetボコーダベースニューラルテキスト音声合成システム(TTS)を目指して,その複雑さをさらに軽減する2つの手法を提案する。
- 参考スコア(独自算出の注目度): 18.480490920718367
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: LPCNet is an efficient vocoder that combines linear prediction and deep
neural network modules to keep the computational complexity low. In this work,
we present two techniques to further reduce it's complexity, aiming for a
low-cost LPCNet vocoder-based neural Text-to-Speech (TTS) System. These
techniques are: 1) Sample-bunching, which allows LPCNet to generate more than
one audio sample per inference; and 2) Bit-bunching, which reduces the
computations in the final layer of LPCNet. With the proposed bunching
techniques, LPCNet, in conjunction with a Deep Convolutional TTS (DCTTS)
acoustic model, shows a 2.19x improvement over the baseline run-time when
running on a mobile device, with a less than 0.1 decrease in TTS mean opinion
score (MOS).
- Abstract(参考訳): LPCNetは、線形予測とディープニューラルネットワークモジュールを組み合わせて計算複雑性を低くする効率的なボコーダである。
本研究では,低コストなLPCNetボコーダベースニューラルテキスト音声合成システム(TTS)を目指して,その複雑さをさらに軽減する2つの手法を提案する。
これらのテクニックは
1)LPCNetが推論毎に複数のオーディオサンプルを生成することができるサンプルバンチ
2)ビットバンチはLPCNetの最終層における計算量を削減する。
提案手法であるlpcnetは,dctts(deep convolutional tts)音響モデルと相まって,モバイルデバイス上での実行時のベースライン実行時間に対する2.19倍の改善を示し,tts平均意見スコア(mos)を0.1未満に削減した。
関連論文リスト
- EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - Unsupervised Deep Unfolded PGD for Transmit Power Allocation in Wireless
Systems [0.6091702876917281]
本稿では,反復射影勾配(PGD)アルゴリズムをニューラルネットワークの層に深く展開し,ステップサイズパラメータを学習する,単純な低複素性TPCアルゴリズムを提案する。
高密度デバイス間通信(D2D)における性能評価の結果,提案手法は2回以上の繰り返し回数で反復アルゴリズムよりも優れた性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-06-20T19:51:21Z) - Efficient Dataset Distillation Using Random Feature Approximation [109.07737733329019]
本稿では,ニューラルネットワークガウス過程(NNGP)カーネルのランダム特徴近似(RFA)を用いた新しいアルゴリズムを提案する。
我々のアルゴリズムは、KIP上で少なくとも100倍のスピードアップを提供し、1つのGPUで実行できる。
RFA蒸留 (RFAD) と呼ばれる本手法は, 大規模データセットの精度において, KIP や他のデータセット凝縮アルゴリズムと競合して動作する。
論文 参考訳(メタデータ) (2022-10-21T15:56:13Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - Bunched LPCNet2: Efficient Neural Vocoders Covering Devices from Cloud
to Edge [3.612475016403612]
Bunched LPCNet2は、クラウドサーバーの高品質と低リソースエッジデバイスにおける低複雑さで効率的なパフォーマンスを提供する。
実験により,LPCNet2はモデルフットプリントが1.1MBで,RPi 3Bでリアルタイムよりも高速に動作し,良好な音声品質が得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T23:56:52Z) - NeuralDPS: Neural Deterministic Plus Stochastic Model with Multiband
Excitation for Noise-Controllable Waveform Generation [67.96138567288197]
本稿では,高い音声品質を保ち,高い合成効率とノイズ制御性を得ることができるニューラルDPSというニューラルボコーダを提案する。
ウェーブネットのボコーダより少なくとも280倍高速な波形を生成する。
また、単一コア上でのWaveGANの合成効率よりも28%高速である。
論文 参考訳(メタデータ) (2022-03-05T08:15:29Z) - Neural Speech Synthesis on a Shoestring: Improving the Efficiency of
LPCNet [35.44634252321666]
我々はLPCNetの効率を改善し、多種多様なデバイスで利用できるようにする。
2.5倍高速に動作しながら, 合成品質の向上を実証した。
結果として得られるオープンソースのLPCNetアルゴリズムは、既存のほとんどの携帯電話でリアルタイムなニューラルシンセシスを実行でき、組み込みデバイスでも使用することができる。
論文 参考訳(メタデータ) (2022-02-22T20:42:00Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Instant Neural Graphics Primitives with a Multiresolution Hash Encoding [67.33850633281803]
品質を犠牲にすることなく、より小さなネットワークを使用できる汎用的な新しい入力符号化を提案する。
小さなニューラルネットワークは、勾配降下によって値が最適化された訓練可能な特徴ベクトルの多分解能ハッシュテーブルによって拡張される。
数桁の高速化を実現し、高品質なニューラルネットワークプリミティブを数秒でトレーニングすることができる。
論文 参考訳(メタデータ) (2022-01-16T07:22:47Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Scalable and Efficient Neural Speech Coding [24.959825692325445]
本研究では,音声圧縮のためのスケーラブルかつ効率的なニューラル波形(NWC)を提案する。
提案するcnnオートエンコーダは、量子化と符号化を訓練可能なモジュールとして定義する。
他の自己回帰型デコーダベースのニューラルスピーチと比較すると、デコーダのアーキテクチャは大幅に小さい。
論文 参考訳(メタデータ) (2021-03-27T00:10:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。