論文の概要: Bunched LPCNet2: Efficient Neural Vocoders Covering Devices from Cloud
to Edge
- arxiv url: http://arxiv.org/abs/2203.14416v1
- Date: Sun, 27 Mar 2022 23:56:52 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-29 17:45:11.943732
- Title: Bunched LPCNet2: Efficient Neural Vocoders Covering Devices from Cloud
to Edge
- Title(参考訳): Bunched LPCNet2: クラウドからエッジまでデバイスをカバーする効率的なニューラルネットワークヴォコーダ
- Authors: Sangjun Park, Kihyun Choo, Joohyung Lee, Anton V. Porov, Konstantin
Osipov, June Sig Sung
- Abstract要約: Bunched LPCNet2は、クラウドサーバーの高品質と低リソースエッジデバイスにおける低複雑さで効率的なパフォーマンスを提供する。
実験により,LPCNet2はモデルフットプリントが1.1MBで,RPi 3Bでリアルタイムよりも高速に動作し,良好な音声品質が得られることが示された。
- 参考スコア(独自算出の注目度): 3.612475016403612
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-Speech (TTS) services that run on edge devices have many advantages
compared to cloud TTS, e.g., latency and privacy issues. However, neural
vocoders with a low complexity and small model footprint inevitably generate
annoying sounds. This study proposes a Bunched LPCNet2, an improved LPCNet
architecture that provides highly efficient performance in high-quality for
cloud servers and in a low-complexity for low-resource edge devices. Single
logistic distribution achieves computational efficiency, and insightful tricks
reduce the model footprint while maintaining speech quality. A DualRate
architecture, which generates a lower sampling rate from a prosody model, is
also proposed to reduce maintenance costs. The experiments demonstrate that
Bunched LPCNet2 generates satisfactory speech quality with a model footprint of
1.1MB while operating faster than real-time on a RPi 3B. Our audio samples are
available at https://srtts.github.io/bunchedLPCNet2.
- Abstract(参考訳): エッジデバイス上で動作するText-to-Speech(TTS)サービスには、レイテンシやプライバシの問題など、クラウド TTS と比較して多くのメリットがある。
しかし、複雑さが低く、モデルフットプリントが小さいニューラルボコーダは、必然的に迷惑な音を生成する。
本研究は,クラウドサーバの高品質,低リソースエッジデバイスの低複雑さで高効率な性能を実現する改良型LPCNetアーキテクチャである Bunched LPCNet2を提案する。
単一ロジスティック分布は計算効率を達成し、洞察力のあるトリックは音声品質を維持しながらモデルのフットプリントを削減する。
プロソディモデルから低サンプリング率を生成するDualRateアーキテクチャも提案され,メンテナンスコストの低減が図られた。
実験により,LPCNet2はモデルフットプリントが1.1MBであり,RPi 3Bではリアルタイムよりも高速に動作し,良好な音声品質が得られることが示された。
オーディオサンプルはhttps://srtts.github.io/bunchedlpcnet2で入手できます。
関連論文リスト
- Accelerating Linear Recurrent Neural Networks for the Edge with Unstructured Sparsity [39.483346492111515]
線形リカレントニューラルネットワークは、推論中に一定のメモリ使用量と時間毎の時間を含む強力な長距離シーケンスモデリングを可能にする。
非構造化空間は、互換性のあるハードウェアプラットフォームによって加速されるときに、計算とメモリの要求を大幅に削減できる魅力的なソリューションを提供する。
非常に疎い線形RNNは、高密度ベースラインよりも高い効率と性能のトレードオフを一貫して達成している。
論文 参考訳(メタデータ) (2025-02-03T13:09:21Z) - A Real-Time Voice Activity Detection Based On Lightweight Neural [4.589472292598182]
音声活動検出(Voice Activity Detection, VAD)は、音声ストリーム中の音声を検出するタスクである。
最近のニューラルネットワークベースのVADでは、パフォーマンスの低下がある程度軽減されている。
我々は,カジュアルかつ深さ分離可能な1次元畳み込みとGRUを利用するMagicNetという,軽量でリアルタイムなニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2024-05-27T03:31:16Z) - sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Latency-aware Unified Dynamic Networks for Efficient Image Recognition [72.8951331472913]
LAUDNetは動的ネットワークの理論的および実用的な効率ギャップを橋渡しするフレームワークである。
3つの主要な動的パラダイム - 適応型計算、動的層スキップ、動的チャネルスキップ - を統合している。
これにより、V100,3090やTX2 GPUのようなプラットフォーム上で、ResNetのようなモデルの遅延を50%以上削減できる。
論文 参考訳(メタデータ) (2023-08-30T10:57:41Z) - Simple Pooling Front-ends For Efficient Audio Classification [56.59107110017436]
入力音声特徴量における時間的冗長性を排除することは,効率的な音声分類に有効な方法である可能性が示唆された。
本稿では、単純な非パラメトリックプーリング操作を用いて冗長な情報を削減する単純なプールフロントエンド(SimPFs)のファミリーを提案する。
SimPFは、市販オーディオニューラルネットワークの浮動小数点演算数の半数以上を削減できる。
論文 参考訳(メタデータ) (2022-10-03T14:00:41Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - High Quality Streaming Speech Synthesis with Low,
Sentence-Length-Independent Latency [3.119625275101153]
システムは自己回帰型アテンションに基づくシーケンス・ツー・シーケンス音響モデルと波形生成のためのLPCNetボコーダから構成される。
完全なエンドツーエンドシステムは、ほぼ自然な品質の音声を生成することができ、聴取テストによって検証される。
論文 参考訳(メタデータ) (2021-11-17T11:46:43Z) - FastFlowNet: A Lightweight Network for Fast Optical Flow Estimation [81.76975488010213]
ディセンス光学フロー推定は、多くのロボットビジョンタスクで重要な役割を果たしています。
現在のネットワークはしばしば多くのパラメータを占有し、計算コストがかかる。
提案したFastFlowNetは、周知の粗大なやり方で、以下のイノベーションで機能する。
論文 参考訳(メタデータ) (2021-03-08T03:09:37Z) - Bunched LPCNet : Vocoder for Low-cost Neural Text-To-Speech Systems [18.480490920718367]
LPCNetは、線形予測とディープニューラルネットワークモジュールを組み合わせて計算複雑性を低くする効率的なボコーダである。
低コストなLPCNetボコーダベースニューラルテキスト音声合成システム(TTS)を目指して,その複雑さをさらに軽減する2つの手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T08:15:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。