論文の概要: Compact Neural TTS Voices for Accessibility
- arxiv url: http://arxiv.org/abs/2501.17332v1
- Date: Tue, 28 Jan 2025 22:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-30 15:52:55.004120
- Title: Compact Neural TTS Voices for Accessibility
- Title(参考訳): アクセシビリティのための小型ニューラルTS音声
- Authors: Kunal Jain, Eoin Murphy, Deepanshu Gupta, Jonathan Dyke, Saumya Shah, Vasilieios Tsiaras, Petko Petkov, Alistair Conkie,
- Abstract要約: クラウドベースのニューラルTSシステムは、オーディオ品質と自然性を大幅に向上するが、レイテンシと応答性に関しては後退する。
最近では、ハンドヘルドデバイス上で動作可能なニューラルTSモデルをデプロイできるようになった。
本稿では,ディスクフットプリントの少ない15ミリ秒のレイテンシを実現するための,高品質なコンパクトニューラルネットワークTSシステムについて述べる。
- 参考スコア(独自算出の注目度): 1.5558822250482192
- License:
- Abstract: Contemporary text-to-speech solutions for accessibility applications can typically be classified into two categories: (i) device-based statistical parametric speech synthesis (SPSS) or unit selection (USEL) and (ii) cloud-based neural TTS. SPSS and USEL offer low latency and low disk footprint at the expense of naturalness and audio quality. Cloud-based neural TTS systems provide significantly better audio quality and naturalness but regress in terms of latency and responsiveness, rendering these impractical for real-world applications. More recently, neural TTS models were made deployable to run on handheld devices. Nevertheless, latency remains higher than SPSS and USEL, while disk footprint prohibits pre-installation for multiple voices at once. In this work, we describe a high-quality compact neural TTS system achieving latency on the order of 15 ms with low disk footprint. The proposed solution is capable of running on low-power devices.
- Abstract(参考訳): アクセシビリティアプリケーションのための現代テキスト音声ソリューションは通常、以下の2つのカテゴリに分類される。
一 デバイスベース統計パラメトリック音声合成(SPSS)又は単位選択(USEL)及び
(II)クラウドベースのニューラルTS。
SPSSとUSELは、自然性とオーディオ品質を犠牲にして、低レイテンシと低ディスクフットプリントを提供する。
クラウドベースのニューラルTSシステムは、オーディオ品質と自然性を大幅に向上するが、レイテンシと応答性の観点からは後退し、現実のアプリケーションではこれらの非現実的になる。
最近では、ハンドヘルドデバイス上で動作可能なニューラルTSモデルをデプロイできるようになった。
それでも、レイテンシはSPSSやUSELよりも高く、ディスクフットプリントは一度に複数の音声をプリインストールすることを禁止している。
本稿では,ディスクフットプリントの少ない15ミリ秒のレイテンシを実現するための,高品質なコンパクトニューラルネットワークTSシステムについて述べる。
提案したソリューションは低消費電力デバイス上で動作可能である。
関連論文リスト
- SONAR: A Synthetic AI-Audio Detection Framework and Benchmark [59.09338266364506]
SONARはAI-Audio Detection FrameworkとBenchmarkの合成である。
最先端のAI合成聴覚コンテンツを識別するための総合的な評価を提供することを目的としている。
従来のモデルとファンデーションベースのディープフェイク検出システムの両方で、AIオーディオ検出を均一にベンチマークする最初のフレームワークである。
論文 参考訳(メタデータ) (2024-10-06T01:03:42Z) - EM-TTS: Efficiently Trained Low-Resource Mongolian Lightweight Text-to-Speech [4.91849983180793]
本稿では,深層畳み込みニューラルネットワークに基づくテキスト音声合成システムを提案する。
私たちのモデルは、Text2SpectrumとSSRNの2つのステージで構成されています。
実験の結果,合成音声の品質と自然性を確保しつつ,学習時間とパラメータを低減できることがわかった。
論文 参考訳(メタデータ) (2024-03-13T01:27:57Z) - sVAD: A Robust, Low-Power, and Light-Weight Voice Activity Detection
with Spiking Neural Networks [51.516451451719654]
スパイキングニューラルネットワーク(SNN)は生物学的に妥当で、電力効率が高いことが知られている。
本稿では sVAD と呼ばれる新しい SNN ベースの音声活動検出モデルを提案する。
SincNetと1D畳み込みによる効果的な聴覚特徴表現を提供し、アテンション機構による雑音の堅牢性を向上させる。
論文 参考訳(メタデータ) (2024-03-09T02:55:44Z) - Fluid Batching: Exit-Aware Preemptive Serving of Early-Exit Neural
Networks on Edge NPUs [74.83613252825754]
スマートエコシステム(smart ecosystems)"は、スタンドアロンではなく、センセーションが同時に行われるように形成されています。
これはデバイス上の推論パラダイムを、エッジにニューラル処理ユニット(NPU)をデプロイする方向にシフトしている。
そこで本研究では,実行時のプリエンプションが到着・終了プロセスによってもたらされる動的性を考慮に入れた,新しい早期終了スケジューリングを提案する。
論文 参考訳(メタデータ) (2022-09-27T15:04:01Z) - Bunched LPCNet2: Efficient Neural Vocoders Covering Devices from Cloud
to Edge [3.612475016403612]
Bunched LPCNet2は、クラウドサーバーの高品質と低リソースエッジデバイスにおける低複雑さで効率的なパフォーマンスを提供する。
実験により,LPCNet2はモデルフットプリントが1.1MBで,RPi 3Bでリアルタイムよりも高速に動作し,良好な音声品質が得られることが示された。
論文 参考訳(メタデータ) (2022-03-27T23:56:52Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - High Quality Streaming Speech Synthesis with Low,
Sentence-Length-Independent Latency [3.119625275101153]
システムは自己回帰型アテンションに基づくシーケンス・ツー・シーケンス音響モデルと波形生成のためのLPCNetボコーダから構成される。
完全なエンドツーエンドシステムは、ほぼ自然な品質の音声を生成することができ、聴取テストによって検証される。
論文 参考訳(メタデータ) (2021-11-17T11:46:43Z) - A Survey on Neural Speech Synthesis [110.39292386792555]
テキスト・トゥ・スピーチ(TTS)は、音声、言語、機械学習のコミュニティにおけるホットな研究テーマである。
我々は、現在の研究と今後のトレンドをよく理解することを目的として、ニューラルTSに関する包括的な調査を行っている。
我々は、テキスト分析、音響モデル、ボコーダなど、ニューラルネットワークの重要なコンポーネントと、高速TS、低リソースTS、堅牢TS、表現型TS、適応型TSなど、いくつかの先進的なトピックに焦点を当てる。
論文 参考訳(メタデータ) (2021-06-29T16:50:51Z) - LightSpeech: Lightweight and Fast Text to Speech with Neural
Architecture Search [127.56834100382878]
我々は、FastSpeechに基づくより軽量で効率的なTSモデルを自動的に設計するLightSpeechを提案する。
実験の結果,提案手法により検出されたモデルは,CPU上での15倍のモデル圧縮比と6.5倍の推論高速化を実現していることがわかった。
論文 参考訳(メタデータ) (2021-02-08T07:45:06Z) - Enhancing Speech Intelligibility in Text-To-Speech Synthesis using
Speaking Style Conversion [17.520533341887642]
本稿では,Tacotron と WaveRNN を用いた TTS 合成を用いた新しいトランスファー学習手法を提案する。
提案した音声システムは, (a)ロンバルド話し方データと (b)スペクトル整形とダイナミックレンジ圧縮 (SSDRC) の2つの修正手法を利用する。
Bits測定におけるIntelligibilityによる定量化による信頼性向上は,提案したLombard-SSDRC TTSシステムにおいて,音声形雑音(SSN)の110%から130%,競合話者雑音(CSN)の47%から140%に有意な改善が認められたことを示している。
論文 参考訳(メタデータ) (2020-08-13T10:51:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。