論文の概要: Speech Synthesis as Augmentation for Low-Resource ASR
- arxiv url: http://arxiv.org/abs/2012.13004v1
- Date: Wed, 23 Dec 2020 22:19:42 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-25 19:32:12.639545
- Title: Speech Synthesis as Augmentation for Low-Resource ASR
- Title(参考訳): 低リソースasrのための音声合成
- Authors: Deblin Bagchi, Shannon Wotherspoon, Zhuolin Jiang and Prasanna
Muthukumar
- Abstract要約: 音声合成は低リソース音声認識の鍵となるかもしれない。
データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。
音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。
- 参考スコア(独自算出の注目度): 7.2244067948447075
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Speech synthesis might hold the key to low-resource speech recognition. Data
augmentation techniques have become an essential part of modern speech
recognition training. Yet, they are simple, naive, and rarely reflect
real-world conditions. Meanwhile, speech synthesis techniques have been rapidly
getting closer to the goal of achieving human-like speech. In this paper, we
investigate the possibility of using synthesized speech as a form of data
augmentation to lower the resources necessary to build a speech recognizer. We
experiment with three different kinds of synthesizers: statistical parametric,
neural, and adversarial. Our findings are interesting and point to new research
directions for the future.
- Abstract(参考訳): 音声合成は低リソース音声認識の鍵を握るかもしれない。
データ拡張技術は、現代の音声認識トレーニングの重要な部分となっている。
しかし、それらはシンプルで、素直で、現実世界の状態を反映することはめったにない。
一方、音声合成技術は、人間のような音声を達成するという目標に急速に近づきつつある。
本稿では,合成音声をデータ拡張の一形態として利用し,音声認識のためのリソースを削減できる可能性を検討する。
我々は,統計的パラメトリック,ニューラル,逆相の3種類のシンセサイザーを実験した。
我々の発見は興味深いものであり、将来の新たな研究の方向性を示している。
関連論文リスト
- Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech [34.8899247119748]
合成音声におけるASRモデルの訓練と実音声における性能評価を含む評価手法を提案する。
提案手法は,SpeechLMScore や MOSNet と比較して,MOS の自然性と MOS の知性の両方に強い相関関係を示す。
論文 参考訳(メタデータ) (2023-10-01T15:52:48Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - NaturalSpeech 2: Latent Diffusion Models are Natural and Zero-Shot
Speech and Singing Synthesizers [90.83782600932567]
残差ベクトル化器を備えたニューラルオーディオ予測器を応用して量子化潜在ベクトルを得るTSシステムであるNaturalSpeech 2を開発した。
本研究では,NaturalSpeech 2を44K時間の音声・歌唱データを持つ大規模データセットに拡張し,未知話者の音声品質を評価する。
NaturalSpeech 2は、0ショット設定で、韻律/音節の類似性、合成、音声品質の点で、従来のTSシステムよりはるかに優れている。
論文 参考訳(メタデータ) (2023-04-18T16:31:59Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - Building African Voices [125.92214914982753]
本稿では,低リソースのアフリカ言語を対象とした音声合成について述べる。
我々は,最小限の技術資源で音声合成システムを構築するための汎用的な指示セットを作成する。
研究者や開発者を支援するために、12のアフリカ言語のための音声データ、コード、訓練された音声をリリースします。
論文 参考訳(メタデータ) (2022-07-01T23:28:16Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Using Deep Learning Techniques and Inferential Speech Statistics for AI
Synthesised Speech Recognition [0.0]
本研究では、実際の人間の音声から合成音声を識別するのに役立つモデルを提案し、その生成源を同定する。
このモデルは、AI合成音声を実際の人間の音声から1.9%の誤差率で分類し、基礎となるアーキテクチャを97%の精度で検出することで、最先端のアプローチよりも優れている。
論文 参考訳(メタデータ) (2021-07-23T18:43:10Z) - Speech Resynthesis from Discrete Disentangled Self-Supervised
Representations [49.48053138928408]
音声合成作業に自己教師付き離散表現を用いることを提案する。
音声コンテンツ、韻律情報、話者識別のための低ビット表現を抽出する。
得られた表現を使用することで、ベースラインメソッドよりも優れた音声品質を提供しながら、毎秒365ビットのレートが得られる。
論文 参考訳(メタデータ) (2021-04-01T09:20:33Z) - Generating coherent spontaneous speech and gesture from text [21.90157862281996]
人体コミュニケーションは、言語情報(音声)と非言語情報(ジェスチャーや頭の動きなど)の両方を含む
機械学習の最近の進歩は、これらのデータの両方の合成バージョンを生成する技術を大幅に改善した。
私たちはこの2つの最先端技術を初めてコヒーレントな方法で組み合わせました。
論文 参考訳(メタデータ) (2021-01-14T16:02:21Z) - Detection of AI-Synthesized Speech Using Cepstral & Bispectral
Statistics [0.0]
本稿では,AI合成音声と人間の音声を区別する手法を提案する。
高次統計は、合成音声と比較して人間の音声の相関が低い。
また, ケプストラム分析により, 合成音声に欠落する人間の音声の耐久性成分が明らかになった。
論文 参考訳(メタデータ) (2020-09-03T21:29:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。