論文の概要: Correcting Misproducted Speech using Spectrogram Inpainting
- arxiv url: http://arxiv.org/abs/2204.03379v1
- Date: Thu, 7 Apr 2022 11:58:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 22:46:30.432656
- Title: Correcting Misproducted Speech using Spectrogram Inpainting
- Title(参考訳): スペクトログラムインパインティングによる誤用音声の補正
- Authors: Talia Ben-Simon, Felix Kreuk, Faten Awwad, Jacob T. Cohen, Joseph
Keshet
- Abstract要約: 本稿では, 誤り発生時の正しい発音フィードバックを合成的に生成する手法を提案する。
システムは、ユーザにフレーズを発音するよう促す。音声は記録され、不正確な音素に関連するサンプルはゼロでマスクされる。
その結果,人間の聞き手は,不正確な音素を異なる話者に置き換えるよりも,生成した音声をわずかに好んでいることが示唆された。
- 参考スコア(独自算出の注目度): 15.565673574838934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Learning a new language involves constantly comparing speech productions with
reference productions from the environment. Early in speech acquisition,
children make articulatory adjustments to match their caregivers' speech.
Grownup learners of a language tweak their speech to match the tutor reference.
This paper proposes a method to synthetically generate correct pronunciation
feedback given incorrect production. Furthermore, our aim is to generate the
corrected production while maintaining the speaker's original voice.
The system prompts the user to pronounce a phrase. The speech is recorded,
and the samples associated with the inaccurate phoneme are masked with zeros.
This waveform serves as an input to a speech generator, implemented as a deep
learning inpainting system with a U-net architecture, and trained to output a
reconstructed speech. The training set is composed of unimpaired proper speech
examples, and the generator is trained to reconstruct the original proper
speech. We evaluated the performance of our system on phoneme replacement of
minimal pair words of English as well as on children with pronunciation
disorders. Results suggest that human listeners slightly prefer our generated
speech over a smoothed replacement of the inaccurate phoneme with a production
of a different speaker.
- Abstract(参考訳): 新しい言語を学ぶには、環境からの参照生成と音声生成を常に比較する必要がある。
言語習得の初期段階において、子どもたちは介護者のスピーチに合わせて調音調整を行う。
成長する言語の学習者は、教師参照に合わせるためにスピーチを微調整します。
本稿では,不正確な発音フィードバックを合成的に生成する手法を提案する。
さらに,本研究の目的は,話者のオリジナル音声を維持しながら,補正された音声を生成することである。
このシステムは、ユーザーにフレーズを発音するよう促す。
音声が記録され、不正確な音素に関連するサンプルがゼロでマスクされる。
この波形は、音声生成装置への入力として機能し、U-netアーキテクチャによるディープラーニング塗装システムとして実装され、再構成された音声を出力するように訓練される。
訓練セットは、不正な固有音声例で構成され、生成器は、元の固有音声を再構築するように訓練される。
発音障害児と同様に英語の最小対の単語を音素置換するシステムの性能を評価した。
その結果,人間の聞き手は,不正確な音素を異なる話者に置き換えるよりも,生成した音声をわずかに好んでいることが示唆された。
関連論文リスト
- Jointly Optimizing Translations and Speech Timing to Improve Isochrony
in Automatic Dubbing [71.02335065794384]
生成した翻訳の翻訳時間と発話時間を直接最適化するモデルを提案する。
本システムでは,システムアーキテクチャを簡素化しつつ,前処理よりも発話のタイミングによく適合する音声を生成する。
論文 参考訳(メタデータ) (2023-02-25T04:23:25Z) - A unified one-shot prosody and speaker conversion system with
self-supervised discrete speech units [94.64927912924087]
既存のシステムは韻律と言語内容の相関を無視し、変換された音声の自然度を低下させる。
自己教師付き離散音声単位を言語表現として活用するカスケードモジュラーシステムを提案する。
実験により,本システムは,自然性,知性,話者伝達性,韻律伝達性において,従来の手法よりも優れていたことがわかった。
論文 参考訳(メタデータ) (2022-11-12T00:54:09Z) - Face-Dubbing++: Lip-Synchronous, Voice Preserving Translation of Videos [54.08224321456871]
このシステムは、複数のコンポーネントモデルを組み合わせて、ターゲット言語で話す元の話者のビデオを生成するように設計されている。
パイプラインは強調検出を含む自動音声認識から始まり、その後に翻訳モデルが続く。
得られた合成音声は、音声変換モデルを用いて元の話者の声にマッピングされる。
論文 参考訳(メタデータ) (2022-06-09T14:15:37Z) - CorrectSpeech: A Fully Automated System for Speech Correction and Accent
Reduction [37.52612296258531]
提案方式はCorrectSpeechと呼ばれ、3段階の修正を行う。
補正音声の品質と自然性は、音声認識とアライメントモジュールの性能に依存する。
その結果,音声の発音誤りを訂正し,アクセントを低減できることがわかった。
論文 参考訳(メタデータ) (2022-04-12T01:20:29Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - DeepFry: Identifying Vocal Fry Using Deep Neural Networks [16.489251286870704]
声質フライ(Vocal fry)は、不規則な声門の開口と低ピッチを特徴とする声質を指す。
不規則な周期性のため、難解な音声は自動音声認識システムに挑戦する。
本稿では,流速音声における難解な音声を検出するためのディープラーニングモデルを提案する。
論文 参考訳(メタデータ) (2022-03-31T13:23:24Z) - CampNet: Context-Aware Mask Prediction for End-to-End Text-Based Speech
Editing [67.96138567288197]
本稿では,コンテキスト認識型マスク予測ネットワーク(CampNet)と呼ばれる,エンドツーエンドのテキストベースの音声編集手法を提案する。
モデルは、音声の一部をランダムにマスキングしてテキストベースの音声編集プロセスをシミュレートし、音声コンテキストを感知してマスキング領域を予測する。
編集された領域における不自然な韻律を解き、テキスト中の不明瞭な単語に対応する音声を合成することができる。
論文 参考訳(メタデータ) (2022-02-21T02:05:14Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Translatotron 2: Robust direct speech-to-speech translation [6.3470332633611015]
本稿では、エンドツーエンドにトレーニング可能なニューラルダイレクト音声音声合成モデルであるTranslatotron 2を提案する。
トランスラトトロン2は、翻訳品質と予測された音声の自然さにおいて、オリジナルのトランスラトトロンよりも大きなマージンで優れている。
本稿では,翻訳音声における音源話者の声の保持方法を提案する。
論文 参考訳(メタデータ) (2021-07-19T07:43:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。