論文の概要: Analysis and Synthesis of Hypo and Hyperarticulated Speech
- arxiv url: http://arxiv.org/abs/2006.04136v1
- Date: Sun, 7 Jun 2020 12:21:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 08:21:56.105287
- Title: Analysis and Synthesis of Hypo and Hyperarticulated Speech
- Title(参考訳): 低調音・高調音音声の分析と合成
- Authors: Benjamin Picart, Thomas Drugman, Thierry Dutoit
- Abstract要約: 本稿では,HMMに基づく音声合成の枠組みにおいて,仮説および高調波音声の分析と合成に焦点をあてる。
我々のニーズに合致する新しいフランス語データベースが作成され、中性、偽、高調音音声の3つの異なる音階で発音される3つの同一セットが含まれた。
調音度は声道特性と声門特性の両方に有意な影響を与え,また発話速度,音声持続時間,電話の変動,声門停止の有無に有意な影響を及ぼすことが示された。
- 参考スコア(独自算出の注目度): 11.481208551940998
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper focuses on the analysis and synthesis of hypo and hyperarticulated
speech in the framework of HMM-based speech synthesis. First of all, a new
French database matching our needs was created, which contains three identical
sets, pronounced with three different degrees of articulation: neutral, hypo
and hyperarticulated speech. On that basis, acoustic and phonetic analyses were
performed. It is shown that the degrees of articulation significantly
influence, on one hand, both vocal tract and glottal characteristics, and on
the other hand, speech rate, phone durations, phone variations and the presence
of glottal stops. Finally, neutral, hypo and hyperarticulated speech are
synthesized using HMM-based speech synthesis and both objective and subjective
tests aiming at assessing the generated speech quality are performed. These
tests show that synthesized hypoarticulated speech seems to be less naturally
rendered than neutral and hyperarticulated speech.
- Abstract(参考訳): 本稿では,HMMに基づく音声合成の枠組みにおいて,仮説および高調波音声の分析と合成に焦点をあてる。
まず、私たちのニーズに合致した新しいフランスのデータベースが作成され、同じセットが3つあり、3つの異なる明瞭度(中性、低調、ハイパーラル)で発音されます。
その上で,音響解析と音声解析を行った。
調音度は声道特性と声門特性の両方に有意な影響を与え,一方,発話速度,電話継続時間,電話の変動,声門停止の有無に有意な影響を与えていることが示された。
最後に、HMMに基づく音声合成を用いて、中性音声、偽音声、高調波音声を合成し、生成した音声品質の評価を目的とした主観的および主観的テストを行う。
これらの結果から, 合成された低調波音声は中性および高調波音声よりも自然に表現されないことが明らかとなった。
関連論文リスト
- Speech Rhythm-Based Speaker Embeddings Extraction from Phonemes and
Phoneme Duration for Multi-Speaker Speech Synthesis [16.497022070614236]
本稿では,ターゲット話者による発話数を用いて,音素長をモデル化するための音声リズムに基づく話者埋め込み手法を提案する。
提案手法の新たな特徴は、音素とその持続時間から抽出されたリズムに基づく埋め込みであり、発声リズムに関連することが知られている。
論文 参考訳(メタデータ) (2024-02-11T02:26:43Z) - Evaluating Speech Synthesis by Training Recognizers on Synthetic Speech [34.8899247119748]
合成音声におけるASRモデルの訓練と実音声における性能評価を含む評価手法を提案する。
提案手法は,SpeechLMScore や MOSNet と比較して,MOS の自然性と MOS の知性の両方に強い相関関係を示す。
論文 参考訳(メタデータ) (2023-10-01T15:52:48Z) - EXPRESSO: A Benchmark and Analysis of Discrete Expressive Speech
Resynthesis [49.04496602282718]
テキストなし音声合成のための高品質な表現型音声データセットであるExpressoを紹介する。
このデータセットは、26の自発的表現スタイルで描画された読み上げ音声と即興対話の両方を含む。
自己監督型離散エンコーダの自動計測値を用いて再生品質を評価する。
論文 参考訳(メタデータ) (2023-08-10T17:41:19Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - Time out of Mind: Generating Rate of Speech conditioned on emotion and
speaker [0.0]
感情によって条件付けされたGANをトレーニングし、与えられた入力テキストに価値ある長さを生成する。
これらの単語長は相対的中性音声であり、テキスト音声システムに提供され、より表現力のある音声を生成する。
我々は,中性音声に対する客観的尺度の精度向上と,アウト・オブ・ボックスモデルと比較した場合の幸福音声に対する時間アライメントの改善を実現した。
論文 参考訳(メタデータ) (2023-01-29T02:58:01Z) - Simple and Effective Unsupervised Speech Synthesis [97.56065543192699]
簡単なレシピに基づく教師なし音声合成システムを提案する。
本手法では, 音声音声とレキシコンのみを用いることで, 人手によるコーパスを必要とせず, 音声合成が可能となる。
論文 参考訳(メタデータ) (2022-04-06T00:19:13Z) - Manipulation of oral cancer speech using neural articulatory synthesis [12.537892439672115]
調音合成システムは、調音軌跡を操作でき、合成された音声が、基底真実の口腔癌音声に存在する問題を再現することができる。
客観的かつ主観的な評価は、このフレームワークが自然性を受け入れており、さらなる調査に値することを示している。
論文 参考訳(メタデータ) (2022-03-31T14:40:51Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Towards Modelling Coherence in Spoken Discourse [48.80477600384429]
話し言葉におけるコヒーレンスは、音声の韻律的および音響的パターンに依存している。
音声に基づくコヒーレンスモデルを用いて音声対話におけるコヒーレンスをモデル化する。
論文 参考訳(メタデータ) (2020-12-31T20:18:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。