論文の概要: LaughNet: synthesizing laughter utterances from waveform silhouettes and
a single laughter example
- arxiv url: http://arxiv.org/abs/2110.04946v1
- Date: Mon, 11 Oct 2021 00:45:07 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 20:53:36.250059
- Title: LaughNet: synthesizing laughter utterances from waveform silhouettes and
a single laughter example
- Title(参考訳): laughnet: 波形シルエットと単一笑いの例による笑い発話の合成
- Authors: Hieu-Thi Luong, Junichi Yamagishi
- Abstract要約: 我々は、波形シルエットを入力として、笑いを合成するLaughNetと呼ばれるモデルを提案する。
その結果,LaughNetは笑い声を適度な品質で合成し,トレーニング例の特徴を保てることがわかった。
- 参考スコア(独自算出の注目度): 55.10864476206503
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Emotional and controllable speech synthesis is a topic that has received much
attention. However, most studies focused on improving the expressiveness and
controllability in the context of linguistic content, even though natural
verbal human communication is inseparable from spontaneous non-speech
expressions such as laughter, crying, or grunting. We propose a model called
LaughNet for synthesizing laughter by using waveform silhouettes as inputs. The
motivation is not simply synthesizing new laughter utterances but testing a
novel synthesis-control paradigm that uses an abstract representation of the
waveform. We conducted basic listening test experiments, and the results showed
that LaughNet can synthesize laughter utterances with moderate quality and
retain the characteristics of the training example. More importantly, the
generated waveforms have shapes similar to the input silhouettes. For future
work, we will test the same method on other types of human nonverbal
expressions and integrate it into more elaborated synthesis systems.
- Abstract(参考訳): 感情と制御可能な音声合成は、多くの注目を集めているトピックである。
しかし, 言語内容の文脈における表現性や制御性の向上に焦点を絞った研究は, 笑い, 泣く, 嘆くなどの自発的な非音声表現とは分離できない。
波形シルエットを入力として,笑いを合成するモデルとして laughnet を提案する。
その動機は、単に新しい笑い声を合成するだけでなく、波形の抽象表現を用いた新しい合成制御パラダイムをテストすることである。
基礎的な聴取実験を行い, 実験結果から, 笑い声を適度な品質で合成し, 訓練例の特徴を維持できることが判明した。
さらに重要なことに、生成された波形は入力シルエットに類似した形状を持つ。
今後の研究のために、他の種類の非言語表現に対して同じ方法をテストし、より精巧な合成システムに統合する。
関連論文リスト
- Making Flow-Matching-Based Zero-Shot Text-to-Speech Laugh as You Like [49.2096391012794]
ELaTEはゼロショットのTSであり、短い音声プロンプトに基づいて、あらゆる話者の自然な笑い声を生成することができる。
本研究では,条件付きフローマッチングに基づくゼロショットTSに基づくモデルを開発した。
ELaTE は従来のモデルに比べて格段に高い品質と制御性で笑い音声を生成することができることを示す。
論文 参考訳(メタデータ) (2024-02-12T02:58:10Z) - Visual-Aware Text-to-Speech [101.89332968344102]
テキスト入力と対面コミュニケーションにおけるリスナーの視覚的フィードバックの両方で条件付き音声を合成する新しい視覚認識型音声合成(VA-TTS)タスクを提案する。
音声合成のための音素言語情報とリスナー視覚信号を融合するベースラインモデルを提案する。
論文 参考訳(メタデータ) (2023-06-21T05:11:39Z) - Diff-TTSG: Denoising probabilistic integrated speech and gesture
synthesis [19.35266496960533]
本稿では,Diff-TTSGと呼ばれる拡散型確率モデルについて述べる。
本稿では,統合音声とジェスチャー合成システムを評価するための,一様・多様主観的一様・多様主観的テストのセットについて述べる。
論文 参考訳(メタデータ) (2023-06-15T18:02:49Z) - How Generative Spoken Language Modeling Encodes Noisy Speech:
Investigation from Phonetics to Syntactics [33.070158866023]
生成音声言語モデリング(GSLM)は、音声分析と合成のための音素ではなく、データから派生した学習シンボルを使用する。
本稿では,GSLMの音声・音声レベルにおける符号化と復号化の有効性について述べる。
論文 参考訳(メタデータ) (2023-06-01T14:07:19Z) - Speech Synthesis with Mixed Emotions [77.05097999561298]
異なる感情の音声サンプル間の相対的な差を測定する新しい定式化を提案する。
次に、私たちの定式化を、シーケンスからシーケンスまでの感情的なテキストから音声へのフレームワークに組み込む。
実行時に、感情属性ベクトルを手動で定義し、所望の感情混合を生成するためにモデルを制御する。
論文 参考訳(メタデータ) (2022-08-11T15:45:58Z) - Textless Speech Emotion Conversion using Decomposed and Discrete
Representations [49.55101900501656]
我々は、音声を、コンテンツ単位、F0、話者、感情からなる離散的、非絡み合いの学習表現に分解する。
まず、内容単位を対象の感情に翻訳し、その単位に基づいて韻律的特徴を予測することによって、音声内容を変更する。
最後に、予測された表現をニューラルボコーダに入力して音声波形を生成する。
論文 参考訳(メタデータ) (2021-11-14T18:16:42Z) - EMOVIE: A Mandarin Emotion Speech Dataset with a Simple Emotional
Text-to-Speech Model [56.75775793011719]
音声ファイルを含む9,724のサンプルとその感情ラベル付きアノテーションを含むマンダリン感情音声データセットを導入,公開する。
入力として追加の参照音声を必要とするこれらのモデルとは異なり、我々のモデルは入力テキストから直接感情ラベルを予測し、感情埋め込みに基づいてより表現力のある音声を生成することができる。
実験段階では、まず感情分類タスクによってデータセットの有効性を検証し、次に提案したデータセットに基づいてモデルをトレーニングし、一連の主観評価を行う。
論文 参考訳(メタデータ) (2021-06-17T08:34:21Z) - Laughter Synthesis: Combining Seq2seq modeling with Transfer Learning [6.514358246805895]
本稿では,シーケンス・ツー・シーケンスTTS合成システムに基づく音声笑い合成システムを提案する。
我々は、深層学習モデルを訓練することで、翻訳学習を活用して、アノテーションから音声と笑いの両方を生成することを学習する。
論文 参考訳(メタデータ) (2020-08-20T09:37:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。