論文の概要: GANtron: Emotional Speech Synthesis with Generative Adversarial Networks
- arxiv url: http://arxiv.org/abs/2110.03390v1
- Date: Wed, 6 Oct 2021 10:44:30 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-08 15:28:47.142060
- Title: GANtron: Emotional Speech Synthesis with Generative Adversarial Networks
- Title(参考訳): GANtron: 生成的対立ネットワークを用いた感情音声合成
- Authors: Enrique Hortal and Rodrigo Brechard Alarcia
- Abstract要約: 提案するテキスト音声合成モデルでは,推定音声を所望の感情で調整することができる。
我々は,GAN(Generative Adversarial Networks)とアテンション機構を用いたシーケンス・ツー・シーケンス・モデルを用いた。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Speech synthesis is used in a wide variety of industries. Nonetheless, it
always sounds flat or robotic. The state of the art methods that allow for
prosody control are very cumbersome to use and do not allow easy tuning. To
tackle some of these drawbacks, in this work we target the implementation of a
text-to-speech model where the inferred speech can be tuned with the desired
emotions. To do so, we use Generative Adversarial Networks (GANs) together with
a sequence-to-sequence model using an attention mechanism. We evaluate four
different configurations considering different inputs and training strategies,
study them and prove how our best model can generate speech files that lie in
the same distribution as the initial training dataset. Additionally, a new
strategy to boost the training convergence by applying a guided attention loss
is proposed.
- Abstract(参考訳): 音声合成は様々な産業で使われている。
それでも、常にフラットかロボットのように聞こえる。
韻律制御を可能にする技術メソッドの状態は使いづらいし、簡単にチューニングできない。
これらの欠点に対処すべく,本研究では,推定された音声を所望の感情に合わせてチューニング可能なテキスト対音声モデルの実装を目標としている。
そのため,注意機構を用いたシーケンス・ツー・シーケンスモデルとともに,gans(generative adversarial network)を用いる。
異なる入力とトレーニング戦略を考慮した4つの異なる構成を評価し、それらを研究し、私たちの最良のモデルが初期訓練データセットと同じ分布にある音声ファイルを生成する方法を証明する。
また, 注意損失を誘導することにより, トレーニング収束を高めるための新たな戦略を提案する。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - Re-ENACT: Reinforcement Learning for Emotional Speech Generation using Actor-Critic Strategy [8.527959937101826]
我々は、ベルヌーイ確率変数の集合の変動後部を生成するためにニューラルネットワークを訓練する。
対象感情のスコアを高めるために,マスク付きセグメントの韻律的特徴を変化させる。
実験により、この枠組みは、特定の発話のターゲットに対する知覚的感情を変化させることを示した。
論文 参考訳(メタデータ) (2024-08-04T00:47:29Z) - Controlling Whisper: Universal Acoustic Adversarial Attacks to Control Speech Foundation Models [3.1511847280063696]
音声可能な基礎モデルは、適切なプロンプトを用いて自動音声認識以外のタスクを実行することができる。
音声プロンプト付き大規模言語モデルの開発により、さらに大きな制御オプションが生まれる可能性がある。
この柔軟性により、システムはモデル制御の敵攻撃の影響を受けやすいことが実証された。
論文 参考訳(メタデータ) (2024-07-05T13:04:31Z) - Exploring Speech Recognition, Translation, and Understanding with
Discrete Speech Units: A Comparative Study [68.88536866933038]
音声信号は、通常、毎秒数万のレートでサンプリングされ、冗長性を含んでいる。
近年の研究では、自己教師型学習表現から派生した離散音声単位の使用が提案されている。
復号化やサブワードモデリングなどの様々な手法を適用することで、さらに音声列の長さを圧縮することができる。
論文 参考訳(メタデータ) (2023-09-27T17:21:13Z) - Disentanglement in a GAN for Unconditional Speech Synthesis [28.998590651956153]
本研究では,無条件音声合成のための生成的敵対ネットワークであるAudioStyleGANを提案する。
ASGANはサンプリングしたノイズを非絡み合った潜伏ベクトルにマッピングし、次に一連のオーディオ特徴にマッピングすることで、各層で信号エイリアスを抑制する。
小語彙のGoogle Speech Commands digitsデータセットに適用し、非条件音声合成の最先端結果を達成する。
論文 参考訳(メタデータ) (2023-07-04T12:06:07Z) - Co-Speech Gesture Synthesis using Discrete Gesture Token Learning [1.1694169299062596]
リアルな音声のジェスチャーを合成することは、信じられない動きを作り出す上で重要な問題であるが未解決の問題である。
共同音声ジェスチャーモデルを学ぶ上での課題の1つは、同一発話に対して複数の実行可能なジェスチャー動作が存在することである。
我々は、ジェスチャーセグメントを離散潜在符号としてモデル化することで、ジェスチャー合成におけるこの不確実性に対処する2段階モデルを提案した。
論文 参考訳(メタデータ) (2023-03-04T01:42:09Z) - A Vector Quantized Approach for Text to Speech Synthesis on Real-World
Spontaneous Speech [94.64927912924087]
我々は、YouTubeやポッドキャストから現実の音声を使ってTSシステムを訓練する。
最近のText-to-Speechアーキテクチャは、複数のコード生成とモノトニックアライメントのために設計されている。
近年のテキスト・トゥ・スペーチ・アーキテクチャは,いくつかの客観的・主観的尺度において,既存のTSシステムより優れていることを示す。
論文 参考訳(メタデータ) (2023-02-08T17:34:32Z) - An Exploration of Prompt Tuning on Generative Spoken Language Model for
Speech Processing Tasks [112.1942546460814]
生成音声言語モデル(GSLM)に基づく音声処理タスクの即時チューニングパラダイムの最初の検討について報告する。
実験結果から, 学習可能なパラメータが少ない音声分類タスクにおいて, 高精度なダウンストリームモデルよりも, 即時チューニング手法が競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-03-31T03:26:55Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - End-to-End Video-To-Speech Synthesis using Generative Adversarial
Networks [54.43697805589634]
GAN(Generative Adversarial Networks)に基づくエンドツーエンドビデオ音声合成モデルを提案する。
本モデルは,生映像を入力として受信し,音声を生成するエンコーダ・デコーダアーキテクチャで構成されている。
このモデルは,グリッドなどの制約付きデータセットに対して,顕著なリアリズムで音声を再構成できることを示す。
論文 参考訳(メタデータ) (2021-04-27T17:12:30Z) - Incremental Text to Speech for Neural Sequence-to-Sequence Models using
Reinforcement Learning [60.20205278845412]
テキストから音声への現代的なアプローチでは、音声が合成される前に入力文字列全体を処理する必要がある。
このレイテンシは、同時解釈のような時間に敏感なタスクに対するそのようなモデルの適合性を制限します。
エージェントを訓練して意思決定を行うための強化学習に基づくフレームワークを提案する。
論文 参考訳(メタデータ) (2020-08-07T11:48:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。