論文の概要: Fine-grained style control in Transformer-based Text-to-speech Synthesis
- arxiv url: http://arxiv.org/abs/2110.06306v1
- Date: Tue, 12 Oct 2021 19:50:02 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-14 14:04:48.211624
- Title: Fine-grained style control in Transformer-based Text-to-speech Synthesis
- Title(参考訳): トランスベーステキスト音声合成における細粒度スタイル制御
- Authors: Li-Wei Chen and Alexander Rudnicky
- Abstract要約: 本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
- 参考スコア(独自算出の注目度): 78.92428622630861
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present a novel architecture to realize fine-grained style
control on the transformer-based text-to-speech synthesis (TransformerTTS).
Specifically, we model the speaking style by extracting a time sequence of
local style tokens (LST) from the reference speech. The existing content
encoder in TransformerTTS is then replaced by our designed cross-attention
blocks for fusion and alignment between content and style. As the fusion is
performed along with the skip connection, our cross-attention block provides a
good inductive bias to gradually infuse the phoneme representation with a given
style. Additionally, we prevent the style embedding from encoding linguistic
content by randomly truncating LST during training and using wav2vec 2.0
features. Experiments show that with fine-grained style control, our system
performs better in terms of naturalness, intelligibility, and style
transferability. Our code and samples are publicly available.
- Abstract(参考訳): 本稿では,トランスフォーマティブ・テキストから音声への合成(transformertts)の細粒度制御を実現するための新しいアーキテクチャを提案する。
具体的には、参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
TransformerTTSの既存のコンテントエンコーダは、コンテントとスタイルの融合とアライメントのために設計したクロスアテンションブロックに置き換えられます。
スキップ接続と共に融合が行われると、我々のクロスアテンションブロックは、音素表現を所定のスタイルで徐々に融合させる優れた帰納的バイアスを与える。
また,学習中のlstをランダムに切断し,wav2vec 2.0機能を用いて,言語コンテンツのエンコードを防止する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
私たちのコードとサンプルは公開されています。
関連論文リスト
- Style Mixture of Experts for Expressive Text-To-Speech Synthesis [7.6732312922460055]
StyleMoEは、スタイルエンコーダにおける平均的なスタイル表現の学習の問題に対処するアプローチである。
提案手法は,TSフレームワークのスタイルエンコーダをMixture of Expertsレイヤに置き換える。
客観的および主観的両方の実験は,多様かつ見当たらない参照音声に対するスタイル伝達の改善を実証した。
論文 参考訳(メタデータ) (2024-06-05T22:17:47Z) - StyleCrafter: Enhancing Stylized Text-to-Video Generation with Style Adapter [78.75422651890776]
StyleCrafterは、トレーニング済みのT2Vモデルをスタイルコントロールアダプタで拡張する汎用的な方法である。
コンテンツスタイルのゆがみを促進するため,テキストプロンプトからスタイル記述を取り除き,参照画像のみからスタイル情報を抽出する。
StyleCrafterは、テキストの内容と一致し、参照画像のスタイルに似た高品質なスタイリングビデオを効率よく生成する。
論文 参考訳(メタデータ) (2023-12-01T03:53:21Z) - Expressive TTS Driven by Natural Language Prompts Using Few Human
Annotations [12.891344121936902]
Expressive Text-to-Speech (TTS) は、人間の声調、気分、さらには芸術的特性で音声を合成することを目的としている。
TTSの最近の進歩は、自然言語のプロンプトを通じて、ユーザーが直接合成スタイルを制御できるようになる。
最小限のアノテーションを持つ制御可能な表現型TSモデルであるFreeStyleTTS(FS-TTS)を提案する。
論文 参考訳(メタデータ) (2023-11-02T14:20:37Z) - ParaGuide: Guided Diffusion Paraphrasers for Plug-and-Play Textual Style
Transfer [57.6482608202409]
テキストスタイル転送は、意味を保ちながらテキストのスタイル特性を変換するタスクである。
任意のスタイルに柔軟に適応できる汎用型転送のための新しい拡散型フレームワークを提案する。
本研究では,人的評価と自動評価の両面から,Enron Email Corpusの手法を検証するとともに,形式性,感情,さらにはオーサシップスタイルの伝達にも優れることを示す。
論文 参考訳(メタデータ) (2023-08-29T17:36:02Z) - Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。
拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。
デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文 参考訳(メタデータ) (2023-04-12T02:08:34Z) - Fine-Grained Image Style Transfer with Visual Transformers [59.85619519384446]
本稿では,コンテンツとスタイルイメージの両方を視覚トークンに分割し,よりきめ細かなスタイル変換を実現するSTTR(Style TRansformer)ネットワークを提案する。
STTRと既存のアプローチを比較するために,Amazon Mechanical Turkのユーザスタディを実施している。
論文 参考訳(メタデータ) (2022-10-11T06:26:00Z) - Self-supervised Context-aware Style Representation for Expressive Speech
Synthesis [23.460258571431414]
本稿では,平文からスタイル表現を自己教師型で学習するための新しいフレームワークを提案する。
感情のレキシコンを活用し、対照的な学習と深いクラスタリングを使用する。
本手法は,音声ブック音声におけるドメイン内およびドメイン外テストセットの主観的評価に基づいて,改善された結果を実現する。
論文 参考訳(メタデータ) (2022-06-25T05:29:48Z) - GenerSpeech: Towards Style Transfer for Generalizable Out-Of-Domain
Text-to-Speech Synthesis [68.42632589736881]
本稿では,OODカスタム音声の高忠実度ゼロショットスタイル転送に向けたテキスト音声合成モデルGenerSpeechを提案する。
GenerSpeechは、2つのコンポーネントを導入することで、音声のバリエーションをスタイルに依存しない部分とスタイル固有の部分に分解する。
ゼロショット方式の転送について評価したところ,GenerSpeechは音質やスタイルの類似性の観点から,最先端のモデルを上回っていることがわかった。
論文 参考訳(メタデータ) (2022-05-15T08:16:02Z) - StylePTB: A Compositional Benchmark for Fine-grained Controllable Text
Style Transfer [90.6768813620898]
スタイル転送は、ソース文定数からコアの意味を維持しながら、ターゲットのスタイル変更を伴うテキストを制御的に生成することを目的としています。
テキストの原子語彙,構文,セマンティック,セマンティックトランスファーにまたがる21のきめ細かなスタイリスティックな文を含む大規模ベンチマークであるStylePTBを導入する。
StylePTBの既存のメソッドは、細かい変更をモデル化するのに苦労し、複数のスタイルを構成するのにさらに困難です。
論文 参考訳(メタデータ) (2021-04-12T04:25:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。