論文の概要: Unsupervised Style and Content Separation by Minimizing Mutual
Information for Speech Synthesis
- arxiv url: http://arxiv.org/abs/2003.06227v1
- Date: Mon, 9 Mar 2020 23:47:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-25 08:52:19.692603
- Title: Unsupervised Style and Content Separation by Minimizing Mutual
Information for Speech Synthesis
- Title(参考訳): 音声合成のための相互情報最小化による教師なしスタイルとコンテンツ分離
- Authors: Ting-Yao Hu, Ashish Shrivastava, Oncel Tuzel, Chandra Dhir
- Abstract要約: 本稿では,入力テキストから音声を生成する方法と,参照音声信号から抽出したスタイルベクトルを提案する。
本手法の主な目的は、合成音声信号の入力内容を保存することである。
我々は、最先端の教師なし音声合成法よりも大幅に改善されていることを示す。
- 参考スコア(独自算出の注目度): 21.244758722547665
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method to generate speech from input text and a style vector
that is extracted from a reference speech signal in an unsupervised manner,
i.e., no style annotation, such as speaker information, is required. Existing
unsupervised methods, during training, generate speech by computing style from
the corresponding ground truth sample and use a decoder to combine the style
vector with the input text. Training the model in such a way leaks content
information into the style vector. The decoder can use the leaked content and
ignore some of the input text to minimize the reconstruction loss. At inference
time, when the reference speech does not match the content input, the output
may not contain all of the content of the input text. We refer to this problem
as "content leakage", which we address by explicitly estimating and minimizing
the mutual information between the style and the content through an adversarial
training formulation. We call our method MIST - Mutual Information based Style
Content Separation. The main goal of the method is to preserve the input
content in the synthesized speech signal, which we measure by the word error
rate (WER) and show substantial improvements over state-of-the-art unsupervised
speech synthesis methods.
- Abstract(参考訳): 本稿では、入力テキストから音声を生成する方法と、参照音声信号から教師なしの方法で抽出されるスタイルベクトル、すなわち、話者情報などのスタイルアノテーションを必要としない方法を提案する。
既存の教師なし手法は、訓練中、対応する基底真理サンプルから計算スタイルによる音声を生成し、デコーダを使用してスタイルベクトルと入力テキストを結合する。
このような方法でモデルをトレーニングすることで、コンテンツ情報をスタイルベクトルにリークする。
デコーダは、漏洩したコンテンツを使用し、入力テキストの一部を無視して復元損失を最小限にすることができる。
推定時には、参照音声がコンテンツ入力と一致しない場合には、出力は入力テキストのすべての内容を含まない。
我々は,この問題を「コンテンツ漏洩」と呼び,敵対的トレーニングの定式化を通じて,スタイルとコンテンツ間の相互情報を明示的に推定し,最小化する。
相互情報に基づくスタイルコンテンツ分離手法をmistと呼ぶ。
本手法の主な目的は、単語誤り率(WER)によって測定される合成音声信号の入力内容を保存し、最先端の教師なし音声合成法よりも大幅に改善することである。
関連論文リスト
- Stylebook: Content-Dependent Speaking Style Modeling for Any-to-Any
Voice Conversion using Only Speech Data [2.6217304977339473]
本稿では,ターゲット発話からリッチなスタイル情報を抽出し,ソース音声コンテンツに効率的に転送する手法を提案する。
提案手法では,自己教師付き学習(SSL)モデルを用いた注意機構を提案する。
実験結果から,提案手法と拡散型生成モデルを組み合わせることで,任意の音声変換タスクにおいて,話者の類似性が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-09-06T05:33:54Z) - SpeechLM: Enhanced Speech Pre-Training with Unpaired Textual Data [100.46303484627045]
本稿では,事前定義した統一表現と音声とテキストの事前学習を協調させるクロスモーダル音声言語モデル(SpeechLM)を提案する。
具体的には、音声とテキストのモダリティをブリッジするために、2つの別の離散トークン化器を導入する。
音声認識, 音声翻訳, ユニバーサル表現評価フレームワーク SUPERB など, 様々な音声言語処理タスクにおける音声LM の評価を行った。
論文 参考訳(メタデータ) (2022-09-30T09:12:10Z) - TGAVC: Improving Autoencoder Voice Conversion with Text-Guided and
Adversarial Training [32.35100329067037]
新しい音声変換フレームワーク $boldsymbol T$ext $boldsymbol G$uided $boldsymbol A$utoVC(TGAVC)
音声から抽出した推定内容の話者識別情報を除去するために、逆トレーニングを適用する。
AIShell-3データセットの実験により、提案モデルは変換された音声の自然性や類似性の観点からAutoVCより優れていることが示された。
論文 参考訳(メタデータ) (2022-08-08T10:33:36Z) - Fine-grained style control in Transformer-based Text-to-speech Synthesis [78.92428622630861]
本稿では,Transformer-based text-to-speech synthesis (TransformerTTS) におけるきめ細かいスタイル制御を実現する新しいアーキテクチャを提案する。
参照音声から局所的スタイルトークン(LST)の時系列を抽出することにより、発話スタイルをモデル化する。
実験により, きめ細かいスタイル制御では, 自然性, 知能性, スタイル伝達性が向上することが示された。
論文 参考訳(メタデータ) (2021-10-12T19:50:02Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - VQMIVC: Vector Quantization and Mutual Information-Based Unsupervised
Speech Representation Disentanglement for One-shot Voice Conversion [54.29557210925752]
ワンショット音声変換は、音声表現のアンタングルメントによって効果的に実現できる。
コンテンツエンコーディングにはベクトル量子化(VQ)を使用し、トレーニング中に相互情報(MI)を相関指標として導入する。
実験結果は,提案手法が効果的に非絡み合った音声表現を学習する際の優位性を反映している。
論文 参考訳(メタデータ) (2021-06-18T13:50:38Z) - TextSETTR: Few-Shot Text Style Extraction and Tunable Targeted Restyling [23.60231661500702]
本稿では,テキストスタイル転送問題に対する新しいアプローチを提案する。
本手法は,隣接文間の暗黙的な接続を頼りに,手軽に使用可能な非ラベルテキストを利用する。
ラベルなしAmazonでのトレーニングでは、データレビューの結果が感情伝達に競合するモデルになっていることを実証する。
論文 参考訳(メタデータ) (2020-10-08T07:06:38Z) - Adversarial Watermarking Transformer: Towards Tracing Text Provenance
with Data Hiding [80.3811072650087]
自然言語の透かしを防御として研究し,テキストの出所の発見と追跡に役立てる。
本稿では,適応型透かし変換器(AWT)とエンコーダ・デコーダ・デコーダを併用した対向型透かし変換器(AWT)について述べる。
AWTは、テキストにデータを隠蔽する最初のエンドツーエンドモデルである。
論文 参考訳(メタデータ) (2020-09-07T11:01:24Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。