論文の概要: Learning and controlling the source-filter representation of speech with
a variational autoencoder
- arxiv url: http://arxiv.org/abs/2204.07075v1
- Date: Thu, 14 Apr 2022 16:13:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-15 14:52:32.133761
- Title: Learning and controlling the source-filter representation of speech with
a variational autoencoder
- Title(参考訳): 変分オートエンコーダを用いた音声の音源フィルタ表現の学習と制御
- Authors: Samir Sadok, Simon Leglaive, Laurent Girin, Xavier Alameda-Pineda,
Renaud S\'eguier
- Abstract要約: 本研究では,音声生成のソースフィルタモデルが,自然音声信号のデータセットに基づいて教師なしで訓練された変分オートエンコーダの潜時空間に自然に現れることを示す。
学習した潜在部分空間内の変化の要因を正確かつ独立に制御する弱教師付き手法を開発した。
- 参考スコア(独自算出の注目度): 23.05989605017053
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding and controlling latent representations in deep generative
models is a challenging yet important problem for analyzing, transforming and
generating various types of data. In speech processing, inspiring from the
anatomical mechanisms of phonation, the source-filter model considers that
speech signals are produced from a few independent and physically meaningful
continuous latent factors, among which the fundamental frequency $f_0$ and the
formants are of primary importance. In this work, we show that the
source-filter model of speech production naturally arises in the latent space
of a variational autoencoder (VAE) trained in an unsupervised manner on a
dataset of natural speech signals. Using only a few seconds of labeled speech
signals generated with an artificial speech synthesizer, we experimentally
illustrate that $f_0$ and the formant frequencies are encoded in orthogonal
subspaces of the VAE latent space and we develop a weakly-supervised method to
accurately and independently control these speech factors of variation within
the learned latent subspaces. Without requiring additional information such as
text or human-labeled data, this results in a deep generative model of speech
spectrograms that is conditioned on $f_0$ and the formant frequencies, and
which is applied to the transformation of speech signals.
- Abstract(参考訳): 深層生成モデルにおける潜伏表現の理解と制御は、様々な種類のデータを分析し、変換し、生成する上で難しいが重要な問題である。
音声処理において、音源フィルタモデルは、基本周波数$f_0$とホルマントが第一に重要であるいくつかの独立かつ物理的に意味のある連続潜時因子から発声信号が生成されると考える。
本研究では,音声生成のソースフィルタモデルが,自然音声信号のデータセットに基づいて教師なしで訓練された変分オートエンコーダ(VAE)の潜時空間に自然に現れることを示す。
人工音声合成装置で生成した数秒のラベル付き音声信号を用いて、VAE潜在空間の直交部分空間に$f_0$とフォーマント周波数が符号化されることを実験的に示し、学習された潜在空間内のこれらの音声要素を正確に独立に制御する弱い教師付き手法を開発した。
テキストや人間のラベルデータなどの追加情報を必要としないことで、$f_0$とフォルマント周波数で条件付けされ、音声信号の変換に適用される音声スペクトログラムの深い生成モデルが得られる。
関連論文リスト
- VQalAttent: a Transparent Speech Generation Pipeline based on Transformer-learned VQ-VAE Latent Space [0.49109372384514843]
VQalAttentは、調整可能な性能と解釈性を備えた偽音声を生成するために設計された軽量モデルである。
以上の結果から,VQalAttentが限られた計算資源を持つ可知音声サンプルを生成する能力を示した。
論文 参考訳(メタデータ) (2024-11-22T00:21:39Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - SeqDiffuSeq: Text Diffusion with Encoder-Decoder Transformers [50.90457644954857]
本研究では,拡散モデルを用いてシーケンス・ツー・シーケンスのテキスト生成を行う。
シーケンス・ツー・シーケンス生成のためのテキスト拡散モデルであるSeqDiffuSeqを提案する。
実験結果は、テキストの品質と推論時間の観点から、シーケンス・ツー・シーケンス生成の優れた性能を示す。
論文 参考訳(メタデータ) (2022-12-20T15:16:24Z) - Interpretable Acoustic Representation Learning on Breathing and Speech
Signals for COVID-19 Detection [37.01066509527848]
本稿では,新型コロナウイルス検出作業における音声信号の表現学習のアプローチについて述べる。
生音声サンプルは、コサイン変調ガウス関数としてパラメータ化される1次元畳み込みフィルタのバンクで処理される。
フィルタされた出力は、プールされ、ログ圧縮され、自己アテンションベースの関連重み付け機構で使用される。
論文 参考訳(メタデータ) (2022-06-27T15:20:51Z) - Discretization and Re-synthesis: an alternative method to solve the
Cocktail Party Problem [65.25725367771075]
この研究は、初めて合成に基づくアプローチがこの問題にうまく対応できることを示した。
具体的には,離散シンボルの認識に基づく音声分離/強調モデルを提案する。
離散シンボルの入力による合成モデルを利用することで、離散シンボル列の予測後、各ターゲット音声を再合成することができる。
論文 参考訳(メタデータ) (2021-12-17T08:35:40Z) - Ctrl-P: Temporal Control of Prosodic Variation for Speech Synthesis [68.76620947298595]
テキストは音声形式を完全には規定しないので、テキストから音声へのモデルは、対応するテキストで説明されない方法で異なる音声データから学習できなければならない。
韻律の3つの一次音響相関に明示的に条件付けされた音声を生成するモデルを提案する。
論文 参考訳(メタデータ) (2021-06-15T18:03:48Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Deep Variational Generative Models for Audio-visual Speech Separation [33.227204390773316]
クリーン音声の音声・視覚生成モデルに基づく教師なし手法を提案する。
視覚情報をよりよく活用するために、混合音声から潜伏変数の後部を推定する。
実験の結果,非教師付きVAE法はNMF法よりも分離性能がよいことがわかった。
論文 参考訳(メタデータ) (2020-08-17T10:12:33Z) - Nonlinear ISA with Auxiliary Variables for Learning Speech
Representations [51.9516685516144]
補助変数の存在下では非線型独立部分空間解析(ISA)の理論的枠組みを導入する。
部分空間が独立な教師なし音声表現を学習するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-25T14:53:09Z) - Speech-to-Singing Conversion based on Boundary Equilibrium GAN [42.739822506085694]
本稿では,音声信号のスペクトルを歌声に変換するためのGANモデルについて検討する。
提案モデルは,既存の非対向学習ベースラインよりも自然性が高い歌声を生成する。
論文 参考訳(メタデータ) (2020-05-28T08:18:02Z) - Cross-modal variational inference for bijective signal-symbol
translation [11.444576186559486]
本稿では,この問題を密度推定タスクに変換することで,信号・記号変換の手法を提案する。
この結合分布を2つの異なる変分オートエンコーダで推定する。
本稿では,音符,オクターブ,ダイナミクスの記号を用いたモデル実験を行い,音楽の書き起こしとラベル制約による音声生成の基本的なステップを構成する。
論文 参考訳(メタデータ) (2020-02-10T15:25:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。