論文の概要: Pitch Preservation In Singing Voice Synthesis
- arxiv url: http://arxiv.org/abs/2110.05033v1
- Date: Mon, 11 Oct 2021 07:01:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-10-12 19:13:43.766953
- Title: Pitch Preservation In Singing Voice Synthesis
- Title(参考訳): 歌声合成におけるピッチ保存
- Authors: Shujun Liu, Hai Zhu, Kun Wang, Huajun Wang
- Abstract要約: 本稿では,独立した音素エンコーダと音素エンコーダを用いた新しい音響モデルを提案する。
実験結果から,提案手法はピッチ入力間の固有構造を特徴付けることができ,ピッチ合成精度が向上し,高度なベースラインシステムに対して優れた歌唱合成性能が得られることが示された。
- 参考スコア(独自算出の注目度): 6.99674326582747
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Suffering from limited singing voice corpus, existing singing voice synthesis
(SVS) methods that build encoder-decoder neural networks to directly generate
spectrogram could lead to out-of-tune issues during the inference phase. To
attenuate these issues, this paper presents a novel acoustic model with
independent pitch encoder and phoneme encoder, which disentangles the phoneme
and pitch information from music score to fully utilize the corpus.
Specifically, according to equal temperament theory, the pitch encoder is
constrained by a pitch metric loss that maps distances between adjacent input
pitches into corresponding frequency multiples between the encoder outputs. For
the phoneme encoder, based on the analysis that same phonemes corresponding to
varying pitches can produce similar pronunciations, this encoder is followed by
an adversarially trained pitch classifier to enforce the identical phonemes
with different pitches mapping into the same phoneme feature space. By these
means, the sparse phonemes and pitches in original input spaces can be
transformed into more compact feature spaces respectively, where the same
elements cluster closely and cooperate mutually to enhance synthesis quality.
Then, the outputs of the two encoders are summed together to pass through the
following decoder in the acoustic model. Experimental results indicate that the
proposed approaches can characterize intrinsic structure between pitch inputs
to obtain better pitch synthesis accuracy and achieve superior singing
synthesis performance against the advanced baseline system.
- Abstract(参考訳): 歌唱音声コーパスの制限を受け、エンコーダ・デコーダ・ニューラルネットを構築して分光図を直接生成する既存の歌唱音声合成(SVS)手法は、推論フェーズ中に不規則な問題を引き起こす可能性がある。
そこで本研究では,音素と音素情報を楽譜から切り離してコーパスを完全に活用する,独立したピッチエンコーダと音素エンコーダを用いた新しい音響モデルを提案する。
具体的には、等速理論により、ピッチエンコーダは、隣接する入力ピッチ間の距離をエンコーダ出力間の対応する周波数倍にマッピングするピッチメトリック損失によって制約される。
音素エンコーダは、異なるピッチに対応する同じ音素が類似の発音を生成することができるという分析に基づいて、異なるピッチを持つ同一音素を同じ音素特徴空間にマッピングする逆訓練されたピッチ分類器が続く。
これらの手段により、元の入力空間におけるスパース音素とピッチをそれぞれよりコンパクトな特徴空間に変換することができ、同じ要素が密集して相互に協調して合成品質を向上させることができる。
次に、2つのエンコーダの出力を合計して次のデコーダを音響モデルで通過させる。
実験の結果,提案手法はピッチ入力間の固有構造を特徴付け,ピッチ合成精度を向上し,ベースラインシステムに対する歌唱合成性能を向上できることがわかった。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - Enhancing the vocal range of single-speaker singing voice synthesis with
melody-unsupervised pre-training [82.94349771571642]
本研究では, メロディ非教師型マルチスピーカ事前学習法を提案し, シングルスピーカの発声域を拡大する。
合成音声のリズム自然性を改善するために、識別可能な持続時間調整器を導入するのは、これが初めてである。
実験により,提案したSVSシステムは,音質と自然性の両方において,ベースラインよりも優れていることを確認した。
論文 参考訳(メタデータ) (2023-09-01T06:40:41Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Diffsound: Discrete Diffusion Model for Text-to-sound Generation [78.4128796899781]
本稿では,テキストエンコーダ,ベクトル量子化変分自動符号化(VQ-VAE),デコーダ,ボコーダからなる新しいテキスト音声生成フレームワークを提案する。
フレームワークは、まず、デコーダを使用して、テキストエンコーダから抽出したテキスト特徴をVQ-VAEの助けを借りてメルスペクトルに転送し、次いで、ボコーダを使用して生成されたメルスペクトルを波形に変換する。
論文 参考訳(メタデータ) (2022-07-20T15:41:47Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - Voice Activity Detection for Transient Noisy Environment Based on
Diffusion Nets [13.558688470594674]
過渡音と定常音の音響環境における音声活動検出について検討する。
音声フレームと非音声音声フレームの空間パターンを独立に学習し,その基礎となる幾何学的構造を学習する。
ディープニューラルネットワークは、音声フレームと非音声フレームを分離するように訓練される。
論文 参考訳(メタデータ) (2021-06-25T17:05:26Z) - From Note-Level to Chord-Level Neural Network Models for Voice
Separation in Symbolic Music [0.0]
我々は、和音(和音レベル)の各音に対して別々に音符を割り当てるニューラルネットワークを訓練し、和音レベル(和音レベル)のすべての音符に共同で音符を割り当てる。
どちらのモデルもエンベロープ抽出関数の反復的適用に基づいて強いベースラインを超える。
2つのモデルはまた、バッハ音楽における声を分離する以前のアプローチよりも優れていた。
論文 参考訳(メタデータ) (2020-11-05T18:39:42Z) - Semi-supervised Learning for Singing Synthesis Timbre [22.75251024528604]
音声データのみから新しい音声を学習できる半教師付き歌唱シンセサイザーを提案する。
本システムは,2つのエンコーダ,言語と音響,および1つの(音響)デコーダを備えたエンコーダ・デコーダモデルである。
聴取テストによりシステム評価を行い、その結果が等価な教師付きアプローチで得られたものと同等であることを示す。
論文 参考訳(メタデータ) (2020-11-05T13:33:34Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。