論文の概要: Effects of Convolutional Autoencoder Bottleneck Width on StarGAN-based
Singing Technique Conversion
- arxiv url: http://arxiv.org/abs/2308.10021v1
- Date: Sat, 19 Aug 2023 14:13:28 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:16:40.241891
- Title: Effects of Convolutional Autoencoder Bottleneck Width on StarGAN-based
Singing Technique Conversion
- Title(参考訳): 畳み込み型オートエンコーダボトルネック幅がStarGANベースの歌唱技術変換に及ぼす影響
- Authors: Tung-Cheng Su, Yung-Chuan Chang, Yi-Wen Liu
- Abstract要約: 歌唱技法変換(Singing Technique conversion、STC)とは、ある音声技術から別の音声技術へ変換する作業を指す。
以前のSTC研究や歌唱音声変換の研究は、畳み込みオートエンコーダ(CAE)を変換に用いている。
我々は WORLD vocoder 表現と CAE アーキテクチャを利用した GAN ベースのマルチドメイン STC システムを構築した。
- 参考スコア(独自算出の注目度): 2.2221991003992967
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Singing technique conversion (STC) refers to the task of converting from one
voice technique to another while leaving the original singer identity, melody,
and linguistic components intact. Previous STC studies, as well as singing
voice conversion research in general, have utilized convolutional autoencoders
(CAEs) for conversion, but how the bottleneck width of the CAE affects the
synthesis quality has not been thoroughly evaluated. To this end, we
constructed a GAN-based multi-domain STC system which took advantage of the
WORLD vocoder representation and the CAE architecture. We varied the bottleneck
width of the CAE, and evaluated the conversion results subjectively. The model
was trained on a Mandarin dataset which features four singers and four singing
techniques: the chest voice, the falsetto, the raspy voice, and the whistle
voice. The results show that a wider bottleneck corresponds to better
articulation clarity but does not necessarily lead to higher likeness to the
target technique. Among the four techniques, we also found that the whistle
voice is the easiest target for conversion, while the other three techniques as
a source produce more convincing conversion results than the whistle.
- Abstract(参考訳): 歌唱技法変換(stc)は、元の歌手のアイデンティティ、メロディ、言語的要素をそのまま残しながら、ある声法から別の声法に変換する作業を指す。
以前のSTC研究や歌唱音声変換研究は、変換に畳み込みオートエンコーダ(CAE)を使用してきたが、CAEのボトルネック幅が合成品質に与える影響は十分に評価されていない。
そこで我々は WORLD vocoder 表現と CAE アーキテクチャを利用した GAN ベースのマルチドメイン STC システムを構築した。
我々はCAEのボトルネック幅を変動させ,変換結果を主観的に評価した。
このモデルは4人の歌手と4人の歌唱技法(胸声、偽音、ささいな声、口笛声)からなるマンダリンのデータセットで訓練された。
その結果、より広いボトルネックは明瞭度の向上に対応しているが、必ずしも目標技術への類似度が高まるとは限らない。
また、4つの技法のうち、whi音声は変換の最も容易なターゲットであり、他の3つの手法はwhiよりも説得力のある変換結果を生成する。
関連論文リスト
- Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。
我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。
実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文 参考訳(メタデータ) (2024-03-18T13:39:05Z) - PrimaDNN': A Characteristics-aware DNN Customization for Singing
Technique Detection [5.399268560100004]
そこで本稿では,特徴指向の改良を目的としたディープニューラルネットワークモデルであるPimaDNNを提案する。
J-POPの歌唱技術検出の結果、PrimaDNNはマクロFで44.9%の最高の結果を得た。
論文 参考訳(メタデータ) (2023-06-25T10:15:18Z) - A Comparative Analysis Of Latent Regressor Losses For Singing Voice
Conversion [15.691936529849539]
シンガーレコードのメル-スペクトログラム上のシンガーアイデンティティ埋め込み(SIE)ネットワークは、シンガー固有の分散符号化を生成する。
本稿では,これらの評価がピッチレジスタの違いの影響を受けないように,ソースとターゲットの歌手間のピッチマッチング機構を提案する。
論文 参考訳(メタデータ) (2023-02-27T11:26:57Z) - Towards High-fidelity Singing Voice Conversion with Acoustic Reference
and Contrastive Predictive Coding [6.278338686038089]
非並列歌唱音声変換システムでは,音声後部グラフに基づく手法が広く普及している。
PPGの音響情報が不足しているため、変換された歌声のスタイルと自然性はまだ限られている。
提案モデルでは,歌声変換の自然性や,対象歌唱者との類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2021-10-10T10:27:20Z) - StarGANv2-VC: A Diverse, Unsupervised, Non-parallel Framework for
Natural-Sounding Voice Conversion [19.74933410443264]
本稿では, StarGAN v2 と呼ばれるGAN (Generative Adversarial Network) を用いた教師なし多人数音声変換手法を提案する。
私たちのモデルは20人の英語話者でしか訓練されていません。
音声変換タスク、例えば、非対人、言語横断、歌唱などのタスクに一般化する。
論文 参考訳(メタデータ) (2021-07-21T23:44:17Z) - DiffSinger: Diffusion Acoustic Model for Singing Voice Synthesis [53.19363127760314]
DiffSingerは、音楽スコアで調整されたメログラムにノイズを反復的に変換するパラメータ化されたマルコフチェーンです。
中国の歌唱データセットで行った評価は、DiffSingerが最先端のSVSワークを顕著な差で上回っていることを示している。
論文 参考訳(メタデータ) (2021-05-06T05:21:42Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - Spectrum and Prosody Conversion for Cross-lingual Voice Conversion with
CycleGAN [81.79070894458322]
言語間の音声変換は、ソース話者とターゲット話者が異なる言語を話すとき、ソース話者の音声をターゲット話者の音声のように聞こえるようにすることを目的としている。
従来の言語間音声変換の研究は、主にF0転送のための線形変換を伴うスペクトル変換に焦点を当てていた。
本稿では,F0モデリングにおける連続ウェーブレット変換(CWT)の分解手法を提案する。
論文 参考訳(メタデータ) (2020-08-11T07:29:55Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - F0-consistent many-to-many non-parallel voice conversion via conditional
autoencoder [53.901873501494606]
自動エンコーダによる音声変換を改良し,コンテンツ,F0,話者識別を同時に行う。
我々はF0輪郭を制御でき、ターゲット話者と一致したF0音声を生成し、品質と類似性を大幅に向上させることができる。
論文 参考訳(メタデータ) (2020-04-15T22:00:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。