論文の概要: Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer
- arxiv url: http://arxiv.org/abs/2208.12410v1
- Date: Fri, 26 Aug 2022 02:54:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-29 13:41:04.040815
- Title: Leveraging Symmetrical Convolutional Transformer Networks for Speech to
Singing Voice Style Transfer
- Title(参考訳): 歌声スタイル変換のための対称畳み込み変圧器ネットワークの活用
- Authors: Shrutina Agarwal and Sriram Ganapathy and Naoya Takahashi
- Abstract要約: 我々は、入力音声とターゲットメロディのアライメントをモデル化する、SymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
音声と歌声の並列データからなるNASデータセットとNHSSデータセットで実験を行う。
- 参考スコア(独自算出の注目度): 49.01417720472321
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a model to perform style transfer of speech to
singing voice. Contrary to the previous signal processing-based methods, which
require high-quality singing templates or phoneme synchronization, we explore a
data-driven approach for the problem of converting natural speech to singing
voice. We develop a novel neural network architecture, called SymNet, which
models the alignment of the input speech with the target melody while
preserving the speaker identity and naturalness. The proposed SymNet model is
comprised of symmetrical stack of three types of layers - convolutional,
transformer, and self-attention layers. The paper also explores novel data
augmentation and generative loss annealing methods to facilitate the model
training. Experiments are performed on the
NUS and NHSS datasets which consist of parallel data of speech and singing
voice. In these experiments, we show that the proposed SymNet model improves
the objective reconstruction quality significantly over the previously
published methods and baseline architectures. Further, a subjective listening
test confirms the improved quality of the audio obtained using the proposed
approach (absolute improvement of 0.37 in mean opinion score measure over the
baseline system).
- Abstract(参考訳): 本稿では,歌唱音声に対する音声のスタイル伝達を行うモデルを提案する。
高品質な歌唱テンプレートや音素同期を必要とする従来の信号処理に基づく手法とは対照的に,自然音声から歌声への変換問題に対するデータ駆動アプローチを検討する。
我々は、話者のアイデンティティと自然性を保ちながら、入力音声とターゲットメロディのアライメントをモデル化するSymNetと呼ばれる新しいニューラルネットワークアーキテクチャを開発する。
提案するSymNetモデルは,畳み込み層,トランスフォーマー層,自己保持層という3種類の層からなる対称スタックで構成されている。
また, モデルトレーニングを容易にするため, 新規なデータ拡張法と生成損失アニール法についても検討した。
音声と歌声の並列データからなるnusとnhssデータセットについて実験を行った。
本研究では,提案したSymNetモデルにより,これまでに公表した手法やベースラインアーキテクチャに比べて,目的の再構築品質が大幅に向上することを示す。
さらに,提案手法を用いて得られた音声の質向上を主観的聴取テストにより確認する(ベースラインシステムに対する平均評価スコア測定における0.37の絶対改善)。
関連論文リスト
- Multi-modal Adversarial Training for Zero-Shot Voice Cloning [9.823246184635103]
実音声特徴と生成音声特徴を条件付きで識別するトランスフォーマーエンコーダデコーダアーキテクチャを提案する。
我々は、FastSpeech2音響モデルに適用し、大規模マルチスピーカーデータセットであるLibriheavyのトレーニングを行うことにより、新しい対角訓練手法を導入する。
本モデルは,音声品質と話者類似度の観点から,ベースラインに対する改善を実現する。
論文 参考訳(メタデータ) (2024-08-28T16:30:41Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - An Adaptive Learning based Generative Adversarial Network for One-To-One
Voice Conversion [9.703390665821463]
本稿では,効率の良い1対1話者VCのための適応学習型GANモデルであるALGAN-VCを提案する。
このモデルは、Voice Conversion Challenge (VCC) 2016、2018、2020データセット、および自己準備のスピーチデータセットでテストされています。
生成音声サンプルの主観的および客観的評価は,提案モデルが音声変換タスクをエレガントに実行していることを示した。
論文 参考訳(メタデータ) (2021-04-25T13:44:32Z) - Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition [41.92991390542083]
本稿では,音素に基づくニューラルトランスデューサモデリングのための,シンプルで斬新で競争力のあるアプローチを提案する。
1つの音の文脈サイズは、最高の演奏に十分であることを示す。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-30T16:53:29Z) - Deep MOS Predictor for Synthetic Speech Using Cluster-Based Modeling [16.43844160498413]
最近のいくつかの論文では、ディープラーニングに基づくアセスメントモデルが提案されている。
本稿では,クラスタモデルを用いた3つのモデルを提案する。
GQT層は、タスクを自動的に学習することで、人間の評価をより良く予測できることを示す。
論文 参考訳(メタデータ) (2020-08-09T11:14:19Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Speech-to-Singing Conversion based on Boundary Equilibrium GAN [42.739822506085694]
本稿では,音声信号のスペクトルを歌声に変換するためのGANモデルについて検討する。
提案モデルは,既存の非対向学習ベースラインよりも自然性が高い歌声を生成する。
論文 参考訳(メタデータ) (2020-05-28T08:18:02Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。