論文の概要: Speech-to-Singing Conversion in an Encoder-Decoder Framework
- arxiv url: http://arxiv.org/abs/2002.06595v1
- Date: Sun, 16 Feb 2020 15:33:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-31 18:24:20.148988
- Title: Speech-to-Singing Conversion in an Encoder-Decoder Framework
- Title(参考訳): エンコーダ・デコーダ・フレームワークにおける音声合成変換
- Authors: Jayneel Parekh, Preeti Rao, Yi-Hsuan Yang
- Abstract要約: 我々は,話し言葉を歌声に変換する問題に対して,学習に基づくアプローチを採っている。
話者の言語内容と音色を保存する歌を合成できるエンコーディングを学習する。
- 参考スコア(独自算出の注目度): 38.111942306157545
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper our goal is to convert a set of spoken lines into sung ones.
Unlike previous signal processing based methods, we take a learning based
approach to the problem. This allows us to automatically model various aspects
of this transformation, thus overcoming dependence on specific inputs such as
high quality singing templates or phoneme-score synchronization information.
Specifically, we propose an encoder--decoder framework for our task. Given
time-frequency representations of speech and a target melody contour, we learn
encodings that enable us to synthesize singing that preserves the linguistic
content and timbre of the speaker while adhering to the target melody. We also
propose a multi-task learning based objective to improve lyric intelligibility.
We present a quantitative and qualitative analysis of our framework.
- Abstract(参考訳): 本稿では,一組の音声行を歌行に変換することを目的とする。
従来の信号処理方式と異なり,この問題に対する学習に基づくアプローチを取る。
これにより、この変換の様々な側面を自動でモデル化し、高品質な歌唱テンプレートや音素スコア同期情報などの特定の入力への依存を克服することができる。
具体的には,タスクのためのエンコーダ-デコーダフレームワークを提案する。
音声の時間周波数表現と対象メロディの輪郭を考慮し,対象メロディに固執しながら,話者の言語的内容と音色を保存する歌唱を合成できる符号化法を学習する。
また,多タスク学習に基づく歌詞の理解性の向上も提案する。
我々は,枠組みの定量的・定性的な分析を行う。
関連論文リスト
- Singer Identity Representation Learning using Self-Supervised Techniques [0.0]
歌唱関連タスクに適した表現を抽出するシンガーアイデンティティエンコーダを訓練するためのフレームワークを提案する。
我々は,孤立した音声トラックの集合体上で,異なる自己教師付き学習手法を探索する。
歌手の類似度と識別タスクにおける表現の質を評価する。
論文 参考訳(メタデータ) (2024-01-10T10:41:38Z) - Towards General-Purpose Text-Instruction-Guided Voice Conversion [84.78206348045428]
本稿では,「深い声調でゆっくり発声する」や「陽気な少年声で話す」といったテキスト指示によって導かれる,新しい音声変換モデルを提案する。
提案したVCモデルは、離散コード列を処理するニューラルネットワークモデルであり、変換された音声のコード列を生成する。
論文 参考訳(メタデータ) (2023-09-25T17:52:09Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - AudioLM: a Language Modeling Approach to Audio Generation [59.19364975706805]
本稿では,長期的整合性を有する高品質オーディオ生成フレームワークであるAudioLMを紹介する。
本稿では,既存の音声トークンが,再建品質と長期構造との間に異なるトレードオフをもたらすことを示す。
我々は,コヒーレントピアノ音楽の継続を生成することによって,我々のアプローチが音声を超えてどのように拡張されるかを実証する。
論文 参考訳(メタデータ) (2022-09-07T13:40:08Z) - PPG-based singing voice conversion with adversarial representation
learning [18.937609682084034]
歌声変換は、歌唱内容とメロディを維持しながら、ある歌手の声を他の歌手の声に変換することを目的としている。
エンド・ツー・エンドのアーキテクチャを構築し、後部グラフを入力とし、メルスペクトログラムを生成する。
提案手法は, 自然性, メロディ, および音声類似性の観点から, 変換性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2020-10-28T08:03:27Z) - VAW-GAN for Singing Voice Conversion with Non-parallel Training Data [81.79070894458322]
VAW-GANに基づく歌声変換フレームワークを提案する。
我々はエンコーダを訓練し、歌手のアイデンティティと歌唱の韻律(F0)を音声コンテンツから切り離す。
シンガーIDとF0を条件付けすることにより、デコーダは、目に見えないターゲットシンガーIDの出力スペクトル特徴を生成する。
論文 参考訳(メタデータ) (2020-08-10T09:44:10Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Speech-to-Singing Conversion based on Boundary Equilibrium GAN [42.739822506085694]
本稿では,音声信号のスペクトルを歌声に変換するためのGANモデルについて検討する。
提案モデルは,既存の非対向学習ベースラインよりも自然性が高い歌声を生成する。
論文 参考訳(メタデータ) (2020-05-28T08:18:02Z) - Unsupervised Audiovisual Synthesis via Exemplar Autoencoders [59.13989658692953]
我々は,任意の個人の入力音声を,潜在的に無限に多くの出力スピーカのオーディオ視覚ストリームに変換する教師なしのアプローチを提案する。
我々は、Exemplar Autoencodersを用いて、特定のターゲット音声の音声、スタイリスティックな韻律、視覚的外観を学習する。
論文 参考訳(メタデータ) (2020-01-13T18:56:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。