Fugu-MT 論文翻訳(概要): Accompanied Singing Voice Synthesis with Fully Text-controlled Melody

論文の概要: Accompanied Singing Voice Synthesis with Fully Text-controlled Melody

arxiv url: http://arxiv.org/abs/2407.02049v1
Date: Tue, 2 Jul 2024 08:23:38 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-03 16:14:40.375231
Title: Accompanied Singing Voice Synthesis with Fully Text-controlled Melody
Title（参考訳）: 完全テキスト制御メロディによる伴奏歌声合成
Authors: Ruiqi Li, Zhiqing Hong, Yongqi Wang, Lichao Zhang, Rongjie Huang, Siqi Zheng, Zhou Zhao,
Abstract要約: Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。完全テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案する。
参考スコア（独自算出の注目度）: 61.147446955297625
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-song (TTSong) is a music generation task that synthesizes accompanied singing voices. Current TTSong methods, inherited from singing voice synthesis (SVS), require melody-related information that can sometimes be impractical, such as music scores or MIDI sequences. We present MelodyLM, the first TTSong model that generates high-quality song pieces with fully text-controlled melodies, achieving minimal user requirements and maximum control flexibility. MelodyLM explicitly models MIDI as the intermediate melody-related feature and sequentially generates vocal tracks in a language model manner, conditioned on textual and vocal prompts. The accompaniment music is subsequently synthesized by a latent diffusion model with hybrid conditioning for temporal alignment. With minimal requirements, users only need to input lyrics and a reference voice to synthesize a song sample. For full control, just input textual prompts or even directly input MIDI. Experimental results indicate that MelodyLM achieves superior performance in terms of both objective and subjective metrics. Audio samples are available at https://melodylm666.github.io.
Abstract（参考訳）: Text-to-song (TTSong) は、歌声の伴奏を合成する音楽生成タスクである。現在のTTSong法は、歌声合成(SVS)から受け継がれており、音楽スコアやMIDIシーケンスなど、時には非現実的なメロディ関連の情報を必要とする。我々は,テキスト制御されたメロディで高品質な曲を生成する最初のTTSongモデルであるMelodyLMを提案し,最小限のユーザ要件と最大制御柔軟性を実現する。メロディLMは、MIDIを中間メロディ関連の特徴として明示的にモデル化し、テキストと音声のプロンプトに基づいて、言語モデルで声楽トラックを逐次生成する。その後、伴奏音楽は、時間的アライメントのためのハイブリッド条件付潜時拡散モデルにより合成される。最小限の要件で、ユーザは歌詞と参照音声を入力するだけで、歌のサンプルを合成できる。完全な制御を行うには、テキストプロンプトを入力するか、直接MIDIを入力すればよい。実験結果から,MelodyLMは客観的,主観的両指標の両面において優れた性能を示した。オーディオサンプルはhttps://melodylm666.github.io.comで入手できる。

関連論文リスト

MIDI-LLM: Adapting Large Language Models for Text-to-MIDI Music Generation [38.07213913075033]
自由形式のテキストプロンプトからマルチトラックMIDI音楽を生成するLLMであるMIDI-LLMを提案する。提案手法では,テキストLLMの語彙をMIDIトークンに含めるように拡張し,テキスト・トゥ・MIDI能力を実現するために2段階のトレーニングレシピを使用する。
論文参考訳（メタデータ） (2025-11-06T00:40:07Z)
MIDI-VALLE: Improving Expressive Piano Performance Synthesis Through Neural Codec Language Modelling [32.78044321881271]
音声合成のためのVALLEフレームワークであるMIDI-VALLEを提案する。 VALLEはMIDIとオーディオの両方を離散トークンとしてエンコードし、より一貫性があり堅牢なピアノ演奏のモデリングを容易にする。評価の結果,MIDI-VALLEは最先端のベースラインよりも優れていた。
論文参考訳（メタデータ） (2025-07-11T12:28:20Z)
Versatile Framework for Song Generation with Prompt-based Control [50.359999116420084]
VersBandは、高品質でアライメントのある曲をプロンプトベースのコントロールで合成するためのフレームワークである。分離されたモデルであるVocalBandは、歌唱スタイル、ピッチ、メル-スペクトログラムを生成するためのフローマッチング手法を利用している。フローベースのトランスフォーマーモデルであるAccompBandは、Band-MOEを取り入れ、品質、アライメント、制御の強化に適した専門家を選択する。歌詞用LyricBandとメロディー用MelodyBandの2世代モデルは、総合的なマルチタスク・ソング生成システムに貢献している。
論文参考訳（メタデータ） (2025-04-27T01:00:06Z)
Text2midi: Generating Symbolic Music from Captions [7.133321587053803]
本稿では,テキスト記述からMIDIファイルを生成するエンド・ツー・エンド・エンド・モデルであるtext2midiを紹介する。プレトレーニングされたLLMエンコーダを使用してキャプションを処理し、自動回帰変換器デコーダを条件にMIDIシーケンスを生成する。我々は,MIDIファイルを高品質に生成するための総合的な実験評価を行い,自動化された研究と人為的な研究の両方を取り入れた。
論文参考訳（メタデータ） (2024-12-21T08:09:12Z)
Annotation-Free MIDI-to-Audio Synthesis via Concatenative Synthesis and Generative Refinement [0.0]
CoSaRefはMIDI-to-audio合成法であり、MIDI-audioペアデータセットを使わずに開発することができる。まず、MIDI入力に基づいて結合的な合成を行い、音声のみのデータセットに基づいて訓練された拡散に基づく深層生成モデルを用いて、結果のオーディオをリアルなトラックに洗練する。
論文参考訳（メタデータ） (2024-10-22T08:01:40Z)
Text-to-Song: Towards Controllable Music Generation Incorporating Vocals and Accompaniment [56.019288564115136]
ボーカルと伴奏の両方を組み込んだテキスト・ツー・サング・シンセサイザーという新しいタスクを提案する。我々は,歌唱音声合成 (SVS) とV2A合成 (V2A) を組み合わせた2段階音声合成法であるメロディストを開発した。評価結果は,メロディストが同等の品質とスタイルの整合性で楽曲を合成できることを実証した。
論文参考訳（メタデータ） (2024-04-14T18:00:05Z)
Prompt-Singer: Controllable Singing-Voice-Synthesis with Natural Language Prompt [50.25271407721519]
本稿では,歌手の性別,声域,音量を自然言語で制御できる最初のSVS手法であるPrompt-Singerを提案する。我々は,マルチスケール階層を持つデコーダのみの変換器に基づくモデルアーキテクチャを採用し,レンジメロディデカップリングされたピッチ表現を設計する。実験により,本モデルは良好な制御能力と音質が得られることが示された。
論文参考訳（メタデータ） (2024-03-18T13:39:05Z)
Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文参考訳（メタデータ） (2023-05-30T17:20:25Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
A Melody-Unsupervision Model for Singing Voice Synthesis [9.137554315375919]
トレーニング時間内に時間的アライメントを伴わない音声・歌詞ペアのみを必要とするメロディ・アンスーパービジョンモデルを提案する。提案手法は音声やテキストのラベルで訓練できるが,推測時間で歌唱音声を生成できることを示す。
論文参考訳（メタデータ） (2021-10-13T07:42:35Z)
TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage Method [92.36505210982648]
TeleMelody(テレメロディ)は、音楽テンプレートを備えた2段階の歌詞からメロディ生成システムである。高品質で、制御性が良く、ペアリングされた歌詞・メロディデータに対する要求も少ないメロディを生成する。
論文参考訳（メタデータ） (2021-09-20T15:19:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。