Fugu-MT 論文翻訳(概要): Melody-Guided Music Generation

論文の概要: Melody-Guided Music Generation

arxiv url: http://arxiv.org/abs/2409.20196v4
Date: Mon, 30 Dec 2024 05:54:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-31 18:14:26.759539
Title: Melody-Guided Music Generation
Title（参考訳）: メロディガイドによる音楽生成
Authors: Shaopeng Wei, Manzhen Wei, Haoyu Wang, Yu Zhao, Gang Kou,
Abstract要約: メロディ・ギター・ミュージック・ジェネレーション(MG2)モデルについて述べる。実験の結果,提案したMG2モデルは,現在のオープンソーステキスト・音楽生成モデルを上回っていることがわかった。
参考スコア（独自算出の注目度）: 10.366088659024685
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: We present the Melody-Guided Music Generation (MG2) model, a novel approach using melody to guide the text-to-music generation that, despite a simple method and limited resources, achieves excellent performance. Specifically, we first align the text with audio waveforms and their associated melodies using the newly proposed Contrastive Language-Music Pretraining, enabling the learned text representation fused with implicit melody information. Subsequently, we condition the retrieval-augmented diffusion module on both text prompt and retrieved melody. This allows MG2 to generate music that reflects the content of the given text description, meantime keeping the intrinsic harmony under the guidance of explicit melody information. We conducted extensive experiments on two public datasets: MusicCaps and MusicBench. Surprisingly, the experimental results demonstrate that the proposed MG2 model surpasses current open-source text-to-music generation models, achieving this with fewer than 1/3 of the parameters or less than 1/200 of the training data compared to state-of-the-art counterparts. Furthermore, we conducted comprehensive human evaluations involving three types of users and five perspectives, using newly designed questionnaires to explore the potential real-world applications of MG2.
Abstract（参考訳）: 我々は,単純な手法と限られた資源にもかかわらず,優れた演奏を実現するメロディ・ギター・ミュージック・ジェネレーション(MG2)モデルを提案する。具体的には、新たに提案したContrastive Language-Music Pretrainingを用いて、まずテキストを音声波形とその関連するメロディと整列させ、暗黙のメロディ情報と融合した学習テキスト表現を可能にする。その後、テキストプロンプトと検索メロディの両方に対して、検索拡張拡散モジュールを条件付けする。これにより、MG2は与えられたテキスト記述の内容を反映した音楽を生成することができ、一方、固有の調和は明示的なメロディ情報のガイダンスの下で維持される。我々は、MusicCapsとMusicBenchの2つの公開データセットについて広範な実験を行った。実験の結果、MG2モデルは既存のオープンソーステキスト・音楽生成モデルを上回る結果となり、パラメータの1/3以下、最先端のモデルに比べてトレーニングデータの1/200以下で達成された。さらに,3種類のユーザと5つの視点を含む包括的人間評価を行い,MG2の現実的応用の可能性を探るため,新たに設計したアンケートを用いて検討を行った。

関連論文リスト

Text2midi-InferAlign: Improving Symbolic Music Generation with Inference-Time Alignment [6.806050368211496]
提案するText2midi-InferAlignは,推定時間におけるシンボリック音楽生成を改善する新しい手法である。提案手法は,テキスト・オーディオ・アライメントと推定中の音楽構造アライメントの報酬を利用して,生成した音楽が入力キャプションと整合するように促す。
論文参考訳（メタデータ） (2025-05-19T03:36:06Z)
SongGLM: Lyric-to-Melody Generation with 2D Alignment Encoding and Multi-Task Pre-Training [7.3026780262967685]
SongGLMは2次元アライメント符号化とマルチタスク事前学習を利用する歌詞からメロディ生成システムである。我々は,20万曲以上の英曲を事前学習と微調整に用いた大規模歌詞・旋律ペアデータセットを構築した。
論文参考訳（メタデータ） (2024-12-24T02:30:07Z)
MeLFusion: Synthesizing Music from Image and Language Cues using Diffusion Models [57.47799823804519]
私たちは、ミュージシャンが映画の脚本だけでなく、視覚化を通して音楽を作る方法にインスピレーションを受けています。本稿では,テキスト記述と対応する画像からの手がかりを効果的に利用して音楽を合成するモデルであるMeLFusionを提案する。音楽合成パイプラインに視覚情報を加えることで、生成した音楽の質が大幅に向上することを示す。
論文参考訳（メタデータ） (2024-06-07T06:38:59Z)
SongComposer: A Large Language Model for Lyric and Melody Generation in Song Composition [82.38021790213752]
SongComposerは、音楽専門の大規模言語モデル(LLM)である。 3つの重要なイノベーションを活用することで、メロディーをLLMに同時に構成する能力を統合する。歌詞からメロディへの生成、メロディから歌詞への生成、歌の継続、テキストから歌への生成といったタスクにおいて、高度なLLMよりも優れています。 SongComposeは大規模なトレーニング用データセットで、中国語と英語の歌詞とメロディのペアを含む。
論文参考訳（メタデータ） (2024-02-27T16:15:28Z)
LOAF-M2L: Joint Learning of Wording and Formatting for Singable Melody-to-Lyric Generation [7.102743887290909]
本稿では,メロディ・トゥ・リリック・トレーニングにおいて,歌いやすい歌詞を生成するための新たなアプローチにより,歌いやすさのギャップを埋める。一般ドメイン事前訓練後,提案手法はテキストのみの大規模歌詞コーパスから長さ認識を得る。次に,メロディと歌詞の関係に関する音楽学的研究から,メロディから歌詞への訓練において,モデルがメロディの詳細な形式要件を学習できるようにする新たな目的を提案する。
論文参考訳（メタデータ） (2023-07-05T09:42:47Z)
Controllable Lyrics-to-Melody Generation [14.15838552524433]
ユーザは好みの音楽スタイルで歌詞からリアルなメロディを生成できる、制御可能な歌詞・メロディ生成ネットワークであるConL2Mを提案する。本研究は,音楽属性の依存関係を複数のシーケンスをまたいでモデル化するため,マルチブランチスタック型LSTMアーキテクチャ間の情報フローを実現するためにメモリ間融合(Memofu)を提案し,参照スタイル埋め込み(RSE)を提案し,生成したメロディの音楽スタイルを制御し,シーケンスレベルの統計的損失(SeqLoss)をモデルがシーケンスレベルを学習するのに役立つように提案した。
論文参考訳（メタデータ） (2023-06-05T06:14:08Z)
Unsupervised Melody-to-Lyric Generation [91.29447272400826]
本稿では,メロディ・歌詞データを学習することなく高品質な歌詞を生成する手法を提案する。我々は、メロディと歌詞のセグメンテーションとリズムアライメントを利用して、与えられたメロディをデコード制約にコンパイルする。我々のモデルは、強いベースラインよりもオントピー的、歌いやすく、知性があり、一貫性のある高品質な歌詞を生成することができる。
論文参考訳（メタデータ） (2023-05-30T17:20:25Z)
Unsupervised Melody-Guided Lyrics Generation [84.22469652275714]
メロディと歌詞の一致したデータを学習することなく、楽しく聴ける歌詞を生成することを提案する。メロディと歌詞間の重要なアライメントを活用し、与えられたメロディを制約にコンパイルし、生成プロセスを導く。
論文参考訳（メタデータ） (2023-05-12T20:57:20Z)
Noise2Music: Text-conditioned Music Generation with Diffusion Models [73.74580231353684]
本研究では,テキストプロンプトから高品質な30秒音楽クリップを生成するために,一連の拡散モデルを訓練するNoss2Musicを紹介する。生成した音声は、ジャンル、テンポ、楽器、ムード、時代など、テキストプロンプトの重要な要素を忠実に反映できるだけでなく、テキストプロンプトを忠実に反映できる。トレーニングセットのオーディオのためにペア化されたテキストを生成し、拡散モデルによって取り込まれたテキストプロンプトの埋め込みを抽出するために使用される。
論文参考訳（メタデータ） (2023-02-08T07:27:27Z)
Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。 ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文参考訳（メタデータ） (2022-08-11T08:44:47Z)
TeleMelody: Lyric-to-Melody Generation with a Template-Based Two-Stage Method [92.36505210982648]
TeleMelody(テレメロディ)は、音楽テンプレートを備えた2段階の歌詞からメロディ生成システムである。高品質で、制御性が良く、ペアリングされた歌詞・メロディデータに対する要求も少ないメロディを生成する。
論文参考訳（メタデータ） (2021-09-20T15:19:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。