論文の概要: LeVo: High-Quality Song Generation with Multi-Preference Alignment
- arxiv url: http://arxiv.org/abs/2506.07520v1
- Date: Mon, 09 Jun 2025 07:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:10.855578
- Title: LeVo: High-Quality Song Generation with Multi-Preference Alignment
- Title(参考訳): LeVo:マルチパラメータアライメントによる高品質ソング生成
- Authors: Shun Lei, Yaoxun Xu, Zhiwei Lin, Huaicheng Zhang, Wei Tan, Hangting Chen, Jianwei Yu, Yixuan Zhang, Chenyu Yang, Haina Zhu, Shuai Wang, Zhiyong Wu, Dong Yu,
- Abstract要約: 本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。
実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
- 参考スコア(独自算出の注目度): 49.94713419553945
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) and audio language models have significantly improved music generation, particularly in lyrics-to-song generation. However, existing approaches still struggle with the complex composition of songs and the scarcity of high-quality data, leading to limitations in sound quality, musicality, instruction following, and vocal-instrument harmony. To address these challenges, we introduce LeVo, an LM-based framework consisting of LeLM and a music codec. LeLM is capable of parallelly modeling two types of tokens: mixed tokens, which represent the combined audio of vocals and accompaniment to achieve vocal-instrument harmony, and dual-track tokens, which separately encode vocals and accompaniment for high-quality song generation. It employs two decoder-only transformers and a modular extension training strategy to prevent interference between different token types. To further enhance musicality and instruction following, we introduce a multi-preference alignment method based on Direct Preference Optimization (DPO). This method handles diverse human preferences through a semi-automatic data construction process and DPO post-training. Experimental results demonstrate that LeVo consistently outperforms existing methods on both objective and subjective metrics. Ablation studies further justify the effectiveness of our designs. Audio examples are available at https://levo-demo.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)や音声言語モデルの最近の進歩は、特に歌詞から歌への生成において、音楽生成を著しく改善している。
しかし、既存のアプローチは、曲の複雑な構成と高品質なデータの不足に苦慮しており、音質、音楽性、指示の追従、発声の調和の制限につながっている。
これらの課題に対処するために、LLMと音楽コーデックからなるLMベースのフレームワークであるLeVoを紹介する。
LLMは2種類のトークンを並列にモデル化することができる: 声帯と伴奏の組み合わせによる声帯の調和を実現する混合トークンと、高品質な曲生成のための声帯と伴奏を別々にエンコードするデュアルトラックトークンである。
2つのデコーダのみのトランスフォーマーと、異なるトークンタイプ間の干渉を防ぐためのモジュール拡張トレーニング戦略を採用している。
そこで本研究では,DPO(Direct Preference Optimization)に基づくマルチパラメータアライメント手法を提案する。
この方法は、半自動データ構築プロセスとDPOポストトレーニングを通じて、多様な人間の嗜好を処理する。
実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
アブレーション研究は我々の設計の有効性をさらに正当化する。
オーディオサンプルはhttps://levo-demo.github.io/.com/で公開されている。
関連論文リスト
- FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - Make Some Noise: Towards LLM audio reasoning and generation using sound tokens [19.48089933713418]
本稿では,変分量子化とフローマッチングを組み合わせることで,音声を0.23kpbの超低離散トークンに変換する手法を提案する。
我々のトークン化器は、様々な音響イベントを持つ様々なデータセットで従来のVQ-VAEより優れています。
論文 参考訳(メタデータ) (2025-03-28T09:43:47Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Efficient Neural Music Generation [42.39082326446739]
本稿では,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D)を提案する。
MeLoDyは、マンティックモデリングのためにMusicLMから最高レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付きセマンティックトークンを波形に効率的に復号する。
論文 参考訳(メタデータ) (2023-05-25T05:02:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。