論文の概要: LeVo: High-Quality Song Generation with Multi-Preference Alignment
- arxiv url: http://arxiv.org/abs/2506.07520v3
- Date: Thu, 23 Oct 2025 12:07:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:07.728634
- Title: LeVo: High-Quality Song Generation with Multi-Preference Alignment
- Title(参考訳): LeVo:マルチパラメータアライメントによる高品質ソング生成
- Authors: Shun Lei, Yaoxun Xu, Zhiwei Lin, Huaicheng Zhang, Wei Tan, Hangting Chen, Jianwei Yu, Yixuan Zhang, Chenyu Yang, Haina Zhu, Shuai Wang, Zhiyong Wu, Dong Yu,
- Abstract要約: 我々はLeLMとMusic Codecで構成される言語モデルベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデリングすることができる。
2つのデコーダのみのトランスフォーマーと、異なるトークンタイプ間の干渉を防ぐためのモジュール拡張トレーニング戦略を採用している。
- 参考スコア(独自算出の注目度): 47.965028296133426
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large language models (LLMs) and audio language models have significantly improved music generation, particularly in lyrics-to-song generation. However, existing approaches still struggle with the complex composition of songs and the scarcity of high-quality data, leading to limitations in audio quality, musicality, instruction following, and vocal-instrument harmony. To address these challenges, we introduce LeVo, a language model based framework consisting of LeLM and Music Codec. LeLM is capable of parallel modeling of two types of tokens: mixed tokens, which represent the combined audio of vocals and accompaniment to achieve better vocal-instrument harmony, and dual-track tokens, which separately encode vocals and accompaniment for high-quality song generation. It employs two decoder-only transformers and a modular extension training strategy to prevent interference between different token types. To further enhance musicality and instruction following ability, we introduce a multi-preference alignment method based on Direct Preference Optimization (DPO). This method handles diverse human preferences through a semi-automatic data construction process and post-training. Experimental results demonstrate that LeVo significantly outperforms existing open-source methods in both objective and subjective metrics, while performing competitively with industry systems. Ablation studies further justify the effectiveness of our designs. Audio examples and source code are available at https://levo-demo.github.io and https://github.com/tencent-ailab/songgeneration.
- Abstract(参考訳): 大規模言語モデル(LLM)や音声言語モデルの最近の進歩は、特に歌詞から歌への生成において、音楽生成を著しく改善している。
しかし、既存のアプローチは、曲の複雑な構成と高品質なデータの不足に苦慮しており、音質、音楽性、指示の追従、発声の調和の制限につながっている。
これらの課題に対処するため,LLMとMusic Codecで構成される言語モデルベースのフレームワークであるLeVoを紹介した。
LLMは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯と伴奏の複合音声を表現し、より良い声帯の調和を実現する。
2つのデコーダのみのトランスフォーマーと、異なるトークンタイプ間の干渉を防ぐためのモジュール拡張トレーニング戦略を採用している。
そこで本研究では,DPO(Direct Preference Optimization)に基づくマルチパラメータアライメント手法を提案する。
この方法は、半自動データ構築プロセスと後学習を通じて、多様な人間の嗜好を処理する。
実験の結果,LeVoは,産業システムと競合しながら,客観的,主観的両方の指標において,既存のオープンソース手法を著しく上回っていることがわかった。
アブレーション研究は我々の設計の有効性をさらに正当化する。
オーディオサンプルとソースコードはhttps://levo-demo.github.io and https://github.com/tencent-ailab/songgeneration.comで公開されている。
関連論文リスト
- FlowDubber: Movie Dubbing with LLM-based Semantic-aware Learning and Flow Matching based Voice Enhancing [78.83988199306901]
Movie Dubbingは、スクリプトを、時間的および感情的な両方の面において、所定の映画クリップと整合するスピーチに変換することを目的としている。
既存の手法は、リップシンクと音響品質の重要性を無視しながら、単語エラー率の低減に重点を置いている。
本研究では,大言語モデルと二重コントラスト整合を組み込むことで,高品質な音声・視覚同期と発音を実現するFlowDubberを提案する。
論文 参考訳(メタデータ) (2025-05-02T13:30:19Z) - Make Some Noise: Towards LLM audio reasoning and generation using sound tokens [19.48089933713418]
本稿では,変分量子化とフローマッチングを組み合わせることで,音声を0.23kpbの超低離散トークンに変換する手法を提案する。
我々のトークン化器は、様々な音響イベントを持つ様々なデータセットで従来のVQ-VAEより優れています。
論文 参考訳(メタデータ) (2025-03-28T09:43:47Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - C3LLM: Conditional Multimodal Content Generation Using Large Language Models [66.11184017840688]
C3LLMは,ビデオ・トゥ・オーディオ,音声・テキスト,テキスト・トゥ・オーディオの3つのタスクを組み合わせた新しいフレームワークである。
C3LLMはLarge Language Model (LLM) 構造を異なるモダリティを整列するためのブリッジとして適合させる。
本手法は,従来の音声理解,ビデオ音声生成,テキスト音声生成のタスクを1つの統一モデルに統合する。
論文 参考訳(メタデータ) (2024-05-25T09:10:12Z) - MusicLDM: Enhancing Novelty in Text-to-Music Generation Using
Beat-Synchronous Mixup Strategies [32.482588500419006]
我々は,静的拡散とAudioLDMアーキテクチャを音楽領域に適応させる,最先端のテキスト・音楽モデルMusicLDMを構築した。
我々は、ビート同期オーディオミキサップとビート同期潜在ミキサップという、データ拡張のための2つの異なるミックスアップ戦略を提案する。
一般的な評価指標に加えて,CLAPスコアに基づくいくつかの新しい評価指標を設計し,提案したMusicLDMとビート同期ミックスアップ手法が生成した楽曲の品質とノベルティの両方を改善することを示す。
論文 参考訳(メタデータ) (2023-08-03T05:35:37Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Efficient Neural Music Generation [42.39082326446739]
本稿では,最先端品質の音楽オーディオを生成するLM誘導拡散モデルであるMeLoDy(音楽用M,LM用L,拡散用D)を提案する。
MeLoDyは、マンティックモデリングのためにMusicLMから最高レベルのLMを継承し、新しいデュアルパス拡散(DPD)モデルとオーディオVAE-GANを適用して、条件付きセマンティックトークンを波形に効率的に復号する。
論文 参考訳(メタデータ) (2023-05-25T05:02:35Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。