論文の概要: Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints
- arxiv url: http://arxiv.org/abs/2604.18489v1
- Date: Mon, 20 Apr 2026 16:40:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:53.00115
- Title: Aligning Language Models for Lyric-to-Melody Generation with Rule-Based Musical Constraints
- Title(参考訳): 規則に基づく音楽制約を用いたLyric-to-Melody生成のための調整言語モデル
- Authors: Hao Meng, Siyuan Zheng, Shuran Zhou, Qiangqiang Wang, Yang Song,
- Abstract要約: 大規模言語モデル(LLM)は、歌詞からメロディ生成において有望であるが、スーパーバイザード・ファイン・チューニング(SFT)で訓練されたモデルは、しばしば不明瞭なメロディを生成する。
人間のアノテーションを使わずに音楽的知識を補う新しいアライメントフレームワークを提案する。
- 参考スコア(独自算出の注目度): 9.07848158346737
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) show promise in lyric-to-melody generation, but models trained with Supervised Fine-Tuning (SFT) often produce musically implausible melodies with issues like poor rhythm and unsuitable vocal ranges, a phenomenon we term "constraint violation". To address this, we propose a novel alignment framework that instills musical knowledge without human annotation. We define rule-based musical constraints to automatically generate a preference dataset from an SFT model's outputs. The model is then aligned through a sequential process, first using Direct Preference Optimization (DPO) on paired preference data, followed by Kahneman-Tversky Optimization (KTO) on unpaired negative samples. Experimental results demonstrate that our aligned model substantially reduces rule violations and outperforms strong baselines in both objective and subjective evaluations, generating melodies with substantially improved musicality and coherence. An interactive demo with audio comparisons is available at https://arain233.github.io/AligningMelody-demo.
- Abstract(参考訳): 大規模言語モデル(LLM)は、歌詞からメロディ生成において有望であるが、スーパーバイザード・ファイン・チューニング(SFT)で訓練されたモデルは、低調なリズムや不適切な発声域といった問題を伴って音楽的に不明瞭な旋律をしばしば生み出す。
そこで本研究では,人間のアノテーションを使わずに音楽的知識を取り入れたアライメントフレームワークを提案する。
規則に基づく音楽制約を定義し、SFTモデルの出力から選好データセットを自動的に生成する。
その後、モデルはシーケンシャルなプロセスによって整列され、まずペアの選好データに直接選好最適化(DPO)を使用し、続いて、未ペアの負のサンプルにカーネマン・トヴェルスキー最適化(KTO)を用いる。
実験結果から,アライメントモデルはルール違反を大幅に低減し,主観的評価と主観的評価の両方において強いベースラインを上回り,音楽性とコヒーレンスを著しく改善したメロディを生成することが示された。
オーディオ比較によるインタラクティブなデモはhttps://arain233.github.io/AligningMelody-demoで公開されている。
関連論文リスト
- Towards Effective Negation Modeling in Joint Audio-Text Models for Music [3.7723788828505125]
共同音声テキストモデルは否定のような意味的な現象と競合する。
テキスト拡張による否定と異種性に基づくコントラスト損失を導入する。
本稿では,検索および二項分類タスクとして,否定モデリングをフレーム化する2つのプロトコルを提案する。
論文 参考訳(メタデータ) (2026-01-20T13:06:48Z) - YingMusic-Singer: Zero-shot Singing Voice Synthesis and Editing with Annotation-free Melody Guidance [16.462715982402884]
SVS(Singing Voice Synthesis)は、音素レベルの正確なアライメントに強く依存しているため、実際の展開には制約が残っている。
メロディに追従した任意の歌詞を合成できるメロディ駆動のSVSフレームワークを提案する。
提案手法は,Diffusion Transformer (DiT) アーキテクチャ上に構築され,メロディ抽出モジュールに拡張されている。
論文 参考訳(メタデータ) (2025-12-04T13:25:33Z) - JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment [26.590667516155083]
拡散モデルとフローマッチングモデルは、自動テキスト・オーディオ生成に革命をもたらした。
近年のオープン・ソング・トゥ・ソング・モデルは、レクリエーション用の自動曲生成において受け入れられる標準となっている。
フローマッチングに基づくJAMは,曲生成における単語レベルのタイミングと持続時間制御を実現するための最初の試みである。
論文 参考訳(メタデータ) (2025-07-28T14:34:02Z) - LeVo: High-Quality Song Generation with Multi-Preference Alignment [47.965028296133426]
我々はLeLMとMusic Codecで構成される言語モデルベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデリングすることができる。
2つのデコーダのみのトランスフォーマーと、異なるトークンタイプ間の干渉を防ぐためのモジュール拡張トレーニング戦略を採用している。
論文 参考訳(メタデータ) (2025-06-09T07:57:24Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。