論文の概要: JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment
- arxiv url: http://arxiv.org/abs/2507.20880v1
- Date: Mon, 28 Jul 2025 14:34:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:58.160361
- Title: JAM: A Tiny Flow-based Song Generator with Fine-grained Controllability and Aesthetic Alignment
- Title(参考訳): JAM:細粒度制御と美的アライメントを備えた細いフローベースソングジェネレータ
- Authors: Renhang Liu, Chia-Yu Hung, Navonil Majumder, Taylor Gautreaux, Amir Ali Bagherzadeh, Chuan Li, Dorien Herremans, Soujanya Poria,
- Abstract要約: 拡散モデルとフローマッチングモデルは、自動テキスト・オーディオ生成に革命をもたらした。
近年のオープン・ソング・トゥ・ソング・モデルは、レクリエーション用の自動曲生成において受け入れられる標準となっている。
フローマッチングに基づくJAMは,曲生成における単語レベルのタイミングと持続時間制御を実現するための最初の試みである。
- 参考スコア(独自算出の注目度): 26.590667516155083
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Diffusion and flow-matching models have revolutionized automatic text-to-audio generation in recent times. These models are increasingly capable of generating high quality and faithful audio outputs capturing to speech and acoustic events. However, there is still much room for improvement in creative audio generation that primarily involves music and songs. Recent open lyrics-to-song models, such as, DiffRhythm, ACE-Step, and LeVo, have set an acceptable standard in automatic song generation for recreational use. However, these models lack fine-grained word-level controllability often desired by musicians in their workflows. To the best of our knowledge, our flow-matching-based JAM is the first effort toward endowing word-level timing and duration control in song generation, allowing fine-grained vocal control. To enhance the quality of generated songs to better align with human preferences, we implement aesthetic alignment through Direct Preference Optimization, which iteratively refines the model using a synthetic dataset, eliminating the need or manual data annotations. Furthermore, we aim to standardize the evaluation of such lyrics-to-song models through our public evaluation dataset JAME. We show that JAM outperforms the existing models in terms of the music-specific attributes.
- Abstract(参考訳): 拡散・流れマッチングモデルは近年,音声自動生成に革命をもたらした。
これらのモデルでは、高品質で忠実な音声出力を音声や音響イベントに記録する能力が高まっている。
しかし、音楽や曲を主とするクリエイティブなオーディオ生成には、まだまだ多くの改善の余地がある。
近年、DiffRhythm、ACE-Step、LeVoといった歌詞から歌へのオープンなモデルが、レクリエーション用に自動曲生成の標準として受け入れられている。
しかし、これらのモデルは、ミュージシャンがワークフローでしばしば望む、きめ細かい単語レベルの制御性に欠ける。
我々の知識を最大限に活用するために、私たちのフローマッチングベースのJAMは、歌唱における単語レベルのタイミングと持続時間制御を実現するための最初の取り組みであり、きめ細かい発声制御を可能にする。
生成した楽曲の質を向上し、人間の好みに合うようにするため、直接選好最適化(Direct Preference Optimization)を用いて美的アライメントを実装し、合成データセットを用いてモデルを反復的に洗練し、必要や手動データアノテーションを不要にする。
さらに,我々の公開評価データセットであるJAMEを用いて,歌詞合成モデルの評価を標準化することを目的とする。
JAMは、音楽固有の属性の観点から、既存のモデルよりも優れていることを示す。
関連論文リスト
- Diff-TONE: Timestep Optimization for iNstrument Editing in Text-to-Music Diffusion Models [13.29289368130043]
本稿では,既存のテキスト・音楽拡散モデルの楽器編集への応用について検討する。
具体的には、既存のオーディオトラックに対して、事前訓練されたテキストから音楽への拡散モデルを利用して、基礎となるコンテンツを保存しながら、楽器を編集することを目的とする。
本手法では,テキストから音楽への拡散モデルのさらなる学習は必要とせず,生成過程の速度を損なうこともない。
論文 参考訳(メタデータ) (2025-06-18T15:01:25Z) - LeVo: High-Quality Song Generation with Multi-Preference Alignment [49.94713419553945]
本稿では、LLMと音楽伴奏からなるLMベースのフレームワークであるLeVoを紹介する。
LeVoは2種類のトークンを並列にモデル化することができる: 混合トークンは声帯の合成音声を表し、声帯と伴奏を別々にエンコードする二重トラックトークンである。
実験の結果,LeVoは客観的指標と主観的指標の両方において,既存の手法よりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-06-09T07:57:24Z) - InspireMusic: Integrating Super Resolution and Large Language Model for High-Fidelity Long-Form Music Generation [43.690876909464336]
InspireMusicは,高忠実度長大な音楽生成のためのフレームワーク統合スーパーレゾリューションと大規模言語モデルである。
統合されたフレームワークは、超解像フローマッチングモデルを備えた自己回帰変換器を組み込んだ高忠実な音楽、歌、オーディオを生成する。
我々のモデルは、よりリッチなセマンティック情報を含む1つのコードブックを持つオーディオトークンーを使用するため、従来のアプローチと異なる。
論文 参考訳(メタデータ) (2025-02-28T09:58:25Z) - Diff-A-Riff: Musical Accompaniment Co-creation via Latent Diffusion Models [0.0]
ディフ・A・リフ(Diff-A-Riff)は、あらゆる音楽的文脈に適応する高品質な楽器を生成するために設計された潜在拡散モデルである。
48kHzの擬似ステレオオーディオを生成し、推論時間とメモリ使用量を大幅に削減する。
論文 参考訳(メタデータ) (2024-06-12T16:34:26Z) - Audiobox: Unified Audio Generation with Natural Language Prompts [37.39834044113061]
本稿では,様々な音響モダリティを生成可能なフローマッチングに基づく統一モデルであるAudioboxを提案する。
我々は、制御性を高め、音声および音声生成パラダイムを統一するために、記述ベースおよび例ベースプロンプトを設計する。
Audioboxは、音声と音声の生成に関する新しいベンチマークを設定し、新しい音声と音響のスタイルで音声を生成する新しいメソッドをアンロックする。
論文 参考訳(メタデータ) (2023-12-25T22:24:49Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。