論文の概要: SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling
- arxiv url: http://arxiv.org/abs/2606.03169v1
- Date: Tue, 02 Jun 2026 05:27:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.724145
- Title: SketchSong: Hierarchical Song Generation with Sketch Planning and Fine-Grained Multi-Track Modeling
- Title(参考訳): SketchSong: スケッチプランニングとファイングラインドマルチトラックモデリングによる階層的歌曲生成
- Authors: Xiaoyue Duan, Nanxing Hu, Yutang Feng, Xudong Yan, Jiatao Chen, Jinchao Zhang, Jie Zhou,
- Abstract要約: SketchSongは階層的な曲生成フレームワークで、曲レベルのスケッチ計画ときめ細かいマルチトラックモデリングを通じて問題に対処する。
トラックディメンションに沿って、SketchSongはボーカル、ベース、ドラム、その他の楽器の4つのトラックを明示的にモデル化している。
楽曲生成ベンチマークの実験では、SketchSongは客観的な測定値と人間の聴取テストの両方でベースラインを一貫して上回っている。
- 参考スコア(独自算出の注目度): 21.874594911334285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent song generation systems can synthesize realistic audio, yet generating complete songs remains challenging for two reasons. First, explicit song-level arrangement planning remains limited in existing methods, so models often need to organize overall arrangement development while generating low-level audio details. This often leads to incoherence in arrangements, such as weak section transitions and limited dynamic progression. Second, coarse modeling of different musical parts obscures their distinct roles and interactions, limiting arrangement richness of generated songs. In this paper, we present SketchSong, a hierarchical song generation framework that addresses these issues through song-level sketch planning and fine-grained multi-track modeling. Along the temporal dimension, SketchSong first predicts a compact sequence of high-level sketch tokens derived from compressed audio representations, and then generates audio tokens conditioned on these sketches. This coarse-to-fine process gives the model an explicit arrangement plan before detailed audio generation. Along the track dimension, SketchSong explicitly models four tracks, i.e., vocals, bass, drums and other instruments. This enables the model to capture the roles and interactions of different musical parts more precisely. Experiments on song generation benchmarks show that SketchSong consistently outperforms our baseline on both objective metrics and human listening tests. Despite not employing additional post-training for preference optimization such as lyrics and text-prompt alignments, SketchSong achieves competitive results against strong, post-trained open-source systems, demonstrating the effectiveness of our overall design.
- Abstract(参考訳): 最近の曲生成システムは現実的な音声を合成できるが、完全な曲を生成することは2つの理由から困難である。
まず、既存の方法では明確な曲レベルのアレンジプランニングが限定されているため、低レベルのオーディオ情報を生成しながら、全体的なアレンジメント開発を組織化する必要があることが多い。
これはしばしば、弱い部分遷移や制限された動的進行のような配列の不整合をもたらす。
第二に、異なる音楽部分の粗いモデリングは、それぞれの異なる役割と相互作用を曖昧にし、生成された曲の配置の豊かさを制限する。
本稿では,これらの問題に対処する階層的な楽曲生成フレームワークであるSketchSongを紹介する。
時間次元に沿って、SketchSongはまず圧縮された音声表現から派生した高レベルのスケッチトークンのコンパクトなシーケンスを予測し、次にこれらのスケッチに条件付きオーディオトークンを生成する。
この粗大な処理により、詳細なオーディオ生成の前に、モデルを明示的なアレンジメント計画を与える。
トラックディメンションに沿って、SketchSongはボーカル、ベース、ドラム、その他の楽器の4つのトラックを明示的にモデル化している。
これにより、異なる音楽部品の役割や相互作用をより正確に捉えることができる。
楽曲生成ベンチマークの実験では、SketchSongは客観的な測定値と人間の聴取テストの両方でベースラインを一貫して上回っている。
歌詞やテキスト・プロンプトのアライメントなど、好みの最適化に追加のトレーニング後最適化を採用していないにも関わらず、SketchSongは、強力なポストトレーニング後のオープンソースシステムに対する競合的な結果を達成し、全体的な設計の有効性を実証している。
関連論文リスト
- Muse: Towards Reproducible Long-Form Song Generation with Fine-Grained Style Control [66.46754271097555]
我々は, きめ細かなスタイル条件付き長大な楽曲生成のための, 完全オープンソースシステムをリリースする。
データセットは116kの完全ライセンスの合成曲で構成され、自動生成の歌詞とスタイル記述がある。
我々は、個別の音声トークンで拡張されたQwenベースの言語モデルの単一ステージ教師付き微調整によりMuseを訓練する。
論文 参考訳(メタデータ) (2026-01-07T14:40:48Z) - SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。
音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。
コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文 参考訳(メタデータ) (2025-02-18T18:52:21Z) - Unifying Symbolic Music Arrangement: Track-Aware Reconstruction and Structured Tokenization [19.27890803128116]
自動マルチトラック音楽アレンジメントのための統合フレームワークを提案する。
中心となるのは、トークンレベルのアンタングルされたコンテンツとスタイルで動作するセグメントレベルの再構築目標である。
トラックワイズ・モデリングを支援するため,マルチトラック・シンボリック・ミュージックのための構造化トークン化手法であるREMI-zを導入する。
論文 参考訳(メタデータ) (2024-08-27T16:18:51Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。
本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。
提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - Music SketchNet: Controllable Music Generation via Factorized
Representations of Pitch and Rhythm [42.694266687511906]
Music SketchNetは、ユーザーが自動音楽生成を導く部分的な音楽アイデアを指定できるニューラルネットワークフレームワークである。
我々は、周囲の環境に配慮した不完全なモノフォニック音楽作品の欠落対策の作成に焦点をあてる。
生成プロセス中にユーザ指定スニペットをうまく組み込むことができることを示す。
論文 参考訳(メタデータ) (2020-08-04T02:49:57Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。