論文の概要: SegTune: Structured and Fine-Grained Control for Song Generation
- arxiv url: http://arxiv.org/abs/2606.02638v1
- Date: Sun, 31 May 2026 06:01:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.480267
- Title: SegTune: Structured and Fine-Grained Control for Song Generation
- Title(参考訳): SegTune: 楽曲生成のための構造と微粒化制御
- Authors: Yuejiao Wang, Zihao Ji, Pengfei Cai, Xu Li, Haorui Zheng, Zewen Song, Zhongliang Liu, Chen Zhang, Pengfei Wan,
- Abstract要約: SegTuneは、ユーザまたは大規模言語モデルが、曲セグメントに整列したローカル音楽記述を指定できるようにすることにより、構造化されきめ細かな制御性を実現するフレームワークである。
本稿では,LyRiCs形式で文レベルのタイムスタンプを自動生成するLLMベースの時間予測器を提案する。
実験により、SegTuneは音楽性と制御性の両方において既存のベースラインを上回っていることが示された。
- 参考スコア(独自算出の注目度): 14.163418396278137
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in neural song generation have enabled high-quality synthesis from lyrics and global textual prompts. However, most systems fail to model temporally varying attributes of songs, severely limiting fine-grained control over musical structure and dynamics. To address this, we propose SegTune, a Diffusion Transformer-based framework enabling structured and fine-grained controllability by allowing users or large language models (LLMs) to specify local musical descriptions aligned to song segments. These segment prompts are temporally broadcast to corresponding time windows, while global prompts ensure stylistic coherence. To support precise lyric-to-music alignment, we introduce an LLM-based duration predictor that autoregressively generates sentence-level timestamps in LyRiCs format. We further construct a large-scale data pipeline for high-quality song collection with aligned lyrics and prompts, and propose new metrics to evaluate segment alignment and vocal consistency. Experiments demonstrate that SegTune outperforms existing baselines in both musicality and controllability. Visit our project page (https://github.com/KlingAIResearch/SegTune) for codes and more generated songs.
- Abstract(参考訳): ニューラルソング生成の最近の進歩は、歌詞やグローバルテキストのプロンプトから高品質な合成を可能にしている。
しかし、ほとんどのシステムは時間的に異なる曲の属性をモデル化することができず、音楽構造やダイナミクスに対するきめ細かい制御を著しく制限している。
そこで我々は,Diffusion TransformerベースのフレームワークであるSegTuneを提案し,ユーザや大規模言語モデル(LLM)が楽曲セグメントに整合した局所的な音楽記述を指定できるようにすることにより,構造化されたきめ細かな制御性を実現する。
これらのセグメントプロンプトは時間的に対応するタイムウィンドウにブロードキャストされ、グローバルプロンプトはスタイリスティックなコヒーレンスを保証する。
本稿では,LyRiCs形式で文レベルのタイムスタンプを自動生成するLLMベースの時間予測器を提案する。
さらに、歌詞とプロンプトを一致させた高品質な楽曲コレクションのための大規模データパイプラインを構築し、セグメントアライメントと声質整合性を評価するための新しい指標を提案する。
実験により、SegTuneは音楽性と制御性の両方において既存のベースラインを上回っていることが示された。
私たちのプロジェクトページ(https://github.com/KlingAIResearch/SegTune)を参照してください。
関連論文リスト
- VocalParse: Towards Unified and Scalable Singing Voice Transcription with Large Audio Language Models [45.70355425430011]
LALM(Large Audio Language Model)上に構築されたSVTモデルであるVocalParseについて述べる。
我々の新しい貢献は、歌詞、メロディ、音符対応を共同でモデル化し、構造化された楽譜に直接マッピングする生成シーケンスを生成するインターリーブ・プロンプト・フォーミュレーションの導入である。
実験では、VocalParseが複数の歌唱データセット上で最先端のSVTパフォーマンスを達成することを示した。
論文 参考訳(メタデータ) (2026-05-06T08:03:31Z) - Versatile Framework for Song Generation with Prompt-based Control [58.5703732639141]
VersBandは、高品質でアライメントのある曲をプロンプトベースのコントロールで合成するためのフレームワークである。
分離されたモデルであるVocalBandは、歌唱スタイル、ピッチ、メル-スペクトログラムを生成するためのフローマッチング手法を利用している。
フローベースのトランスフォーマーモデルであるAccompBandは、Band-MOEを取り入れ、品質、アライメント、制御の強化に適した専門家を選択する。
歌詞用LyricBandとメロディー用MelodyBandの2世代モデルは、総合的なマルチタスク・ソング生成システムに貢献している。
論文 参考訳(メタデータ) (2025-04-27T01:00:06Z) - CSL-L2M: Controllable Song-Level Lyric-to-Melody Generation Based on Conditional Transformer with Fine-Grained Lyric and Musical Controls [28.13660104055298]
CSL-L2Mは、インアテンショントランスフォーマーデコーダに基づく、制御可能な歌声レベル・歌詞・メロディ生成法である。
REMI-Alignedは、歌詞と旋律の間の厳格な音節と文レベルのアライメントを含む新しい音楽表現である。
事前学習したVQ-VAEから抽出した人間のラベル付き音楽タグ、文レベルの統計的音楽属性、学習された音楽特徴について紹介する。
論文 参考訳(メタデータ) (2024-12-13T06:05:53Z) - Futga: Towards Fine-grained Music Understanding through Temporally-enhanced Generative Augmentation [18.12051302437043]
本稿では,時間的構成による生成的拡張から学習することで,微粒化音楽理解機能を備えたモデルを提案する。
既存の音楽キャプションデータセットと大言語モデル(LLM)を利用して、フル長曲の詳細な音楽キャプションを構造記述と時間境界で合成する。
論文 参考訳(メタデータ) (2024-07-29T22:53:32Z) - MusiConGen: Rhythm and Chord Control for Transformer-Based Text-to-Music Generation [19.878013881045817]
MusiConGenは、一時条件付きトランスフォーマーベースのテキスト-音楽モデルである。
条件信号として自動的に抽出されたリズムとコードを統合する。
MusiConGenは,特定の条件に整合したリアルなバックトラック音楽を生成することができることを示す。
論文 参考訳(メタデータ) (2024-07-21T05:27:53Z) - Singing-Tacotron: Global duration control attention and dynamic filter
for End-to-end singing voice synthesis [67.96138567288197]
本稿では,歌声合成フレームワークSinging-Tacotronを提案する。
提案フレームワークとTacotronの主な違いは、音声が楽譜の持続時間情報によって大きく制御できる点である。
論文 参考訳(メタデータ) (2022-02-16T07:35:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。