論文の概要: Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation
- arxiv url: http://arxiv.org/abs/2508.01394v1
- Date: Sat, 02 Aug 2025 14:58:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-05 18:25:21.858916
- Title: Via Score to Performance: Efficient Human-Controllable Long Song Generation with Bar-Level Symbolic Notation
- Title(参考訳): 演奏のスコア:バーレベル記号表記による効率的な人間制御可能な長音生成
- Authors: Tongxi Wang, Yang Yu, Qing Wang, Junlang Qian,
- Abstract要約: 曲生成は音楽AIGCにおいて最も難しい問題とみなされている。
本稿では,人間編集可能なシンボリックスコアを用いた楽曲生成のための最初のモデルであるBar-level AI Composing Helper(BACH)を提案する。
BACHは、階層的な歌の構造に合わせて、トークン化戦略と象徴的な生成手順を導入する。
- 参考スコア(独自算出の注目度): 5.793988399290161
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Song generation is regarded as the most challenging problem in music AIGC; nonetheless, existing approaches have yet to fully overcome four persistent limitations: controllability, generalizability, perceptual quality, and duration. We argue that these shortcomings stem primarily from the prevailing paradigm of attempting to learn music theory directly from raw audio, a task that remains prohibitively difficult for current models. To address this, we present Bar-level AI Composing Helper (BACH), the first model explicitly designed for song generation through human-editable symbolic scores. BACH introduces a tokenization strategy and a symbolic generative procedure tailored to hierarchical song structure. Consequently, it achieves substantial gains in the efficiency, duration, and perceptual quality of song generation. Experiments demonstrate that BACH, with a small model size, establishes a new SOTA among all publicly reported song generation systems, even surpassing commercial solutions such as Suno. Human evaluations further confirm its superiority across multiple subjective metrics.
- Abstract(参考訳): 楽曲生成は音楽AIGCにおいて最も難しい問題とされているが、既存のアプローチでは制御可能性、一般化可能性、知覚品質、持続時間という4つの制約を完全に克服していない。
これらの欠点は、生音声から直接音楽理論を学習しようとするという一般的なパラダイムに起因している、と我々は主張する。
そこで本研究では,人間編集可能なシンボリックスコアを用いた楽曲生成のための最初のモデルであるBar-level AI Composing Helper(BACH)を提案する。
BACHは、階層的な歌の構造に合わせて、トークン化戦略と象徴的な生成手順を導入する。
これにより、曲生成の効率、持続時間、知覚的品質においてかなりの向上を達成できる。
実験により、BACHはモデルのサイズが小さいため、スノなどの商業的ソリューションを超越した楽曲生成システムの中で新たなSOTAを確立していることが示された。
人間の評価は、複数の主観的指標にまたがってその優位性をさらに確認する。
関連論文リスト
- Scaling Self-Supervised Representation Learning for Symbolic Piano Performance [52.661197827466886]
本研究では,多量のシンボリック・ピアノ転写を訓練した自己回帰型トランスフォーマモデルの能力について検討した。
比較的小型で高品質なサブセットをファインチューンモデルに使い、音楽の継続を生成、シンボリックな分類タスクを実行し、汎用的なコントラストMIDI埋め込みを生成する。
論文 参考訳(メタデータ) (2025-06-30T14:00:14Z) - An End-to-End Approach for Chord-Conditioned Song Generation [14.951089833579063]
歌唱課題は、歌詞から声楽と伴奏からなる音楽を合成することを目的としている。
この問題を軽減するため,コードから曲生成ネットワークまで,音楽作曲から重要な概念を導入する。
そこで本研究では,CSG(Chord-Conditioned Song Generator)と呼ばれる新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-09-10T08:07:43Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - MuDiT & MuSiT: Alignment with Colloquial Expression in Description-to-Song Generation [18.181382408551574]
本稿では,口語記述から歌声生成への新たな課題を提案する。
生成されたコンテンツと口語的人間の表現の整合性に焦点を当てている。
この課題は、AIモデル内の言語理解と聴覚表現のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2024-07-03T15:12:36Z) - JEN-1 Composer: A Unified Framework for High-Fidelity Multi-Track Music Generation [18.979064278674276]
JEN-1 Composerは、マルチトラック音楽上での限界分布、条件分布、共同分布を効率的にモデル化するように設計されている。
本研究では、段階的なカリキュラム学習戦略を導入し、段階的に訓練作業の難しさを増大させる。
提案手法は,制御可能かつ高忠実なマルチトラック音楽合成における最先端性能を示す。
論文 参考訳(メタデータ) (2023-10-29T22:51:49Z) - MARBLE: Music Audio Representation Benchmark for Universal Evaluation [79.25065218663458]
我々は,UniversaL Evaluation(MARBLE)のための音楽音響表現ベンチマークを紹介する。
音響、パフォーマンス、スコア、ハイレベルな記述を含む4つの階層レベルを持つ包括的分類を定義することで、様々な音楽情報検索(MIR)タスクのベンチマークを提供することを目的としている。
次に、8つの公開データセット上の14のタスクに基づいて統一されたプロトコルを構築し、ベースラインとして音楽録音で開発されたすべてのオープンソース事前学習モデルの表現を公平かつ標準的に評価する。
論文 参考訳(メタデータ) (2023-06-18T12:56:46Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - MERT: Acoustic Music Understanding Model with Large-Scale Self-supervised Training [74.32603591331718]
本稿では,MLMスタイルの音響事前学習において,教師モデルと擬似ラベルを組み込んだ大規模自己教師型学習(MERT)を用いた音響音楽理解モデルを提案する。
実験結果から,本モデルでは14曲の楽曲理解タスクを一般化し,性能を向上し,SOTA(State-of-the-art)全体のスコアを達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T18:27:43Z) - Generating music with sentiment using Transformer-GANs [0.0]
本研究では,人間の感情から得られるデータによって条件付けられた記号音楽の生成モデルを提案する。
我々は,効率の良い線形バージョンの注意と識別器を用いることで,上記の問題に対処しようと試みている。
論文 参考訳(メタデータ) (2022-12-21T15:59:35Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。