論文の概要: SongDriver: Real-time Music Accompaniment Generation without Logical
Latency nor Exposure Bias
- arxiv url: http://arxiv.org/abs/2209.06054v1
- Date: Tue, 13 Sep 2022 15:05:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 13:28:18.529393
- Title: SongDriver: Real-time Music Accompaniment Generation without Logical
Latency nor Exposure Bias
- Title(参考訳): songdriver: 論理遅延や露出バイアスのないリアルタイム音楽伴奏生成
- Authors: Zihao Wang, Kejun Zhang, Yuxing Wang, Chen Zhang, Qihao Liang, Pengfei
Yu, Yongsheng Feng, Wenbo Liu, Yikai Wang, Yuntai Bao, Yiheng Yang
- Abstract要約: SongDriverは論理遅延や露出バイアスのないリアルタイム音楽伴奏生成システムである。
SongDriverを、いくつかのオープンソースのデータセットと、中国風のモダンなポップミュージックスコアから構築されたオリジナルのaiSongデータセットでトレーニングします。
その結果,SongDriverは客観的および主観的指標の両方において既存のSOTAモデルよりも優れていた。
- 参考スコア(独自算出の注目度): 15.7153621508319
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Real-time music accompaniment generation has a wide range of applications in
the music industry, such as music education and live performances. However,
automatic real-time music accompaniment generation is still understudied and
often faces a trade-off between logical latency and exposure bias. In this
paper, we propose SongDriver, a real-time music accompaniment generation system
without logical latency nor exposure bias. Specifically, SongDriver divides one
accompaniment generation task into two phases: 1) The arrangement phase, where
a Transformer model first arranges chords for input melodies in real-time, and
caches the chords for the next phase instead of playing them out. 2) The
prediction phase, where a CRF model generates playable multi-track
accompaniments for the coming melodies based on previously cached chords. With
this two-phase strategy, SongDriver directly generates the accompaniment for
the upcoming melody, achieving zero logical latency. Furthermore, when
predicting chords for a timestep, SongDriver refers to the cached chords from
the first phase rather than its previous predictions, which avoids the exposure
bias problem. Since the input length is often constrained under real-time
conditions, another potential problem is the loss of long-term sequential
information. To make up for this disadvantage, we extract four musical features
from a long-term music piece before the current time step as global
information. In the experiment, we train SongDriver on some open-source
datasets and an original \`aiSong Dataset built from Chinese-style modern pop
music scores. The results show that SongDriver outperforms existing SOTA
(state-of-the-art) models on both objective and subjective metrics, meanwhile
significantly reducing the physical latency.
- Abstract(参考訳): リアルタイム音楽伴奏生成は、音楽教育やライブ演奏など、音楽産業に広く応用されている。
しかし、自動リアルタイム音楽伴奏生成はまだ未検討であり、論理遅延と露出バイアスのトレードオフに直面していることが多い。
本稿では,論理遅延や露出バイアスのないリアルタイム音楽伴奏生成システムであるSongDriverを提案する。
具体的には、SongDriverは1つの伴奏生成タスクを2つのフェーズに分割する。
1) 変圧器モデルが最初に入力メロディーの和音をリアルタイムに配置し、その和音を再生せずに次のフェーズにキャッシュする配置フェーズ。
2)CRFモデルは,予めキャッシュされたコードに基づいて,来るべきメロディの再生可能なマルチトラック伴奏を生成する。
この2フェーズ戦略により、SongDriverは、今後のメロディの伴奏を直接生成し、論理遅延をゼロにする。
さらに、SongDriverは、時間ステップのコードを予測する際に、前回の予測よりも第1フェーズからキャッシュされたコードを参照し、露出バイアスの問題を回避する。
入力長はしばしばリアルタイム条件下で制限されるため、もう一つの潜在的な問題は長期的なシーケンシャルな情報の損失である。
この欠点を補うために,長期的な音楽作品から,現在までの4つの音楽的特徴をグローバル情報として抽出する。
実験では、SongDriverをいくつかのオープンソースデータセットと、中国風のモダンなポップミュージックスコアから構築されたオリジナルの‘aiSong Dataset’でトレーニングする。
その結果,SongDriverは客観的および主観的指標の両方において既存のSOTAモデルよりも優れており,物理遅延は著しく減少することがわかった。
関連論文リスト
- Beat this! Accurate beat tracking without DBN postprocessing [4.440100868992127]
本研究では,多種多様な音楽範囲にまたがる一般性と高精度の2つの目標を用いて,ビートとダウンビートを追跡するシステムを提案する。
ソロ楽器録音や時間変化のある曲,テンポ変化の高いクラシック音楽など,複数のデータセットをトレーニングすることで,汎用性を実現する。
高精度にアノテーションの小さな時間シフトに耐性のある損失関数を開発し、周波数や時間とともに変換器と畳み込みを交互に行うアーキテクチャを開発した。
論文 参考訳(メタデータ) (2024-07-31T14:59:17Z) - BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。
提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。
短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation [138.74751744348274]
本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
論文 参考訳(メタデータ) (2022-10-19T07:31:56Z) - Musika! Fast Infinite Waveform Music Generation [0.0]
Musikaは、何百時間もの音楽を、単一の消費者向けGPUを使って訓練できる音楽生成システムだ。
まず、逆自己エンコーダを用いて分光器の大きさと位相のコンパクトな可逆表現を学習する。
潜在座標系は任意の長さの抜粋列を並列に生成することができ、一方、グローバルな文脈ベクトルは、時間を通してスタイリスティックに整合性を保つことができる。
論文 参考訳(メタデータ) (2022-08-18T08:31:15Z) - Re-creation of Creations: A New Paradigm for Lyric-to-Melody Generation [158.54649047794794]
Re-creation of Creations (ROC)は、歌詞からメロディ生成のための新しいパラダイムである。
ROCは、Lyric-to-Meody生成において、優れたLyric-Meody特徴アライメントを実現する。
論文 参考訳(メタデータ) (2022-08-11T08:44:47Z) - Multitrack Music Transformer [36.91519546327085]
短いシーケンス長を維持しながら多様な楽器のセットを表現できる新しいマルチトラック音楽表現を提案する。
提案するMultitrack Music Transformer (MMT) は,最先端システムと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-07-14T15:06:37Z) - Differential Music: Automated Music Generation Using LSTM Networks with
Representation Based on Melodic and Harmonic Intervals [0.0]
本稿では,LSTMネットワークを用いた自動作曲のための生成AIモデルを提案する。
絶対的なピッチではなく音楽の動きに基づく音楽情報の符号化に新しいアプローチをとる。
実験結果は、音楽やトーンを聴くと約束を示す。
論文 参考訳(メタデータ) (2021-08-23T23:51:08Z) - Melody-Conditioned Lyrics Generation with SeqGANs [81.2302502902865]
本稿では,SeqGAN(Sequence Generative Adversarial Networks)に基づく,エンドツーエンドのメロディ条件付き歌詞生成システムを提案する。
入力条件が評価指標に悪影響を及ぼすことなく,ネットワークがより有意義な結果が得られることを示す。
論文 参考訳(メタデータ) (2020-10-28T02:35:40Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。