論文の概要: Symphony Generation with Permutation Invariant Language Model
- arxiv url: http://arxiv.org/abs/2205.05448v1
- Date: Tue, 10 May 2022 13:08:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-12 18:12:21.862865
- Title: Symphony Generation with Permutation Invariant Language Model
- Title(参考訳): 置換不変言語モデルを用いたシンフォニー生成
- Authors: Jiafeng Liu, Yuanliang Dong, Zehua Cheng, Xinran Zhang, Xiaobing Li,
Feng Yu and Maosong Sun
- Abstract要約: 変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
- 参考スコア(独自算出の注目度): 57.75739773758614
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we present a symbolic symphony music generation solution,
SymphonyNet, based on a permutation invariant language model. To bridge the gap
between text generation and symphony generation task, we propose a novel
Multi-track Multi-instrument Repeatable (MMR) representation with particular
3-D positional embedding and a modified Byte Pair Encoding algorithm (Music
BPE) for music tokens. A novel linear transformer decoder architecture is
introduced as a backbone for modeling extra-long sequences of symphony tokens.
Meanwhile, we train the decoder to learn automatic orchestration as a joint
task by masking instrument information from the input. We also introduce a
large-scale symbolic symphony dataset for the advance of symphony generation
research. Our empirical results show that our proposed approach can generate
coherent, novel, complex and harmonious symphony compared to human composition,
which is the pioneer solution for multi-track multi-instrument symbolic music
generation.
- Abstract(参考訳): 本稿では、置換不変言語モデルに基づくシンボリックシンフォニー音楽生成ソリューションであるsymphonynetを提案する。
テキスト生成と交響曲生成課題のギャップを埋めるため、特定の3次元位置埋め込みによるマルチトラックマルチインストゥルメント再現性(mmr)表現と、音楽トークンに対する修正バイトペア符号化アルゴリズム(music bpe)を提案する。
新しい線形変圧器デコーダアーキテクチャは、シンフォニートークンの長いシーケンスをモデル化するためのバックボーンとして導入された。
一方,入力から機器情報をマスキングすることで,協調作業として自動オーケストレーションを学ぶようにデコーダを訓練する。
また、シンフォニー生成研究の進展のために、大規模シンフォニーシンフォニーデータセットも導入する。
提案手法は,複数トラックのシンボリック音楽生成の先駆的ソリューションである人間構成と比較して,一貫性,新規,複雑,調和的な交響曲を生成できることを示す。
関連論文リスト
- Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - Deep Performer: Score-to-Audio Music Performance Synthesis [30.95307878579825]
Deep Performer(ディープ・パーフォーマー)は、音楽の楽譜合成のための新しいシステムである。
音声とは異なり、音楽はポリフォニーや長い音符を含むことが多い。
提案モデルでは, 鮮明なポリフォニーとハーモニック構造で楽曲を合成できることが示されている。
論文 参考訳(メタデータ) (2022-02-12T10:36:52Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z) - An Empirical Evaluation of End-to-End Polyphonic Optical Music
Recognition [24.377724078096144]
ピアノと管弦楽の楽譜は多音節をしばしば示しており、これはその課題に第2の次元を付け加えている。
終端ポリフォニックOMRの2つの新しい定式化法を提案する。
我々は,マルチシーケンス検出デコーダであるRNNDecoderを用いて,新しい最先端性能を観察する。
論文 参考訳(メタデータ) (2021-08-03T22:04:40Z) - Sequence-to-Sequence Piano Transcription with Transformers [6.177271244427368]
標準的な復号法を用いたエンコーダ・デコーダ変換器を用いて,等価な性能が得られることを示す。
本モデルでは,複数の転写タスクに対して,スペクトル入力を直接MIDIライクな出力イベントに変換することを学習できることを実証する。
論文 参考訳(メタデータ) (2021-07-19T20:33:09Z) - MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE [36.9033909878202]
トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
論文 参考訳(メタデータ) (2021-05-10T03:44:03Z) - Spectrogram Inpainting for Interactive Generation of Instrument Sounds [1.7205106391379026]
個別の楽器音の生成は,音を反復的に形作る新しい独特な方法を導入し,インパインティングに基づく課題として捉えた。
最も重要なことは、私たちはインタラクティブなWebインターフェースをオープンソースにして、アーティストや実践者向けに、新しいクリエイティブな用途に開放することで音を変換します。
論文 参考訳(メタデータ) (2021-04-15T15:17:31Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。