論文の概要: The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation
- arxiv url: http://arxiv.org/abs/2205.08579v1
- Date: Tue, 17 May 2022 18:48:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-20 04:20:13.513669
- Title: The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation
- Title(参考訳): 再利用のパワー : シンボリック音楽生成における構造動的セグメンテーションのためのマルチスケールトランスフォーマーモデル
- Authors: Guowei Wu, Shipei Liu, Xiaoya Fan
- Abstract要約: シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
- 参考スコア(独自算出の注目度): 6.0949335132843965
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic Music Generation relies on the contextual representation
capabilities of the generative model, where the most prevalent approach is the
Transformer-based model. Not only that, the learning of long-term context is
also related to the dynamic segmentation of musical structures, i.e. intro,
verse and chorus, which is currently overlooked by the research community. In
this paper, we propose a multi-scale Transformer, which uses coarse-decoder and
fine-decoders to model the contexts at the global and section-level,
respectively. Concretely, we designed a Fragment Scope Localization layer to
syncopate the music into sections, which were later used to pre-train
fine-decoders. After that, we designed a Music Style Normalization layer to
transfer the style information from the original sections to the generated
sections to achieve consistency in music style. The generated sections are
combined in the aggregation layer and fine-tuned by the coarse decoder. Our
model is evaluated on two open MIDI datasets, and experiments show that our
model outperforms the best contemporary symbolic music generative models. More
excitingly, visual evaluation shows that our model is superior in melody reuse,
resulting in more realistic music.
- Abstract(参考訳): シンボリック音楽の生成は生成モデルの文脈表現能力に依存しており、最も一般的なアプローチはトランスフォーマーモデルである。
それだけでなく、長期的文脈の学習は音楽構造、すなわちイントロ、詩、コーラスの動的セグメンテーションにも関係しており、これは現在研究コミュニティによって見過ごされている。
本稿では,粗いデコーダと細かなデコーダを用いて,グローバルレベルとセクションレベルのコンテキストをそれぞれモデル化するマルチスケールトランスフォーマを提案する。
具体的には,Fragment Scope Localization レイヤを設計し,楽曲をセクションに同期させ,その後,ファインデコーダの事前訓練に利用した。
その後、オリジナルセクションから生成されたセクションにスタイル情報を転送し、音楽スタイルの整合性を実現するための音楽スタイル正規化層を設計した。
生成されたセクションは集約層に結合し、粗いデコーダによって微調整される。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック音楽生成モデルよりも優れた性能を示した。
さらにエキサイティングに、我々のモデルはメロディの再利用に優れており、結果としてよりリアルな音楽が得られることを示す。
関連論文リスト
- Music Genre Classification using Large Language Models [50.750620612351284]
本稿では,音楽ジャンル分類のための事前学習された大規模言語モデル(LLM)のゼロショット機能を利用する。
提案手法は、音声信号を20ミリ秒のチャンクに分割し、畳み込み特徴エンコーダで処理する。
推論中、個々のチャンクの予測は最終ジャンル分類のために集約される。
論文 参考訳(メタデータ) (2024-10-10T19:17:56Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - StemGen: A music generation model that listens [9.489938613869864]
音楽の文脈に耳を傾けたり反応したりできる音楽生成モデルを作成するための代替パラダイムを提案する。
本稿では,非自己回帰型トランスフォーマーモデルアーキテクチャを用いて,そのようなモデルを構築する方法について述べる。
得られたモデルは、最先端のテキスト条件付きモデルの音質に到達し、その文脈と強い音楽的コヒーレンスを示す。
論文 参考訳(メタデータ) (2023-12-14T08:09:20Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Composer: Creative and Controllable Image Synthesis with Composable
Conditions [57.78533372393828]
ビッグデータで学んだ最近の大規模な生成モデルは、驚くべき画像を合成できるが、制御性は限られている。
この研究は、合成品質とモデルの創造性を維持しつつ、空間配置やパレットのような出力画像の柔軟な制御を可能にする新しい世代パラダイムを提供する。
論文 参考訳(メタデータ) (2023-02-20T05:48:41Z) - MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE [36.9033909878202]
トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
論文 参考訳(メタデータ) (2021-05-10T03:44:03Z) - Lets Play Music: Audio-driven Performance Video Generation [58.77609661515749]
オーディオ駆動型パーパフォーマンスビデオ生成(APVG)という新しいタスクを提案する。
APVGは、特定の音楽オーディオクリップでガイドされた特定の楽器を演奏する人のビデオを合成することを目的としている。
論文 参考訳(メタデータ) (2020-11-05T03:13:46Z) - Pop Music Transformer: Beat-based Modeling and Generation of Expressive
Pop Piano Compositions [37.66340344198797]
我々は、既存のトランスフォーマーモデルよりも優れたリズム構造でポップピアノ音楽を構成するポップ・ミュージック・トランスフォーマーを構築した。
特に、入力データにメートル法構造を課すことにより、トランスフォーマーは音楽のビートバーフレーズ階層構造をより容易に認識できるようにする。
論文 参考訳(メタデータ) (2020-02-01T14:12:35Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z) - Modeling Musical Structure with Artificial Neural Networks [0.0]
音楽構造モデリングのさまざまな側面に対する人工知能の適用について検討する。
Gated Autoencoder(GAE)というコネクショナリストモデルを用いて,楽曲の断片間の変換を学習する方法を示す。
本稿では,ポリフォニック・ミュージックを区間の連続として表現するGAEの特別な予測訓練を提案する。
論文 参考訳(メタデータ) (2020-01-06T18:35:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。