論文の概要: Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation
- arxiv url: http://arxiv.org/abs/2210.10349v1
- Date: Wed, 19 Oct 2022 07:31:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-20 12:41:12.576867
- Title: Museformer: Transformer with Fine- and Coarse-Grained Attention for
Music Generation
- Title(参考訳): Museformer:音楽生成のための細粒度・粗粒度変換器
- Authors: Botao Yu, Peiling Lu, Rui Wang, Wei Hu, Xu Tan, Wei Ye, Shikun Zhang,
Tao Qin, Tie-Yan Liu
- Abstract要約: 本研究では,音楽生成に新たな細粒度・粗粒度対応トランスフォーマーであるMuseformerを提案する。
具体的には、細かな注意を払って、特定のバーのトークンは、音楽構造に最も関係のあるバーのトークンに、直接参加する。
粗い注意を払って、トークンは計算コストを減らすために、それぞれのトークンではなく他のバーの要約にのみ参加する。
- 参考スコア(独自算出の注目度): 138.74751744348274
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic music generation aims to generate music scores automatically. A
recent trend is to use Transformer or its variants in music generation, which
is, however, suboptimal, because the full attention cannot efficiently model
the typically long music sequences (e.g., over 10,000 tokens), and the existing
models have shortcomings in generating musical repetition structures. In this
paper, we propose Museformer, a Transformer with a novel fine- and
coarse-grained attention for music generation. Specifically, with the
fine-grained attention, a token of a specific bar directly attends to all the
tokens of the bars that are most relevant to music structures (e.g., the
previous 1st, 2nd, 4th and 8th bars, selected via similarity statistics); with
the coarse-grained attention, a token only attends to the summarization of the
other bars rather than each token of them so as to reduce the computational
cost. The advantages are two-fold. First, it can capture both music
structure-related correlations via the fine-grained attention, and other
contextual information via the coarse-grained attention. Second, it is
efficient and can model over 3X longer music sequences compared to its
full-attention counterpart. Both objective and subjective experimental results
demonstrate its ability to generate long music sequences with high quality and
better structures.
- Abstract(参考訳): シンボリック音楽生成は音楽のスコアを自動的に生成することを目的としている。
最近の傾向は、トランスフォーマーまたはその変種を音楽生成に使用することであるが、これは、一般的に長い曲列(例えば1万枚以上のトークン)を効果的にモデル化することができず、既存のモデルは、音楽の繰り返し構造を生成するのに欠点があるからである。
本稿では,音楽生成のための新しい細粒度および粗粒度に注目するトランスフォーマであるmuseformerを提案する。
具体的には、細かな注意で、特定のバーのトークンは、音楽構造に最も関係のあるバーのすべてのトークン(例えば、類似度統計により選択された前1、第2、第4、第8バー)に直接出席する。
利点は2つある。
まず、細粒度注目による音楽構造関連相関と、粗粒度注目による他の文脈情報の両方を捉える。
第2に、効率が良く、フルアテンションに比べて3倍以上の長い音楽シーケンスをモデル化できる。
客観的および主観的な実験結果は、高品質で優れた構造を持つ長い音楽系列を生成する能力を示している。
関連論文リスト
- PerceiverS: A Multi-Scale Perceiver with Effective Segmentation for Long-Term Expressive Symbolic Music Generation [5.201151187019607]
PerceiverS(セグメンテーション・アンド・スケール)は、長い構造化された表現力のある音楽を生成するために設計された新しいアーキテクチャである。
本手法は,長期的構造的依存関係と短期的表現的詳細を同時に学習することにより,記号的音楽生成を促進する。
Maestroのようなデータセットで評価された提案モデルは、コヒーレントで多様な音楽を生成する改善を実証する。
論文 参考訳(メタデータ) (2024-11-13T03:14:10Z) - MusicFlow: Cascaded Flow Matching for Text Guided Music Generation [53.63948108922333]
MusicFlowは、フローマッチングに基づくケースドテキストから音楽への生成モデルである。
学習目的としてマスク予測を活用することで,音楽の充実や継続といった他のタスクにモデルを一般化することができる。
論文 参考訳(メタデータ) (2024-10-27T15:35:41Z) - Do we need more complex representations for structure? A comparison of note duration representation for Music Transformers [0.0]
そこで本研究では,既成のMusic Transformerモデルが,注釈のないMIDI情報のみを用いて,構造的類似度の測定を行うかどうかを問う。
最も一般的な表現の微妙な微調整が、小さなが重要な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-14T13:53:11Z) - Generating High-quality Symbolic Music Using Fine-grained Discriminators [42.200747558496055]
本稿では,メロディとリズムを音楽から分離し,それに対応する微粒な識別器を設計することを提案する。
具体的には、ピッチ増強戦略を備えるメロディ判別器は、生成されたサンプルによって提示されるメロディ変動を識別する。
バーレベルの相対的な位置エンコーディングで強化されたリズム判別器は、生成された音符の速度に焦点を当てる。
論文 参考訳(メタデータ) (2024-08-03T07:32:21Z) - BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。
提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。
短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - MusicBERT: Symbolic Music Understanding with Large-Scale Pre-Training [97.91071692716406]
シンボリック・ミュージックの理解(シンボリック・ミュージックの理解)とは、シンボリック・データから音楽を理解することを指す。
MusicBERTは、音楽理解のための大規模な事前訓練モデルである。
論文 参考訳(メタデータ) (2021-06-10T10:13:05Z) - MuseMorphose: Full-Song and Fine-Grained Music Style Transfer with Just
One Transformer VAE [36.9033909878202]
トランスフォーマーと可変オートエンコーダ(VAE)は、シンボリック(例えばMIDI)ドメイン音楽生成に広く採用されている。
本稿では,両強みを示す単一のモデルを構築するために,この2つをまとめることに興味がある。
実験により、musemorphoseはrecurrent neural network(rnn)よりも多くのスタイル転送タスクで広く使われているメトリクスを先行技術で上回っていることが示されている。
論文 参考訳(メタデータ) (2021-05-10T03:44:03Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。