論文の概要: Pop Music Transformer: Beat-based Modeling and Generation of Expressive
Pop Piano Compositions
- arxiv url: http://arxiv.org/abs/2002.00212v3
- Date: Mon, 10 Aug 2020 07:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:48:06.269499
- Title: Pop Music Transformer: Beat-based Modeling and Generation of Expressive
Pop Piano Compositions
- Title(参考訳): Pop Music Transformer: ビートに基づくPopピアノ構成のモデリングと生成
- Authors: Yu-Siang Huang, Yi-Hsuan Yang
- Abstract要約: 我々は、既存のトランスフォーマーモデルよりも優れたリズム構造でポップピアノ音楽を構成するポップ・ミュージック・トランスフォーマーを構築した。
特に、入力データにメートル法構造を課すことにより、トランスフォーマーは音楽のビートバーフレーズ階層構造をより容易に認識できるようにする。
- 参考スコア(独自算出の注目度): 37.66340344198797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A great number of deep learning based models have been recently proposed for
automatic music composition. Among these models, the Transformer stands out as
a prominent approach for generating expressive classical piano performance with
a coherent structure of up to one minute. The model is powerful in that it
learns abstractions of data on its own, without much human-imposed domain
knowledge or constraints. In contrast with this general approach, this paper
shows that Transformers can do even better for music modeling, when we improve
the way a musical score is converted into the data fed to a Transformer model.
In particular, we seek to impose a metrical structure in the input data, so
that Transformers can be more easily aware of the beat-bar-phrase hierarchical
structure in music. The new data representation maintains the flexibility of
local tempo changes, and provides hurdles to control the rhythmic and harmonic
structure of music. With this approach, we build a Pop Music Transformer that
composes Pop piano music with better rhythmic structure than existing
Transformer models.
- Abstract(参考訳): 近年,多くの深層学習モデルが自動作曲のために提案されている。
これらのモデルの中でトランスフォーマーは、最大1分間のコヒーレントな構造で表現力のあるクラシックピアノ演奏を生成するための顕著なアプローチとして際立っている。
このモデルは、人間によるドメイン知識や制約を多く必要とせずに、自分自身でデータの抽象化を学ぶという点で強力です。
この一般的なアプローチとは対照的に,楽譜をトランスフォーマーモデルに入力したデータに変換する方法を改善することで,トランスフォーマーがより優れた音楽モデリングを行うことができることを示す。
特に,音楽におけるビートバー・フレーズ階層構造をより容易に認識できるように,入力データに計量構造を課すことを目指している。
新しいデータ表現は、局所的なテンポ変化の柔軟性を維持し、音楽のリズム構造と調和構造を制御するハードルを提供する。
このアプローチにより,既存のトランスフォーマーモデルよりも高いリズム構造でポップピアノを作曲するポップミュージックトランスフォーマーを構築する。
関連論文リスト
- Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Melody Infilling with User-Provided Structural Context [37.55332319528369]
本稿では,楽譜入力のためのトランスフォーマーを用いた新しいモデルを提案する。
提案モデルでは,構造情報を効果的に活用し,高品質なポップスタイルのメロディを生成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:37:04Z) - Compose & Embellish: Well-Structured Piano Performance Generation via A
Two-Stage Approach [36.49582705724548]
まずリードシートを構成する2段階のTransformerベースのフレームワークを考案し,それを伴奏と表現力のあるタッチで実装する。
目的および主観的な実験により,コンポジション・アンド・エンベリッシュは芸術の現在の状態と実演の間の構造的ギャップを半分に縮め,豊かさやコヒーレンスといった他の音楽的側面も改善することが示された。
論文 参考訳(メタデータ) (2022-09-17T01:20:59Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Calliope -- A Polyphonic Music Transformer [9.558051115598657]
ポリフォニック音楽のマルチトラックシーケンスを効率的にモデル化するためのトランスフォーマーに基づく新しいオートエンコーダモデルCalliopeを提案する。
実験により,我々のモデルは,音楽シーケンスの再構築と生成における技術状況を改善することができることが示された。
論文 参考訳(メタデータ) (2021-07-08T08:18:57Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z) - Towards Reasonably-Sized Character-Level Transformer NMT by Finetuning
Subword Systems [78.80826533405019]
トークンセグメンテーションを必要とせずに文字レベルで機能するニューラルネットワーク翻訳モデルが得られることを示す。
我々の研究は、非常に大きくないキャラクタベースモデルを訓練しやすく、高性能化するための重要な一歩である。
論文 参考訳(メタデータ) (2020-04-29T15:56:02Z) - Learning Style-Aware Symbolic Music Representations by Adversarial
Autoencoders [9.923470453197657]
我々は,文脈情報を用いた変動型オートエンコーダを組み込むための,フレキシブルで自然な手段として,逆正則化を活用することに注力する。
第1回音楽Adversarial Autoencoder(MusAE)について紹介する。
我々のモデルは、標準変分オートエンコーダに基づく最先端モデルよりも高い再構成精度を有する。
論文 参考訳(メタデータ) (2020-01-15T18:07:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。