論文の概要: Pop Music Transformer: Beat-based Modeling and Generation of Expressive
Pop Piano Compositions
- arxiv url: http://arxiv.org/abs/2002.00212v3
- Date: Mon, 10 Aug 2020 07:27:05 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-05 00:48:06.269499
- Title: Pop Music Transformer: Beat-based Modeling and Generation of Expressive
Pop Piano Compositions
- Title(参考訳): Pop Music Transformer: ビートに基づくPopピアノ構成のモデリングと生成
- Authors: Yu-Siang Huang, Yi-Hsuan Yang
- Abstract要約: 我々は、既存のトランスフォーマーモデルよりも優れたリズム構造でポップピアノ音楽を構成するポップ・ミュージック・トランスフォーマーを構築した。
特に、入力データにメートル法構造を課すことにより、トランスフォーマーは音楽のビートバーフレーズ階層構造をより容易に認識できるようにする。
- 参考スコア(独自算出の注目度): 37.66340344198797
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: A great number of deep learning based models have been recently proposed for
automatic music composition. Among these models, the Transformer stands out as
a prominent approach for generating expressive classical piano performance with
a coherent structure of up to one minute. The model is powerful in that it
learns abstractions of data on its own, without much human-imposed domain
knowledge or constraints. In contrast with this general approach, this paper
shows that Transformers can do even better for music modeling, when we improve
the way a musical score is converted into the data fed to a Transformer model.
In particular, we seek to impose a metrical structure in the input data, so
that Transformers can be more easily aware of the beat-bar-phrase hierarchical
structure in music. The new data representation maintains the flexibility of
local tempo changes, and provides hurdles to control the rhythmic and harmonic
structure of music. With this approach, we build a Pop Music Transformer that
composes Pop piano music with better rhythmic structure than existing
Transformer models.
- Abstract(参考訳): 近年,多くの深層学習モデルが自動作曲のために提案されている。
これらのモデルの中でトランスフォーマーは、最大1分間のコヒーレントな構造で表現力のあるクラシックピアノ演奏を生成するための顕著なアプローチとして際立っている。
このモデルは、人間によるドメイン知識や制約を多く必要とせずに、自分自身でデータの抽象化を学ぶという点で強力です。
この一般的なアプローチとは対照的に,楽譜をトランスフォーマーモデルに入力したデータに変換する方法を改善することで,トランスフォーマーがより優れた音楽モデリングを行うことができることを示す。
特に,音楽におけるビートバー・フレーズ階層構造をより容易に認識できるように,入力データに計量構造を課すことを目指している。
新しいデータ表現は、局所的なテンポ変化の柔軟性を維持し、音楽のリズム構造と調和構造を制御するハードルを提供する。
このアプローチにより,既存のトランスフォーマーモデルよりも高いリズム構造でポップピアノを作曲するポップミュージックトランスフォーマーを構築する。
関連論文リスト
- F-StrIPE: Fast Structure-Informed Positional Encoding for Symbolic Music Generation [1.3108652488669736]
本稿では,線形複雑度に作用する構造インフォームドPEスキームF-StrIPEを提案する。
記号音楽におけるメロディを用いたF-StrIPEの経験的メリットを解説する。
論文 参考訳(メタデータ) (2025-02-14T13:15:18Z) - Do we need more complex representations for structure? A comparison of note duration representation for Music Transformers [0.0]
そこで本研究では,既成のMusic Transformerモデルが,注釈のないMIDI情報のみを用いて,構造的類似度の測定を行うかどうかを問う。
最も一般的な表現の微妙な微調整が、小さなが重要な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2024-10-14T13:53:11Z) - UniMuMo: Unified Text, Music and Motion Generation [57.72514622935806]
任意のテキスト,音楽,動作データを入力条件として取り込んで,3つのモードすべてにまたがる出力を生成する,統一型マルチモーダルモデルUniMuMoを導入する。
音楽、動き、テキストをトークンベースの表現に変換することで、我々のモデルはエンコーダ・デコーダ・トランスフォーマアーキテクチャを通じてこれらのモダリティをブリッジする。
論文 参考訳(メタデータ) (2024-10-06T16:04:05Z) - MuseBarControl: Enhancing Fine-Grained Control in Symbolic Music Generation through Pre-Training and Counterfactual Loss [51.85076222868963]
制御信号と対応する音楽トークンを直接リンクする事前学習タスクを導入する。
次に、生成した音楽と制御プロンプトとの整合性を向上する新たな対実的損失を実現する。
論文 参考訳(メタデータ) (2024-07-05T08:08:22Z) - Grokking of Hierarchical Structure in Vanilla Transformers [72.45375959893218]
トランスフォーマー言語モデルでは,極端に長い訓練期間を経て階層的に一般化できることが示される。
中間深度モデルは、非常に深い変圧器と非常に浅い変圧器の両方よりも良く一般化される。
論文 参考訳(メタデータ) (2023-05-30T04:34:13Z) - Melody Infilling with User-Provided Structural Context [37.55332319528369]
本稿では,楽譜入力のためのトランスフォーマーを用いた新しいモデルを提案する。
提案モデルでは,構造情報を効果的に活用し,高品質なポップスタイルのメロディを生成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-06T11:37:04Z) - Structural Biases for Improving Transformers on Translation into
Morphologically Rich Languages [120.74406230847904]
TP-Transformerは従来のTransformerアーキテクチャを拡張し、構造を表現するコンポーネントを追加する。
第2の方法は、形態的トークン化でデータをセグメント化することで、データレベルで構造を付与する。
これらの2つのアプローチのそれぞれが、ネットワークがより良いパフォーマンスを達成することを可能にすることは分かっていますが、この改善はデータセットのサイズに依存します。
論文 参考訳(メタデータ) (2022-08-11T22:42:24Z) - The Power of Reuse: A Multi-Scale Transformer Model for Structural
Dynamic Segmentation in Symbolic Music Generation [6.0949335132843965]
シンボリック・ミュージック・ジェネレーションは、生成モデルの文脈表現能力に依存している。
粗大デコーダと細小デコーダを用いて,グローバルおよびセクションレベルのコンテキストをモデル化するマルチスケールトランスフォーマを提案する。
本モデルは2つのオープンMIDIデータセットで評価され,実験により,同時代のシンボリック・ミュージック・ジェネレーション・モデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2022-05-17T18:48:14Z) - Calliope -- A Polyphonic Music Transformer [9.558051115598657]
ポリフォニック音楽のマルチトラックシーケンスを効率的にモデル化するためのトランスフォーマーに基づく新しいオートエンコーダモデルCalliopeを提案する。
実験により,我々のモデルは,音楽シーケンスの再構築と生成における技術状況を改善することができることが示された。
論文 参考訳(メタデータ) (2021-07-08T08:18:57Z) - Parameter Efficient Multimodal Transformers for Video Representation
Learning [108.8517364784009]
本研究は,映像表現学習におけるマルチモーダルトランスフォーマーのパラメータの削減に焦点をあてる。
このアプローチではパラメータを80$%まで削減し、モデルのエンドツーエンドをスクラッチからトレーニングできるようにしています。
本研究では,Kinetics-700から30秒のクリップをプレトレーニングし,それを音声視覚分類タスクに転送する。
論文 参考訳(メタデータ) (2020-12-08T00:16:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。