論文の概要: A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation
- arxiv url: http://arxiv.org/abs/2010.07758v3
- Date: Mon, 1 Feb 2021 05:06:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-07 05:38:55.373913
- Title: A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation
- Title(参考訳): MIDI拡張を用いた変圧器型ピッチシーケンスオートエンコーダ
- Authors: Mingshuo Ding, Yinghao Ma
- Abstract要約: 本研究の目的は,MIDIクリップが自動生成仮説に基づいて構成される可能性を示すモデルを得ることである。
実験結果は、CSMT(2020)のデータチャレンジにおける7ドルチームの中で、私たちのモデルが3位にランクされていることを示している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite recent achievements of deep learning automatic music generation
algorithms, few approaches have been proposed to evaluate whether a
single-track music excerpt is composed by automatons or Homo sapiens. To tackle
this problem, we apply a masked language model based on ALBERT for composers
classification. The aim is to obtain a model that can suggest the probability a
MIDI clip might be composed condition on the auto-generation hypothesis, and
which is trained with only AI-composed single-track MIDI. In this paper, the
amount of parameters is reduced, two methods on data augmentation are proposed
as well as a refined loss function to prevent overfitting. The experiment
results show our model ranks $3^{rd}$ in all the $7$ teams in the data
challenge in CSMT(2020). Furthermore, this inspiring method could be spread to
other music information retrieval tasks that are based on a small dataset.
- Abstract(参考訳): 近年のディープラーニング自動音楽生成アルゴリズムの成果にもかかわらず、シングルトラック音楽の抜粋がオートマトンやホモ・サピエンスによって構成されているかどうかを評価するためのアプローチがいくつか提案されている。
この問題に対処するために、ALBERTに基づくマスク付き言語モデルを作曲家分類に適用する。
目的は、MIDIクリップが自動生成仮説に基づいて構成される可能性を示し、AIで構成されたシングルトラックMIDIのみを用いてトレーニングするモデルを得ることである。
本稿では,パラメータの量を削減し,データ拡張に関する2つの手法と,オーバーフィッティングを防止するための洗練された損失関数を提案する。
実験結果は,CSMT(2020)のデータチャレンジにおける7ドルチームすべてにおいて,我々のモデルが$3^{rd}$であることを示している。
さらに、このインスピレーション手法は、小さなデータセットに基づく他の音楽情報検索タスクにも適用することができる。
関連論文リスト
- Notochord: a Flexible Probabilistic Model for Real-Time MIDI Performance [0.8192907805418583]
Notochord は構造化事象の列の深い確率モデルである。
ポリフォニックおよびマルチトラックMIDIを生成し、10ミリ秒未満のレイテンシで入力に応答する。
論文 参考訳(メタデータ) (2024-03-18T17:35:02Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - jazznet: A Dataset of Fundamental Piano Patterns for Music Audio Machine
Learning Research [2.9697051524971743]
ジャズネットデータセットには、コード、アルペジオ、スケール、コード進行を含む162520のラベル付きピアノパターンが含まれている。
論文では、データセットの構成、生成、生成を説明し、オープンソースのパターンジェネレータを提示する。
このデータセットは、畳み込みリカレントニューラルネットワーク(CRNN)とディープ畳み込みニューラルネットワークを用いて、研究者がMIRタスクに挑戦するための新しいモデルをベンチマークするのに役立つことを実証する。
論文 参考訳(メタデータ) (2023-02-17T00:13:22Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Generating Music with a Self-Correcting Non-Chronological Autoregressive
Model [6.289267097017553]
本稿では,自己修正的,非時間的,自己回帰的モデルを用いた新しい音楽生成手法について述べる。
我々は音楽を編集イベントのシーケンスとして表現し、それぞれがノートの追加または削除を表す。
推論中、直接祖先サンプリングを用いて1回に1回の編集イベントを生成する。
論文 参考訳(メタデータ) (2020-08-18T20:36:47Z) - PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。
MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。
我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文 参考訳(メタデータ) (2020-08-18T02:28:36Z) - RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement
Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。
提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文 参考訳(メタデータ) (2020-02-08T03:53:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。