Fugu-MT 論文翻訳(概要): A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation

論文の概要: A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation

arxiv url: http://arxiv.org/abs/2010.07758v3
Date: Mon, 1 Feb 2021 05:06:55 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-07 05:38:55.373913
Title: A Transformer Based Pitch Sequence Autoencoder with MIDI Augmentation
Title（参考訳）: MIDI拡張を用いた変圧器型ピッチシーケンスオートエンコーダ
Authors: Mingshuo Ding, Yinghao Ma
Abstract要約: 本研究の目的は,MIDIクリップが自動生成仮説に基づいて構成される可能性を示すモデルを得ることである。実験結果は、CSMT(2020)のデータチャレンジにおける7ドルチームの中で、私たちのモデルが3位にランクされていることを示している。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite recent achievements of deep learning automatic music generation algorithms, few approaches have been proposed to evaluate whether a single-track music excerpt is composed by automatons or Homo sapiens. To tackle this problem, we apply a masked language model based on ALBERT for composers classification. The aim is to obtain a model that can suggest the probability a MIDI clip might be composed condition on the auto-generation hypothesis, and which is trained with only AI-composed single-track MIDI. In this paper, the amount of parameters is reduced, two methods on data augmentation are proposed as well as a refined loss function to prevent overfitting. The experiment results show our model ranks $3^{rd}$ in all the $7$ teams in the data challenge in CSMT(2020). Furthermore, this inspiring method could be spread to other music information retrieval tasks that are based on a small dataset.
Abstract（参考訳）: 近年のディープラーニング自動音楽生成アルゴリズムの成果にもかかわらず、シングルトラック音楽の抜粋がオートマトンやホモ・サピエンスによって構成されているかどうかを評価するためのアプローチがいくつか提案されている。この問題に対処するために、ALBERTに基づくマスク付き言語モデルを作曲家分類に適用する。目的は、MIDIクリップが自動生成仮説に基づいて構成される可能性を示し、AIで構成されたシングルトラックMIDIのみを用いてトレーニングするモデルを得ることである。本稿では,パラメータの量を削減し,データ拡張に関する2つの手法と,オーバーフィッティングを防止するための洗練された損失関数を提案する。実験結果は,CSMT(2020)のデータチャレンジにおける7ドルチームすべてにおいて,我々のモデルが$3^{rd}$であることを示している。さらに、このインスピレーション手法は、小さなデータセットに基づく他の音楽情報検索タスクにも適用することができる。

関連論文リスト

SongGen: A Single Stage Auto-regressive Transformer for Text-to-Song Generation [75.86473375730392]
SongGenは、コントロール可能な曲を生成するための、完全なオープンソースでシングルステージの自動回帰トランスフォーマーである。音声と伴奏の混合を生成する混合モードと、それらを別々に合成するデュアルトラックモードの2つの出力モードをサポートする。コミュニティの関与と今後の研究を促進するため、私たちは、モデルの重み付け、トレーニングコード、注釈付きデータ、前処理パイプラインをリリースします。
論文参考訳（メタデータ） (2025-02-18T18:52:21Z)
Detecting Music Performance Errors with Transformers [3.6837762419929168]
既存の音楽誤り検出ツールは自動アライメントに依存している。音楽エラー検出モデルをトレーニングするのに十分なデータが不足している。本稿では,大規模な合成音楽誤りデータセットを作成することのできる新しいデータ生成手法を提案する。
論文参考訳（メタデータ） (2025-01-03T07:04:20Z)
Parameter-Efficient Transfer Learning for Music Foundation Models [51.61531917413708]
音楽基礎モデルのパラメータ効率変換学習(PETL)について検討する。 PETL法は、音楽の自動タグ付けにおいて、探索と微調整の両方に優れる。 PETL法は、トレーニングコストを大幅に削減し、微調整と同様の結果を得る。
論文参考訳（メタデータ） (2024-11-28T20:50:40Z)
Notochord: a Flexible Probabilistic Model for Real-Time MIDI Performance [0.8192907805418583]
Notochord は構造化事象の列の深い確率モデルである。ポリフォニックおよびマルチトラックMIDIを生成し、10ミリ秒未満のレイテンシで入力に応答する。
論文参考訳（メタデータ） (2024-03-18T17:35:02Z)
Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文参考訳（メタデータ） (2023-09-27T15:19:05Z)
Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文参考訳（メタデータ） (2023-06-08T15:31:05Z)
jazznet: A Dataset of Fundamental Piano Patterns for Music Audio Machine Learning Research [2.9697051524971743]
ジャズネットデータセットには、コード、アルペジオ、スケール、コード進行を含む162520のラベル付きピアノパターンが含まれている。論文では、データセットの構成、生成、生成を説明し、オープンソースのパターンジェネレータを提示する。このデータセットは、畳み込みリカレントニューラルネットワーク(CRNN)とディープ畳み込みニューラルネットワークを用いて、研究者がMIRタスクに挑戦するための新しいモデルをベンチマークするのに役立つことを実証する。
論文参考訳（メタデータ） (2023-02-17T00:13:22Z)
Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文参考訳（メタデータ） (2022-12-04T18:09:23Z)
Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文参考訳（メタデータ） (2022-05-10T13:08:49Z)
BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。 BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文参考訳（メタデータ） (2021-07-12T07:03:57Z)
A framework to compare music generative models using automatic evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文参考訳（メタデータ） (2021-01-19T15:04:46Z)
Generating Music with a Self-Correcting Non-Chronological Autoregressive Model [6.289267097017553]
本稿では,自己修正的,非時間的,自己回帰的モデルを用いた新しい音楽生成手法について述べる。我々は音楽を編集イベントのシーケンスとして表現し、それぞれがノートの追加または削除を表す。推論中、直接祖先サンプリングを用いて1回に1回の編集イベントを生成する。
論文参考訳（メタデータ） (2020-08-18T20:36:47Z)
PopMAG: Pop Music Accompaniment Generation [190.09996798215738]
単一シーケンスでの同時マルチトラック生成が可能なMUlti-track MIDI表現(MuMIDI)を提案する。 MuMIDIはシーケンス長を拡大し、長期音楽モデリングの新しい課題をもたらす。我々は,ポップミュージックの伴奏生成をPopMAGと呼ぶ。
論文参考訳（メタデータ） (2020-08-18T02:28:36Z)
RL-Duet: Online Music Accompaniment Generation Using Deep Reinforcement Learning [69.20460466735852]
本稿では,オンライン伴奏生成のための深層強化学習アルゴリズムを提案する。提案アルゴリズムは人体に応答し,メロディック,ハーモニック,多種多様な機械部品を生成する。
論文参考訳（メタデータ） (2020-02-08T03:53:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。