論文の概要: Sequence-to-Sequence Piano Transcription with Transformers
- arxiv url: http://arxiv.org/abs/2107.09142v1
- Date: Mon, 19 Jul 2021 20:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-21 23:12:48.665749
- Title: Sequence-to-Sequence Piano Transcription with Transformers
- Title(参考訳): 変圧器を用いた逐次ピアノ転写
- Authors: Curtis Hawthorne, Ian Simon, Rigel Swavely, Ethan Manilow, Jesse Engel
- Abstract要約: 標準的な復号法を用いたエンコーダ・デコーダ変換器を用いて,等価な性能が得られることを示す。
本モデルでは,複数の転写タスクに対して,スペクトル入力を直接MIDIライクな出力イベントに変換することを学習できることを実証する。
- 参考スコア(独自算出の注目度): 6.177271244427368
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Music Transcription has seen significant progress in recent years
by training custom deep neural networks on large datasets. However, these
models have required extensive domain-specific design of network architectures,
input/output representations, and complex decoding schemes. In this work, we
show that equivalent performance can be achieved using a generic
encoder-decoder Transformer with standard decoding methods. We demonstrate that
the model can learn to translate spectrogram inputs directly to MIDI-like
output events for several transcription tasks. This sequence-to-sequence
approach simplifies transcription by jointly modeling audio features and
language-like output dependencies, thus removing the need for task-specific
architectures. These results point toward possibilities for creating new Music
Information Retrieval models by focusing on dataset creation and labeling
rather than custom model design.
- Abstract(参考訳): 大規模なデータセットでカスタムディープニューラルネットワークをトレーニングすることで、近年、音楽の自動書き起こしは大きな進歩を遂げている。
しかし、これらのモデルは、ネットワークアーキテクチャ、入出力表現、複雑な復号方式の広範なドメイン固有設計を必要とする。
本研究では,標準復号法を用いた汎用エンコーダ・デコーダ変換器を用いて等価な性能を実現することを示す。
本モデルでは,複数の転写タスクに対して,スペクトル入力を直接MIDIライクな出力イベントに変換できることを実証する。
このシーケンスからシーケンスへのアプローチは、オーディオ機能と言語ライクな出力依存性を共同でモデル化することで、書き起こしを単純化し、タスク固有のアーキテクチャの必要性をなくす。
これらの結果は、カスタムモデル設計よりもデータセットの作成とラベリングに注目して、新しい音楽情報検索モデルを作成する可能性を示している。
関連論文リスト
- Encoding Agent Trajectories as Representations with Sequence Transformers [0.4999814847776097]
本稿では,ニューラルネットワークアーキテクチャを用いた高次元トラジェクトリを表現するモデルを提案する。
言語モデルと同様に、我々のTransformer Sequence for Agent temporal Representation (STARE)モデルは、軌跡データにおける表現と構造を学習することができる。
合成および実軌道データを用いた実験結果から,提案モデルが有意なエンコーディングを学習できることが示唆された。
論文 参考訳(メタデータ) (2024-10-11T19:18:47Z) - YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - MEGABYTE: Predicting Million-byte Sequences with Multiscale Transformers [78.85346970193518]
Megabyteは、100万バイトを超えるシーケンスのエンドツーエンドで微分可能なモデリングを可能にするマルチスケールデコーダアーキテクチャである。
実験によると、Megabyteはバイトレベルのモデルで、長い文脈言語モデリングのサブワードモデルと競合することを可能にする。
その結果、トークン化のない自己回帰配列を大規模にモデル化できる可能性が確立された。
論文 参考訳(メタデータ) (2023-05-12T00:55:41Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Decoder-Only or Encoder-Decoder? Interpreting Language Model as a
Regularized Encoder-Decoder [75.03283861464365]
seq2seqタスクは、与えられた入力ソースシーケンスに基づいてターゲットシーケンスを生成することを目的としている。
伝統的に、seq2seqタスクのほとんどはエンコーダによって解決され、ソースシーケンスとデコーダをエンコードしてターゲットテキストを生成する。
最近、デコーダのみの言語モデルをseq2seqタスクに直接適用する、多くの新しいアプローチが出現しました。
論文 参考訳(メタデータ) (2023-04-08T15:44:29Z) - Scaling Autoregressive Models for Content-Rich Text-to-Image Generation [95.02406834386814]
Partiは、テキスト・ツー・イメージ生成をシーケンス・ツー・シーケンス・モデリング問題として扱う。
PartiはTransformerベースの画像トークンライザViT-VQGANを使用して、画像を離散トークンのシーケンスとしてエンコードする。
PartiPrompts (P2)は1600以上の英語のプロンプトの総合的なベンチマークである。
論文 参考訳(メタデータ) (2022-06-22T01:11:29Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Cross-Thought for Sentence Encoder Pre-training [89.32270059777025]
Cross-Thoughtは、事前トレーニングシーケンスエンコーダに対する新しいアプローチである。
我々は、Transformerベースのシーケンスエンコーダを、多数の短いシーケンスに対してトレーニングする。
質問応答とテキストのエンコーダタスクの実験は、事前学習したエンコーダが最先端のエンコーダより優れていることを示す。
論文 参考訳(メタデータ) (2020-10-07T21:02:41Z) - Relative Positional Encoding for Speech Recognition and Direct
Translation [72.64499573561922]
相対位置符号化方式を音声変換器に適用する。
その結果,ネットワークは音声データに存在する変動分布に適応できることがわかった。
論文 参考訳(メタデータ) (2020-05-20T09:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。