論文の概要: MT3: Multi-Task Multitrack Music Transcription
- arxiv url: http://arxiv.org/abs/2111.03017v1
- Date: Thu, 4 Nov 2021 17:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 16:38:56.691685
- Title: MT3: Multi-Task Multitrack Music Transcription
- Title(参考訳): mt3:マルチタスクのマルチトラック音楽書き起こし
- Authors: Josh Gardner, Ian Simon, Ethan Manilow, Curtis Hawthorne, Jesse Engel
- Abstract要約: 汎用トランスフォーマーモデルがマルチタスク自動音楽転写(AMT)を実現できることを示す。
この統合トレーニングフレームワークは、さまざまなデータセットにわたる高品質な書き起こし結果を実現する。
- 参考スコア(独自算出の注目度): 7.5947187537718905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Music Transcription (AMT), inferring musical notes from raw audio,
is a challenging task at the core of music understanding. Unlike Automatic
Speech Recognition (ASR), which typically focuses on the words of a single
speaker, AMT often requires transcribing multiple instruments simultaneously,
all while preserving fine-scale pitch and timing information. Further, many AMT
datasets are "low-resource", as even expert musicians find music transcription
difficult and time-consuming. Thus, prior work has focused on task-specific
architectures, tailored to the individual instruments of each task. In this
work, motivated by the promising results of sequence-to-sequence transfer
learning for low-resource Natural Language Processing (NLP), we demonstrate
that a general-purpose Transformer model can perform multi-task AMT, jointly
transcribing arbitrary combinations of musical instruments across several
transcription datasets. We show this unified training framework achieves
high-quality transcription results across a range of datasets, dramatically
improving performance for low-resource instruments (such as guitar), while
preserving strong performance for abundant instruments (such as piano).
Finally, by expanding the scope of AMT, we expose the need for more consistent
evaluation metrics and better dataset alignment, and provide a strong baseline
for this new direction of multi-task AMT.
- Abstract(参考訳): 生音声から音符を推定するAMT(Automatic Music Transcription)は,音楽理解の核となる課題である。
単一の話者の単語に焦点を絞った自動音声認識(ASR)とは異なり、ATTは音高やタイミング情報を保存しながら、複数の楽器を同時に書き起こさなければならないことが多い。
さらに、多くのAMTデータセットは「低リソース」であり、専門家のミュージシャンでさえ音楽の書き起こしが難しく、時間を要すると考えている。
したがって、以前の作業はタスク固有のアーキテクチャに重点を置いており、各タスクの個々のインスツルメントに合わせたものである。
本研究では,低リソース自然言語処理(NLP)のためのシーケンス・ツー・シーケンス・トランスファー学習(Sequence-to-Sequence Transfer Learning)の有望な結果から,汎用トランスフォーマーモデルがマルチタスクATTを実行できることを示す。
この統一的な学習フレームワークは、様々なデータセットで高品質な書き起こし結果を達成し、低リソースの楽器(ギターなど)のパフォーマンスを劇的に向上させながら、豊富な楽器(ピアノなど)の強いパフォーマンスを維持している。
最後に、ATTの範囲を広げることで、より一貫性のある評価指標とより良いデータセットアライメントの必要性を明らかにし、マルチタスクATTの新しい方向性の強力なベースラインを提供する。
関連論文リスト
- TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z) - From Audio to Symbolic Encoding [2.064612766965483]
私たちは現在最先端のOnsetsとFrameの上に構築されている新しいニューラルネットワークアーキテクチャを紹介します。
AMTの場合、我々のモデルは最先端アーキテクチャを用いてトレーニングされたモデルと比較して、より良い結果を得ることができた。
類似したアーキテクチャは音声認識タスクでトレーニングすることができたが、あまり理想的な結果が得られなかった。
論文 参考訳(メタデータ) (2023-02-26T20:15:00Z) - FretNet: Continuous-Valued Pitch Contour Streaming for Polyphonic Guitar
Tablature Transcription [0.34376560669160383]
GTT(Guitar Tablature Transcription)のような特定の応用では、連続的に評価されたピッチの輪郭を推定することがより意味がある。
連続的に評価されたピッチの輪郭を推定する GTT の定式化について述べる。
提案手法は, MPEの分解能を著しく向上し, ベースラインモデルと競合するタブレート推定結果が得られることを示した。
論文 参考訳(メタデータ) (2022-12-06T14:51:27Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Transfer Learning for Sequence Generation: from Single-source to
Multi-source [50.34044254589968]
そこで本研究では,2段階のファイントゥニング手法を提案する。また,MSGタスクにおいて,より優れた表現を学習するための微細エンコーダを備えた新しいMSGモデルを提案する。
提案手法は,WMT17 APE タスクと WMT14 テストセットを用いたマルチソース翻訳タスクにおいて,新たな最先端結果を実現する。
論文 参考訳(メタデータ) (2021-05-31T09:12:38Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。