論文の概要: MT3: Multi-Task Multitrack Music Transcription
- arxiv url: http://arxiv.org/abs/2111.03017v1
- Date: Thu, 4 Nov 2021 17:19:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-05 16:38:56.691685
- Title: MT3: Multi-Task Multitrack Music Transcription
- Title(参考訳): mt3:マルチタスクのマルチトラック音楽書き起こし
- Authors: Josh Gardner, Ian Simon, Ethan Manilow, Curtis Hawthorne, Jesse Engel
- Abstract要約: 汎用トランスフォーマーモデルがマルチタスク自動音楽転写(AMT)を実現できることを示す。
この統合トレーニングフレームワークは、さまざまなデータセットにわたる高品質な書き起こし結果を実現する。
- 参考スコア(独自算出の注目度): 7.5947187537718905
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic Music Transcription (AMT), inferring musical notes from raw audio,
is a challenging task at the core of music understanding. Unlike Automatic
Speech Recognition (ASR), which typically focuses on the words of a single
speaker, AMT often requires transcribing multiple instruments simultaneously,
all while preserving fine-scale pitch and timing information. Further, many AMT
datasets are "low-resource", as even expert musicians find music transcription
difficult and time-consuming. Thus, prior work has focused on task-specific
architectures, tailored to the individual instruments of each task. In this
work, motivated by the promising results of sequence-to-sequence transfer
learning for low-resource Natural Language Processing (NLP), we demonstrate
that a general-purpose Transformer model can perform multi-task AMT, jointly
transcribing arbitrary combinations of musical instruments across several
transcription datasets. We show this unified training framework achieves
high-quality transcription results across a range of datasets, dramatically
improving performance for low-resource instruments (such as guitar), while
preserving strong performance for abundant instruments (such as piano).
Finally, by expanding the scope of AMT, we expose the need for more consistent
evaluation metrics and better dataset alignment, and provide a strong baseline
for this new direction of multi-task AMT.
- Abstract(参考訳): 生音声から音符を推定するAMT(Automatic Music Transcription)は,音楽理解の核となる課題である。
単一の話者の単語に焦点を絞った自動音声認識(ASR)とは異なり、ATTは音高やタイミング情報を保存しながら、複数の楽器を同時に書き起こさなければならないことが多い。
さらに、多くのAMTデータセットは「低リソース」であり、専門家のミュージシャンでさえ音楽の書き起こしが難しく、時間を要すると考えている。
したがって、以前の作業はタスク固有のアーキテクチャに重点を置いており、各タスクの個々のインスツルメントに合わせたものである。
本研究では,低リソース自然言語処理(NLP)のためのシーケンス・ツー・シーケンス・トランスファー学習(Sequence-to-Sequence Transfer Learning)の有望な結果から,汎用トランスフォーマーモデルがマルチタスクATTを実行できることを示す。
この統一的な学習フレームワークは、様々なデータセットで高品質な書き起こし結果を達成し、低リソースの楽器(ギターなど)のパフォーマンスを劇的に向上させながら、豊富な楽器(ピアノなど)の強いパフォーマンスを維持している。
最後に、ATTの範囲を広げることで、より一貫性のある評価指標とより良いデータセットアライメントの必要性を明らかにし、マルチタスクATTの新しい方向性の強力なベースラインを提供する。
関連論文リスト
- Alignment-Free Training for Transducer-based Multi-Talker ASR [55.1234384771616]
マルチストーカーRNNT(MT-RNNT)は、フロントエンドのソース分離を犠牲にすることなく、認識を実現することを目的としている。
本稿では,MT-RNNTアーキテクチャを採用したMT-RNNT(MT-RNNT-AFT)のアライメントフリートレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-09-30T13:58:11Z) - Development of Large Annotated Music Datasets using HMM-based Forced Viterbi Alignment [0.0]
本稿では,任意の楽器のデータセットを生成するための,合理的で効率的な手法を提案する。
書き起こしのオンセットは手作業で検証され、ラベルは最大10ms、平均は5msである。
この方法は、異なる機器のためのATTシステムを構築するための具体的なデータセットを構築するための予備的なステップとして役立つ。
論文 参考訳(メタデータ) (2024-08-27T09:06:29Z) - YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - Meerkat: Audio-Visual Large Language Model for Grounding in Space and Time [73.7845280328535]
本稿では、画像と音声のきめ細かい理解を備えた音声視覚LLMであるMeerkatを紹介する。
Meerkatは、音声参照画像の接地、画像案内音声の時間的局所化、音声-視覚的事実チェックといった課題に取り組むことができる。
我々は、これらの下流タスクすべてにおいて、37.12%の相対的な改善で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-07-01T23:32:25Z) - TMT: Tri-Modal Translation between Speech, Image, and Text by Processing
Different Modalities as Different Languages [96.8603701943286]
Tri-Modal Translation (TMT) モデルは、音声、画像、テキストにまたがる任意のモダリティを翻訳する。
音声と画像データを個別のトークンにトークン化し、モダリティをまたいだ統一インターフェースを提供する。
TMTは単一モデルの性能を一貫して上回っている。
論文 参考訳(メタデータ) (2024-02-25T07:46:57Z) - Rethinking and Improving Multi-task Learning for End-to-end Speech
Translation [51.713683037303035]
異なる時間とモジュールを考慮したタスク間の整合性について検討する。
テキストエンコーダは、主にクロスモーダル変換を容易にするが、音声におけるノイズの存在は、テキストと音声表現の一貫性を妨げる。
長さと表現の差を軽減し,モーダルギャップを橋渡しする,STタスクのための改良型マルチタスク学習(IMTL)手法を提案する。
論文 参考訳(メタデータ) (2023-11-07T08:48:46Z) - Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - FretNet: Continuous-Valued Pitch Contour Streaming for Polyphonic Guitar
Tablature Transcription [0.34376560669160383]
GTT(Guitar Tablature Transcription)のような特定の応用では、連続的に評価されたピッチの輪郭を推定することがより意味がある。
連続的に評価されたピッチの輪郭を推定する GTT の定式化について述べる。
提案手法は, MPEの分解能を著しく向上し, ベースラインモデルと競合するタブレート推定結果が得られることを示した。
論文 参考訳(メタデータ) (2022-12-06T14:51:27Z) - FETA: A Benchmark for Few-Sample Task Transfer in Open-Domain Dialogue [70.65782786401257]
本研究は、オープンドメイン対話における少数サンプルタスク転送のベンチマークであるFETAを導入することにより、対話型タスク転送について検討する。
FETAには10タスクと7タスクがアノテートされた2つの基礎的な会話が含まれており、データセット内タスク転送の研究を可能にする。
3つの人気のある言語モデルと3つの学習アルゴリズムを用いて、132のソースターゲットタスクペア間の転送可能性を分析する。
論文 参考訳(メタデータ) (2022-05-12T17:59:00Z) - Multilingual Denoising Pre-training for Neural Machine Translation [132.66750663226287]
mBART(mBART)は、大規模モノリンガルコーパスで事前訓練されたシーケンスからシーケンスまでの自動エンコーダである。
mBARTは、完全なシーケンス・ツー・シーケンスモデルを事前訓練する最初の方法の1つである。
論文 参考訳(メタデータ) (2020-01-22T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。