論文の概要: Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription
- arxiv url: http://arxiv.org/abs/2309.15717v2
- Date: Wed, 24 Jan 2024 13:43:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 17:16:24.221131
- Title: Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription
- Title(参考訳): timbre-trap - 楽器非依存の音楽転写のための低リソースフレームワーク
- Authors: Frank Cwitkowitz, Kin Wai Cheuk, Woosung Choi, Marco A.
Mart\'inez-Ram\'irez, Keisuke Toyama, Wei-Hsiang Liao, Yuki Mitsufuji
- Abstract要約: Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 19.228155694144995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In recent years, research on music transcription has focused mainly on
architecture design and instrument-specific data acquisition. With the lack of
availability of diverse datasets, progress is often limited to solo-instrument
tasks such as piano transcription. Several works have explored multi-instrument
transcription as a means to bolster the performance of models on low-resource
tasks, but these methods face the same data availability issues. We propose
Timbre-Trap, a novel framework which unifies music transcription and audio
reconstruction by exploiting the strong separability between pitch and timbre.
We train a single autoencoder to simultaneously estimate pitch salience and
reconstruct complex spectral coefficients, selecting between either output
during the decoding stage via a simple switch mechanism. In this way, the model
learns to produce coefficients corresponding to timbre-less audio, which can be
interpreted as pitch salience. We demonstrate that the framework leads to
performance comparable to state-of-the-art instrument-agnostic transcription
methods, while only requiring a small amount of annotated data.
- Abstract(参考訳): 近年、音楽の書き起こしの研究は主に建築設計と楽器固有のデータ取得に焦点が当てられている。
多様なデータセットが入手できないため、進行はピアノの書き起こしのような独奏的なタスクに限られることが多い。
いくつかの研究は、低リソースタスクにおけるモデルの性能を高める手段として、マルチインストラメンテーションの転写を調査してきたが、これらの手法は同じデータ可用性の問題に直面している。
音符と音符の強い分離性を利用して、音符の書き起こしと再生を統一する新しいフレームワークTimbre-Trapを提案する。
単一のオートエンコーダを訓練し、ピッチサリエンスを推定し、複雑なスペクトル係数を再構成し、単純なスイッチ機構により復号ステージのどちらかの出力を選択する。
このようにして、モデルは音色のない音声に対応する係数を生成することを学び、これはピッチ・サリエンスと解釈できる。
このフレームワークは,少量のアノテートデータしか必要とせず,最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
関連論文リスト
- YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。
本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。
実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文 参考訳(メタデータ) (2024-07-05T19:18:33Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Melody transcription via generative pre-training [86.08508957229348]
メロディの書き起こしの鍵となる課題は、様々な楽器のアンサンブルや音楽スタイルを含む幅広いオーディオを処理できる方法を構築することである。
この課題に対処するために、広帯域オーディオの生成モデルであるJukebox(Dhariwal et al. 2020)の表現を活用する。
広義音楽のクラウドソースアノテーションから50ドル(約5,400円)のメロディ書き起こしを含む新しいデータセットを導出する。
論文 参考訳(メタデータ) (2022-12-04T18:09:23Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Jointist: Joint Learning for Multi-instrument Transcription and Its
Applications [15.921536323391226]
ジョイントリスト(Jointist)は、複数の楽器を音声クリップから書き起こし、認識し、分離することのできる、楽器を意識した多構成のフレームワークである。
ジョイントリストは、他のモジュールを条件付ける楽器認識モジュールと、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用する音源分離モジュールから構成される。
論文 参考訳(メタデータ) (2022-06-22T02:03:01Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - MT3: Multi-Task Multitrack Music Transcription [7.5947187537718905]
汎用トランスフォーマーモデルがマルチタスク自動音楽転写(AMT)を実現できることを示す。
この統合トレーニングフレームワークは、さまざまなデータセットにわたる高品質な書き起こし結果を実現する。
論文 参考訳(メタデータ) (2021-11-04T17:19:39Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。