論文の概要: Jointist: Joint Learning for Multi-instrument Transcription and Its
Applications
- arxiv url: http://arxiv.org/abs/2206.10805v1
- Date: Wed, 22 Jun 2022 02:03:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-24 04:47:43.434223
- Title: Jointist: Joint Learning for Multi-instrument Transcription and Its
Applications
- Title(参考訳): ジョイントリスト:マルチインスツルメント転写のための共同学習とその応用
- Authors: Kin Wai Cheuk, Keunwoo Choi, Qiuqiang Kong, Bochen Li, Minz Won, Amy
Hung, Ju-Chiang Wang, Dorien Herremans
- Abstract要約: ジョイントリスト(Jointist)は、複数の楽器を音声クリップから書き起こし、認識し、分離することのできる、楽器を意識した多構成のフレームワークである。
ジョイントリストは、他のモジュールを条件付ける楽器認識モジュールと、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用する音源分離モジュールから構成される。
- 参考スコア(独自算出の注目度): 15.921536323391226
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Jointist, an instrument-aware multi-instrument
framework that is capable of transcribing, recognizing, and separating multiple
musical instruments from an audio clip. Jointist consists of the instrument
recognition module that conditions the other modules: the transcription module
that outputs instrument-specific piano rolls, and the source separation module
that utilizes instrument information and transcription results.
The instrument conditioning is designed for an explicit multi-instrument
functionality while the connection between the transcription and source
separation modules is for better transcription performance. Our challenging
problem formulation makes the model highly useful in the real world given that
modern popular music typically consists of multiple instruments. However, its
novelty necessitates a new perspective on how to evaluate such a model. During
the experiment, we assess the model from various aspects, providing a new
evaluation perspective for multi-instrument transcription. We also argue that
transcription models can be utilized as a preprocessing module for other music
analysis tasks. In the experiment on several downstream tasks, the symbolic
representation provided by our transcription model turned out to be helpful to
spectrograms in solving downbeat detection, chord recognition, and key
estimation.
- Abstract(参考訳): 本稿では,複数の楽器を音声クリップから書き起こし,認識し,分離することのできる,楽器を意識したマルチインストラクトフレームワークであるJointistを紹介する。
ジョイントリストは、他のモジュールを条件付ける楽器認識モジュールと、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用する音源分離モジュールから構成される。
インスツルメンテーションは明示的なマルチインストゥルメント機能のために設計されており、転写モジュールとソース分離モジュールの接続は転写性能の向上を目的としている。
我々の挑戦的な問題定式化は、現代ポピュラー音楽が一般的に複数の楽器で構成されていることを考えると、実世界では非常に有用である。
しかし、その新しさは、そのようなモデルを評価する新しい視点を必要としている。
実験では,様々な側面からモデルを評価し,マルチ・インシュルーメント・トランスクリプションの新たな評価視点を提供する。
また、他の音楽分析タスクの事前処理モジュールとして、転写モデルを利用することもできる。
ダウンビート検出やコード認識,キー推定など,複数の下流課題において,転写モデルが提供する記号表現は,スペクトログラムに有用であることが判明した。
関連論文リスト
- Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Simple and Controllable Music Generation [94.61958781346176]
MusicGenは単一の言語モデル(LM)であり、圧縮された離散的な音楽表現、すなわちトークンの複数のストリームで動作する。
以前の作業とは異なり、MusicGenはシングルステージのトランスフォーマーLMと効率的なトークンインターリービングパターンで構成されている。
論文 参考訳(メタデータ) (2023-06-08T15:31:05Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Modular Deep Learning [120.36599591042908]
トランスファーラーニングは近年、機械学習の主要なパラダイムとなっている。
負の干渉を伴わずに複数のタスクを専門とするモデルを開発する方法はまだ不明である。
これらの課題に対する有望な解決策として、モジュール型ディープラーニングが登場した。
論文 参考訳(メタデータ) (2023-02-22T18:11:25Z) - Jointist: Simultaneous Improvement of Multi-instrument Transcription and
Music Source Separation via Joint Training [18.391476887027583]
ジョイントリスト(Jointist)は、複数の楽器を音声クリップから書き起こし、認識し、分離することのできる、楽器を意識した多構成のフレームワークである。
ジョイントリストは、他の2つのモジュールを条件付ける楽器認識モジュールで構成されており、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用する音源分離モジュールである。
論文 参考訳(メタデータ) (2023-02-01T07:35:02Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Symphony Generation with Permutation Invariant Language Model [57.75739773758614]
変分不変言語モデルに基づくシンフォニーネットという記号的シンフォニー音楽生成ソリューションを提案する。
シンフォニートークンの超長いシーケンスをモデル化するためのバックボーンとして、新しいトランスフォーマーデコーダアーキテクチャが導入された。
実験結果から,提案手法は人間の構成と比べ,コヒーレント,新規,複雑,調和的な交響曲を生成できることが示唆された。
論文 参考訳(メタデータ) (2022-05-10T13:08:49Z) - Towards Automatic Instrumentation by Learning to Separate Parts in
Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。
オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。
我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文 参考訳(メタデータ) (2021-07-13T08:34:44Z) - Unsupervised Cross-Domain Singing Voice Conversion [105.1021715879586]
任意の同一性から音声変換を行うタスクに対して,wav-to-wav生成モデルを提案する。
提案手法は,自動音声認識のタスクのために訓練された音響モデルとメロディ抽出機能の両方を用いて波形ベースジェネレータを駆動する。
論文 参考訳(メタデータ) (2020-08-06T18:29:11Z) - Vector-Quantized Timbre Representation [53.828476137089325]
本稿では, スペクトル特性の近似分解を生成的特徴の集合で学習することにより, 個々の音色をより柔軟に合成することを目的とする。
音量分布の量子化表現を学習するために、大音量から切り離された離散潜在空間を持つオートエンコーダを導入する。
オーケストラ楽器と歌唱音声間の音声の翻訳結果と、ボーカルの模倣音から楽器への変換結果について詳述する。
論文 参考訳(メタデータ) (2020-07-13T12:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。