論文の概要: Jointist: Simultaneous Improvement of Multi-instrument Transcription and
Music Source Separation via Joint Training
- arxiv url: http://arxiv.org/abs/2302.00286v1
- Date: Wed, 1 Feb 2023 07:35:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-02 13:27:39.114355
- Title: Jointist: Simultaneous Improvement of Multi-instrument Transcription and
Music Source Separation via Joint Training
- Title(参考訳): ジョイントリスト:ジョイントトレーニングによるマルチインストラクト転写と音源分離の同時改善
- Authors: Kin Wai Cheuk, Keunwoo Choi, Qiuqiang Kong, Bochen Li, Minz Won,
Ju-Chiang Wang, Yun-Ning Hung Dorien Herremans
- Abstract要約: ジョイントリスト(Jointist)は、複数の楽器を音声クリップから書き起こし、認識し、分離することのできる、楽器を意識した多構成のフレームワークである。
ジョイントリストは、他の2つのモジュールを条件付ける楽器認識モジュールで構成されており、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用する音源分離モジュールである。
- 参考スコア(独自算出の注目度): 13.148651200199689
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we introduce Jointist, an instrument-aware multi-instrument
framework that is capable of transcribing, recognizing, and separating multiple
musical instruments from an audio clip. Jointist consists of an instrument
recognition module that conditions the other two modules: a transcription
module that outputs instrument-specific piano rolls, and a source separation
module that utilizes instrument information and transcription results. The
joint training of the transcription and source separation modules serves to
improve the performance of both tasks. The instrument module is optional and
can be directly controlled by human users. This makes Jointist a flexible
user-controllable framework.
Our challenging problem formulation makes the model highly useful in the real
world given that modern popular music typically consists of multiple
instruments. Its novelty, however, necessitates a new perspective on how to
evaluate such a model. In our experiments, we assess the proposed model from
various aspects, providing a new evaluation perspective for multi-instrument
transcription. Our subjective listening study shows that Jointist achieves
state-of-the-art performance on popular music, outperforming existing
multi-instrument transcription models such as MT3. %We also argue that
transcription models can be used as a preprocessing module for other music
analysis tasks. We conducted experiments on several downstream tasks and found
that the proposed method improved transcription by more than 1 percentage
points (ppt.), source separation by 5 SDR, downbeat detection by 1.8 ppt.,
chord recognition by 1.4 ppt., and key estimation by 1.4 ppt., when utilizing
transcription results obtained from Jointist.
- Abstract(参考訳): 本稿では,複数の楽器を音声クリップから書き起こし,認識し,分離することのできる,楽器を意識したマルチインストラクトフレームワークであるJointistを紹介する。
ジョイントリストは、他の2つのモジュールを条件とする楽器認識モジュールと、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用するソース分離モジュールで構成されている。
転写およびソース分離モジュールの共同トレーニングは、両方のタスクのパフォーマンスを向上させるのに役立つ。
instrumentモジュールはオプションで、人間によって直接制御できる。
これによってjointistはフレキシブルなユーザコントロール可能なフレームワークになる。
我々の挑戦的な問題定式化は、現代ポピュラー音楽が一般的に複数の楽器で構成されていることを考えると、実世界では非常に有用である。
しかし、その新しさは、そのようなモデルを評価する新しい視点を必要としている。
実験では,提案手法を様々な側面から評価し,多構成転写の新たな評価視点を提供する。
主観的な聞き取り調査により,mt3のような既存のマルチインストゥルメント転写モデルと比較して,ジョイントストはポピュラー音楽において最先端のパフォーマンスを達成していることが示された。
また,他の音楽分析タスクのプリプロセッシングモジュールとして,転写モデルを用いることもできる。
その結果,提案手法では1パーセンテージ(ppt)以上,ソース分離(5sdr),ダウンビート検出(1.8ppt)が改善した。
1.4pptでコード認識を行う。
1.4pptであった。
は、Jointistから得られた転写結果を利用する場合。
関連論文リスト
- Timbre-Trap: A Low-Resource Framework for Instrument-Agnostic Music
Transcription [19.228155694144995]
Timbre-Trapは、音楽の書き起こしと音声の再構成を統合する新しいフレームワークである。
我々は1つのオートエンコーダを訓練し、ピッチサリエンスを同時に推定し、複雑なスペクトル係数を再構成する。
このフレームワークは、最先端の楽器に依存しない書き起こし手法に匹敵する性能を示す。
論文 参考訳(メタデータ) (2023-09-27T15:19:05Z) - Multitrack Music Transcription with a Time-Frequency Perceiver [6.617487928813374]
マルチトラック音楽の書き起こしは、複数の楽器の音符に入力された音声を同時に書き起こすことを目的としている。
本稿では,マルチトラック転写のための音声入力の時間周波数表現をモデル化する,新しいディープニューラルネットワークアーキテクチャPerceiver TFを提案する。
論文 参考訳(メタデータ) (2023-06-19T08:58:26Z) - Exploring the Efficacy of Pre-trained Checkpoints in Text-to-Music
Generation Task [86.72661027591394]
テキスト記述から完全で意味論的に一貫したシンボリック音楽の楽譜を生成する。
テキスト・音楽生成タスクにおける自然言語処理のための公開チェックポイントの有効性について検討する。
実験結果から, BLEUスコアと編集距離の類似性において, 事前学習によるチェックポイントの使用による改善が統計的に有意であることが示唆された。
論文 参考訳(メタデータ) (2022-11-21T07:19:17Z) - Jointist: Joint Learning for Multi-instrument Transcription and Its
Applications [15.921536323391226]
ジョイントリスト(Jointist)は、複数の楽器を音声クリップから書き起こし、認識し、分離することのできる、楽器を意識した多構成のフレームワークである。
ジョイントリストは、他のモジュールを条件付ける楽器認識モジュールと、楽器固有のピアノロールを出力する転写モジュールと、楽器情報と転写結果を利用する音源分離モジュールから構成される。
論文 参考訳(メタデータ) (2022-06-22T02:03:01Z) - Partner-Assisted Learning for Few-Shot Image Classification [54.66864961784989]
人間の視覚能力を模倣し、徹底的な人間のアノテーションを必要とせずに効果的なモデルを学ぶために、わずかなショットラーニングが研究されている。
本稿では,新しいクラスのプロトタイプをラベル付きサンプルから推定できるように,要素表現を得るためのトレーニング戦略の設計に焦点をあてる。
本稿では,まずパートナーエンコーダのペアワイド類似性をモデル化し,ソフトアンカーとして機能する特徴を抽出し,その出力をソフトアンカーと整列させ,分類性能を最大化しようとする2段階トレーニング手法を提案する。
論文 参考訳(メタデータ) (2021-09-15T22:46:19Z) - A Unified Model for Zero-shot Music Source Separation, Transcription and
Synthesis [13.263771543118994]
1)混合音源から個々の音源をテキスト化する,2)各音源をMIDI音符に書き起こす,3)分離音源の音色に基づいて新曲を合成する,という3つのタスクの統一モデルを提案する。
このモデルは、人間が音楽を聴くとき、私たちの心は異なる楽器の音を分離できるだけでなく、スコアや音色といったハイレベルな表現も認識できるという事実にインスピレーションを受けています。
論文 参考訳(メタデータ) (2021-08-07T14:28:21Z) - Towards Automatic Instrumentation by Learning to Separate Parts in
Symbolic Multitrack Music [33.679951600368405]
演奏中のソロ音楽の音符に楽器を動的に割り当てる自動楽器の実現可能性について検討する。
オンラインでリアルタイムに使用可能なパフォーマンスユースケースの設定に加えて、自動インスツルメンテーションはオフライン環境での補助的な構成ツールのアプリケーションも見つけることができる。
我々は,パート分離の課題を逐次多クラス分類問題として捉え,音符のシーケンスをパートラベルのシーケンスにマッピングするために機械学習を採用する。
論文 参考訳(メタデータ) (2021-07-13T08:34:44Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。