論文の概要: Annotation-Free Automatic Music Transcription with Scalable Synthetic
Data and Adversarial Domain Confusion
- arxiv url: http://arxiv.org/abs/2312.10402v1
- Date: Sat, 16 Dec 2023 10:07:18 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-19 16:38:58.678236
- Title: Annotation-Free Automatic Music Transcription with Scalable Synthetic
Data and Adversarial Domain Confusion
- Title(参考訳): スケーラブルな合成データと対向領域の融合による注釈なし自動音楽転写
- Authors: Gakusei Sato, Taketo Akama
- Abstract要約: 本稿では, 拡張性のある合成音声を用いて, 事前学習や対向領域の混乱を回避し, アノテーションなしの書き起こしモデルを提案する。
提案手法は,注釈付き実音声データの混合による学習に比べて,アノテーションのない条件下で高い精度を実現することができる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Music Transcription (AMT) is a crucial technology in music
information processing. Despite recent improvements in performance through
machine learning approaches, existing methods often achieve high accuracy in
domains with abundant annotation data, primarily due to the difficulty of
creating annotation data. A practical transcription model requires an
architecture that does not require an annotation data. In this paper, we
propose an annotation-free transcription model achieved through the utilization
of scalable synthetic audio for pre-training and adversarial domain confusion
using unannotated real audio. Through evaluation experiments, we confirm that
our proposed method can achieve higher accuracy under annotation-free
conditions compared to when learning with mixture of annotated real audio data.
Additionally, through ablation studies, we gain insights into the scalability
of this approach and the challenges that lie ahead in the field of AMT
research.
- Abstract(参考訳): AMT(Automatic Music Transcription)は、音楽情報処理において重要な技術である。
機械学習アプローチによる最近のパフォーマンス向上にもかかわらず、既存の手法はアノテーションデータを作成するのが難しいため、豊富なアノテーションデータを持つドメインで高い精度を達成することが多い。
実用的な転写モデルは、アノテーションデータを必要としないアーキテクチャを必要とする。
本稿では,スケーラブルな合成音声を用いて,無注実音声を用いた事前学習と逆境領域の混乱を回避し,アノテーションフリーな書き起こしモデルを提案する。
評価実験により,提案手法は注釈付き実音声データの混合学習と比較して,アノテーションのない条件下で高い精度が得られることを確認した。
さらに、アブレーション研究を通じて、このアプローチのスケーラビリティと、ATT研究の分野における今後の課題について洞察を得る。
関連論文リスト
- Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。
3つの異なる情報抽出手法を組み込んだワークフローを構築した。
MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文 参考訳(メタデータ) (2023-12-18T14:31:58Z) - Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。
そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。
提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文 参考訳(メタデータ) (2023-07-27T17:59:59Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。
これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文 参考訳(メタデータ) (2023-04-30T08:37:41Z) - Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。
そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。
実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文 参考訳(メタデータ) (2022-05-12T02:23:25Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Context-aware Automatic Music Transcription [10.957528713294874]
本稿では,文脈関連情報を組み込んだ自動音楽書き起こしシステムを提案する。
最先端の心理学研究を動機として,ATTシステムの精度向上手法を提案する。
論文 参考訳(メタデータ) (2022-03-30T13:36:17Z) - Artificially Synthesising Data for Audio Classification and Segmentation
to Improve Speech and Music Detection in Radio Broadcast [0.0]
無線信号に類似したデータを人工的に合成する新しい手順を提案する。
この合成データに対して畳み込み型リカレントニューラルネットワーク(crnn)を訓練し,音楽音声検出のための最先端アルゴリズムと比較した。
論文 参考訳(メタデータ) (2021-02-19T14:47:05Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Unsupervised Domain Adaptation for Acoustic Scene Classification Using
Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。
本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。
提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文 参考訳(メタデータ) (2020-04-30T23:56:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。