Fugu-MT 論文翻訳(概要): Annotation-Free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

論文の概要: Annotation-Free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

arxiv url: http://arxiv.org/abs/2312.10402v1
Date: Sat, 16 Dec 2023 10:07:18 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-19 16:38:58.678236
Title: Annotation-Free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion
Title（参考訳）: スケーラブルな合成データと対向領域の融合による注釈なし自動音楽転写
Authors: Gakusei Sato, Taketo Akama
Abstract要約: 本稿では, 拡張性のある合成音声を用いて, 事前学習や対向領域の混乱を回避し, アノテーションなしの書き起こしモデルを提案する。提案手法は,注釈付き実音声データの混合による学習に比べて,アノテーションのない条件下で高い精度を実現することができる。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic Music Transcription (AMT) is a crucial technology in music information processing. Despite recent improvements in performance through machine learning approaches, existing methods often achieve high accuracy in domains with abundant annotation data, primarily due to the difficulty of creating annotation data. A practical transcription model requires an architecture that does not require an annotation data. In this paper, we propose an annotation-free transcription model achieved through the utilization of scalable synthetic audio for pre-training and adversarial domain confusion using unannotated real audio. Through evaluation experiments, we confirm that our proposed method can achieve higher accuracy under annotation-free conditions compared to when learning with mixture of annotated real audio data. Additionally, through ablation studies, we gain insights into the scalability of this approach and the challenges that lie ahead in the field of AMT research.
Abstract（参考訳）: AMT(Automatic Music Transcription)は、音楽情報処理において重要な技術である。機械学習アプローチによる最近のパフォーマンス向上にもかかわらず、既存の手法はアノテーションデータを作成するのが難しいため、豊富なアノテーションデータを持つドメインで高い精度を達成することが多い。実用的な転写モデルは、アノテーションデータを必要としないアーキテクチャを必要とする。本稿では,スケーラブルな合成音声を用いて,無注実音声を用いた事前学習と逆境領域の混乱を回避し,アノテーションフリーな書き起こしモデルを提案する。評価実験により,提案手法は注釈付き実音声データの混合学習と比較して,アノテーションのない条件下で高い精度が得られることを確認した。さらに、アブレーション研究を通じて、このアプローチのスケーラビリティと、ATT研究の分野における今後の課題について洞察を得る。

関連論文リスト

From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。 LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文参考訳（メタデータ） (2025-05-20T15:44:01Z)
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文参考訳（メタデータ） (2024-10-02T22:05:36Z)
Analyzing and reducing the synthetic-to-real transfer gap in Music Information Retrieval: the task of automatic drum transcription [0.6554326244334866]
データ量を増やすために使われる一般的な方法は、仮想楽器でレンダリングされた楽譜から合成的にデータを生成することである。この方法では、ほぼ無限のトラックを生成できるが、以前に作成された合成データセットで訓練されたモデルが実際のトラックにうまく転送されないことを示す実証的な証拠がある。本研究では,データ量の増加に加えて,実践者が生成したデータの現実性を改善するために利用できる3つの戦略を特定し,評価する。
論文参考訳（メタデータ） (2024-07-29T09:17:16Z)
YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文参考訳（メタデータ） (2024-07-05T19:18:33Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。 3つの異なる情報抽出手法を組み込んだワークフローを構築した。 MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文参考訳（メタデータ） (2023-12-18T14:31:58Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文参考訳（メタデータ） (2023-04-30T08:37:41Z)
Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-05-12T02:23:25Z)
Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文参考訳（メタデータ） (2022-04-28T17:31:43Z)
Unsupervised Domain Adaptation for Acoustic Scene Classification Using Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文参考訳（メタデータ） (2020-04-30T23:56:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。