Fugu-MT 論文翻訳(概要): Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

論文の概要: Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion

arxiv url: http://arxiv.org/abs/2312.10402v2
Date: Sun, 31 Dec 2023 02:31:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-03 00:53:15.174944
Title: Annotation-free Automatic Music Transcription with Scalable Synthetic Data and Adversarial Domain Confusion
Title（参考訳）: スケーラブルな合成データと対向領域の融合による注釈なし自動音楽転写
Authors: Gakusei Sato, Taketo Akama
Abstract要約: そこで本研究では,MIDI-audio ペアデータの事前学習や対向領域の混乱を伴わない書き起こしモデルを提案する。実験では、トレーニングデータセットがMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Automatic Music Transcription (AMT) is a vital technology in the field of music information processing. Despite recent enhancements in performance due to machine learning techniques, current methods typically attain high accuracy in domains where abundant annotated data is available. Addressing domains with low or no resources continues to be an unresolved challenge. To tackle this issue, we propose a transcription model that does not require any MIDI-audio paired data through the utilization of scalable synthetic audio for pre-training and adversarial domain confusion using unannotated real audio. In experiments, we evaluate methods under the real-world application scenario where training datasets do not include the MIDI annotation of audio in the target data domain. Our proposed method achieved competitive performance relative to established baseline methods, despite not utilizing any real datasets of paired MIDI-audio. Additionally, ablation studies have provided insights into the scalability of this approach and the forthcoming challenges in the field of AMT research.
Abstract（参考訳）: AMT(Automatic Music Transcription)は、音楽情報処理において重要な技術である。機械学習技術による最近のパフォーマンス向上にもかかわらず、現在の手法は通常、豊富な注釈付きデータが利用できる領域で高い精度を達成する。低あるいは無リソースのドメインに対処することは、未解決の課題である。そこで本研究では,無記名実音声を用いた事前学習と逆境領域の混乱に対するスケーラブルな合成音声の利用により,midi-audioペアデータを必要としない転写モデルを提案する。実験では、トレーニングデータセットがターゲットデータ領域にMIDIアノテーションを含まない実世界のアプリケーションシナリオ下での手法を評価する。提案手法は,組合わせMIDI-audioの実際のデータセットを利用せずに,確立されたベースライン手法と比較して競争性能が向上した。さらに、アブレーション研究は、このアプローチのスケーラビリティと、ATT研究の分野における今後の課題に関する洞察を与えている。

関連論文リスト

Towards Realistic Synthetic Data for Automatic Drum Transcription [3.975380931806995]
本稿では,ペアオーディオ-MIDIトレーニングデータの必要性を回避するために,ADT(Automatic Drum Transcription)の新たなパラダイムを提案する。我々の主な貢献は、ラベルなし音源からの1発ドラムサンプルの多種多様なコーパスを自動的にキュレートする半教師付き手法である。次に、このコーパスを用いて、MIDIファイルのみから高品質なデータセットを合成し、シーケンス対シーケンスの転写モデルをトレーニングする。
論文参考訳（メタデータ） (2026-01-14T14:39:05Z)
Exploring Procedural Data Generation for Automatic Acoustic Guitar Fingerpicking Transcription [2.8544822698499255]
本研究では、実際の音声記録の代替として、手続き型データ生成パイプラインについて検討する。提案手法は,知識ベースフィンガーピッキング・タブチュア・コンポジション,MIDIパフォーマンス・レンダリング,物理モデリングの4段階を通じてトレーニングデータを合成する。我々は、実データと合成データの両方でCRNNベースのノート追跡モデルを訓練し、評価し、手続きデータを用いて適切なノート追跡結果が得られることを示す。
論文参考訳（メタデータ） (2025-08-11T13:52:17Z)
From Alignment to Advancement: Bootstrapping Audio-Language Alignment with Synthetic Data [55.2480439325792]
音声対応の大規模言語モデル(ALLM)は近年,音声入力の理解と処理において大きな進歩を遂げている。これらのモデルは典型的にはテキストベースの大規模言語モデル(LLM)に適応し、音声関連タスクのさらなるトレーニングを行う。本研究では、現在と欠落した音を区別するALLMの能力を高めるために、コントラッシブな訓練データを生成するデータ生成フレームワークを提案する。
論文参考訳（メタデータ） (2025-05-26T16:08:41Z)
Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。 LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文参考訳（メタデータ） (2025-05-20T15:44:01Z)
Synthio: Augmenting Small-Scale Audio Classification Datasets with Synthetic Data [69.7174072745851]
音声分類データセットを合成データで拡張する新しい手法であるSynthioを提案する。最初の課題を克服するために、好みの最適化を用いて、T2Aモデルの世代と小規模データセットを整列する。 2つ目の課題に対処するために,大規模言語モデルの推論能力を活用する新しいキャプション生成手法を提案する。
論文参考訳（メタデータ） (2024-10-02T22:05:36Z)
Analyzing and reducing the synthetic-to-real transfer gap in Music Information Retrieval: the task of automatic drum transcription [0.6554326244334866]
データ量を増やすために使われる一般的な方法は、仮想楽器でレンダリングされた楽譜から合成的にデータを生成することである。この方法では、ほぼ無限のトラックを生成できるが、以前に作成された合成データセットで訓練されたモデルが実際のトラックにうまく転送されないことを示す実証的な証拠がある。本研究では,データ量の増加に加えて,実践者が生成したデータの現実性を改善するために利用できる3つの戦略を特定し,評価する。
論文参考訳（メタデータ） (2024-07-29T09:17:16Z)
YourMT3+: Multi-instrument Music Transcription with Enhanced Transformer Architectures and Cross-dataset Stem Augmentation [15.9795868183084]
マルチストラクチャメント音楽の書き起こしは、ポリフォニック音楽の録音を各楽器に割り当てられた楽譜に変換することを目的としている。本稿では、マルチストラクチャメント音楽の書き起こし強化のためのモデルの組であるYourMT3+を紹介する。実験では,音声分離前処理装置の不要さを排除し,直接音声書き起こし機能を示す。
論文参考訳（メタデータ） (2024-07-05T19:18:33Z)
Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。 RAFは密集した室内音響データを提供する最初のデータセットである。
論文参考訳（メタデータ） (2024-03-27T17:59:56Z)
Perceptual Musical Features for Interpretable Audio Tagging [2.1730712607705485]
本研究では,音楽の自動タグ付けにおける解釈可能性の関連性について検討する。 3つの異なる情報抽出手法を組み込んだワークフローを構築した。 MTG-JamendoデータセットとGTZANデータセットの2つのデータセットについて実験を行った。
論文参考訳（メタデータ） (2023-12-18T14:31:58Z)
Self-Supervised Visual Acoustic Matching [63.492168778869726]
音響マッチングは、ターゲットの音響環境に録音されたかのように、音声クリップを再合成することを目的としている。そこで本研究では,対象のシーン画像と音声のみを含む,視覚的音響マッチングのための自己教師型アプローチを提案する。提案手法は,条件付きGANフレームワークと新しいメトリクスを用いて,室内音響をアンタングル化し,音をターゲット環境に再合成する方法を共同で学習する。
論文参考訳（メタデータ） (2023-07-27T17:59:59Z)
RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。 RMS-SVS方式であるRMSSingerを提案する。 RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文参考訳（メタデータ） (2023-05-18T03:57:51Z)
Transfer of knowledge among instruments in automatic music transcription [2.0305676256390934]
この研究は、ソフトウェアシンセサイザーが生成した合成音声データを使って、普遍的なモデルを訓練する方法を示す。これは、他の楽器の転写モデルに迅速に適応するために、さらなる転写学習を行うための良い基盤である。
論文参考訳（メタデータ） (2023-04-30T08:37:41Z)
Bi-level Alignment for Cross-Domain Crowd Counting [113.78303285148041]
現在の手法は、補助的なタスクを訓練したり、高価な粗大な見積もりを適用したりするための外部データに依存している。そこで我々は, 簡易かつ効率的に適用可能な, 逆学習に基づく新しい手法を開発した。実世界の5つのクラウドカウントベンチマークに対するアプローチを評価し、既存のアプローチを大きなマージンで上回ります。
論文参考訳（メタデータ） (2022-05-12T02:23:25Z)
Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文参考訳（メタデータ） (2022-04-28T17:31:43Z)
Unsupervised Domain Adaptation for Acoustic Scene Classification Using Band-Wise Statistics Matching [69.24460241328521]
機械学習アルゴリズムは、トレーニング(ソース)とテスト(ターゲット)データの分散のミスマッチの影響を受けやすい。本研究では,ターゲット領域音響シーンの各周波数帯域の1次及び2次サンプル統計値と,ソース領域学習データセットの1次と2次サンプル統計値との整合性を有する教師なし領域適応手法を提案する。提案手法は,文献にみられる最先端の教師なし手法よりも,ソース・ドメインの分類精度とターゲット・ドメインの分類精度の両面で優れていることを示す。
論文参考訳（メタデータ） (2020-04-30T23:56:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。