論文の概要: Fine-Tuning MIDI-to-Audio Alignment using a Neural Network on Piano Roll and CQT Representations
- arxiv url: http://arxiv.org/abs/2506.22237v1
- Date: Fri, 27 Jun 2025 13:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.225859
- Title: Fine-Tuning MIDI-to-Audio Alignment using a Neural Network on Piano Roll and CQT Representations
- Title(参考訳): ピアノロールとCQT表現のニューラルネットワークを用いた微調整MIDI-to-Audioアライメント
- Authors: Sebastian Murgul, Moritz Reiser, Michael Heizmann, Christoph Seibert,
- Abstract要約: 本稿では,人間のピアノ演奏の音声録音と,それに対応するゆるやかなMIDIファイルとを同期させるニューラルネットワーク手法を提案する。
提案手法は,業界標準の動的時間ワープ法(DTW)よりも最大20%高いアライメント精度を実現する。
- 参考スコア(独自算出の注目度): 2.3249139042158853
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In this paper, we present a neural network approach for synchronizing audio recordings of human piano performances with their corresponding loosely aligned MIDI files. The task is addressed using a Convolutional Recurrent Neural Network (CRNN) architecture, which effectively captures spectral and temporal features by processing an unaligned piano roll and a spectrogram as inputs to estimate the aligned piano roll. To train the network, we create a dataset of piano pieces with augmented MIDI files that simulate common human timing errors. The proposed model achieves up to 20% higher alignment accuracy than the industry-standard Dynamic Time Warping (DTW) method across various tolerance windows. Furthermore, integrating DTW with the CRNN yields additional improvements, offering enhanced robustness and consistency. These findings demonstrate the potential of neural networks in advancing state-of-the-art MIDI-to-audio alignment.
- Abstract(参考訳): 本稿では,人間のピアノ演奏の録音を,対応するゆるやかなMIDIファイルと同期させるニューラルネットワークアプローチを提案する。
このタスクは畳み込みリカレントニューラルネットワーク(CRNN)アーキテクチャを用いて対処され、不整合ピアノロールとスペクトログラムを入力として処理し、整合ピアノロールを推定することで、スペクトルおよび時間的特徴を効果的にキャプチャする。
ネットワークをトレーニングするために、一般的な人間のタイミングエラーをシミュレートするMIDIファイルを付加したピアノ曲のデータセットを作成する。
提案手法は,業界標準の動的時間ワープ(DTW)法よりも最大20%高いアライメント精度を実現する。
さらに、DTWとCRNNを統合することで、さらに改善され、堅牢性と一貫性が向上した。
これらの結果は、最先端MIDI-to-audioアライメントにおけるニューラルネットワークの可能性を示している。
関連論文リスト
- Designing Neural Synthesizers for Low-Latency Interaction [8.27756937768806]
対話型ニューラルオーディオ合成(NAS)モデルで典型的に見られる遅延源とジッタについて検討する。
次に、この解析を畳み込み変分オートエンコーダであるRAVEを用いて音色伝達のタスクに適用する。
これは、私たちがBRAVEと呼ぶ低レイテンシで、ピッチと大音量の再現性が向上したモデルで終わる。
論文 参考訳(メタデータ) (2025-03-14T16:30:31Z) - R-MelNet: Reduced Mel-Spectral Modeling for Neural TTS [1.8927791081850118]
本稿では、バックエンドのWaveRNNスタイルのオーディオデコーダを備えた2部自動回帰アーキテクチャであるR-MelNetを紹介する。
このモデルは、WaveRNNデコーダが音声波形を生成するために使用する低分解能メルスペクトル特性を生成する。
論文 参考訳(メタデータ) (2022-06-30T13:29:31Z) - Multi-instrument Music Synthesis with Spectrogram Diffusion [19.81982315173444]
我々は、MIDIシーケンスから任意の組み合わせの楽器をリアルタイムで生成できるニューラルシンセサイザーの中盤に焦点を当てる。
MIDIはエンコーダ・デコーダ変換器でスペクトログラム、次いでGAN(Generative Adversarial Network)スペクトルインバータでスペクトログラムからオーディオへ分光する。
これは、楽器と音符の任意の組み合わせのための対話的で表現力のあるニューラルシンセシスに向けた、有望な第一歩である。
論文 参考訳(メタデータ) (2022-06-11T03:26:15Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - TONet: Tone-Octave Network for Singing Melody Extraction from Polyphonic
Music [43.17623332544677]
TONetは、トーンとオクターブの両方の知覚を改善するプラグアンドプレイモデルである。
本稿では,高調波を明示的にグループ化する改良された入力表現Tone-CFPを提案する。
第3に,最終的なサリエンス特徴写像を改善するために,トーンオクターブ融合機構を提案する。
論文 参考訳(メタデータ) (2022-02-02T10:55:48Z) - Two-Timescale End-to-End Learning for Channel Acquisition and Hybrid
Precoding [94.40747235081466]
本研究では,ミリ波(mmWave)大規模マルチインプット多重出力(MIMO)システムのためのエンドツーエンドの深層学習に基づくジョイントトランスシーバ設計アルゴリズムを提案する。
我々は受信したパイロットを受信機でフィードバックビットにマッピングし、さらに送信機でハイブリッドプリコーダにフィードバックビットをマッピングするDNNアーキテクチャを開発した。
論文 参考訳(メタデータ) (2021-10-22T20:49:02Z) - BERT-like Pre-training for Symbolic Piano Music Classification Tasks [15.02723006489356]
本稿では,BERT (Bidirectional Representations from Transformers) を用いたシンボリックピアノ音楽分類のベンチマーク研究について述べる。
BERT手法を用いて2つの12層トランスフォーマーモデルを事前訓練し、4つの下流分類タスクでそれらを微調整する。
評価の結果,BERTアプローチはリカレントニューラルネットワーク(RNN)ベースラインよりも高い分類精度が得られた。
論文 参考訳(メタデータ) (2021-07-12T07:03:57Z) - ANNETTE: Accurate Neural Network Execution Time Estimation with Stacked
Models [56.21470608621633]
本稿では,アーキテクチャ検索を対象ハードウェアから切り離すための時間推定フレームワークを提案する。
提案手法は,マイクロカーネルと多層ベンチマークからモデルの集合を抽出し,マッピングとネットワーク実行時間推定のためのスタックモデルを生成する。
生成した混合モデルの推定精度と忠実度, 統計モデルとルーフラインモデル, 評価のための洗練されたルーフラインモデルを比較した。
論文 参考訳(メタデータ) (2021-05-07T11:39:05Z) - Neural Architecture Search For LF-MMI Trained Time Delay Neural Networks [61.76338096980383]
TDNN(State-of-the-the-art Factored Time delay Neural Network)の2種類のハイパーパラメータを自動的に学習するために、さまざまなニューラルネットワークサーチ(NAS)技術が使用されている。
DARTSメソッドはアーキテクチャ選択とLF-MMI(格子のないMMI)TDNNトレーニングを統合する。
300時間のSwitchboardコーパスで行われた実験では、自動構成システムはベースラインLF-MMI TDNNシステムより一貫して優れていることが示唆された。
論文 参考訳(メタデータ) (2020-07-17T08:32:11Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。