論文の概要: Just Label the Repeats for In-The-Wild Audio-to-Score Alignment
- arxiv url: http://arxiv.org/abs/2411.07428v1
- Date: Mon, 11 Nov 2024 23:05:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-13 13:19:57.835232
- Title: Just Label the Repeats for In-The-Wild Audio-to-Score Alignment
- Title(参考訳): In-The-Wild Audio-to-Scoreアライメントのためのリピートラベル
- Authors: Irmak Bukey, Michael Feffer, Chris Donahue,
- Abstract要約: In-the-wild Performance Audioとそれに対応する楽譜スキャン(画像)のアライメントのための効率的なワークフローを提案する。
提案したジャンプアノテーションワークフローと特徴表現の改善により,先行作業と比較してアライメント精度が150%向上したことを示す。
- 参考スコア(独自算出の注目度): 7.7805314458791806
- License:
- Abstract: We propose an efficient workflow for high-quality offline alignment of in-the-wild performance audio and corresponding sheet music scans (images). Recent work on audio-to-score alignment extends dynamic time warping (DTW) to be theoretically able to handle jumps in sheet music induced by repeat signs-this method requires no human annotations, but we show that it often yields low-quality alignments. As an alternative, we propose a workflow and interface that allows users to quickly annotate jumps (by clicking on repeat signs), requiring a small amount of human supervision but yielding much higher quality alignments on average. Additionally, we refine audio and score feature representations to improve alignment quality by: (1) integrating measure detection into the score feature representation, and (2) using raw onset prediction probabilities from a music transcription model instead of piano roll. We propose an evaluation protocol for audio-to-score alignment that computes the distance between the estimated and ground truth alignment in units of measures. Under this evaluation, we find that our proposed jump annotation workflow and improved feature representations together improve alignment accuracy by 150% relative to prior work (33% to 82%).
- Abstract(参考訳): そこで本研究では,高品質で高品質な演奏音声と対応する楽譜スキャン(画像)のオフラインアライメントを実現するための効率的なワークフローを提案する。
近年の音声とスコアのアライメントの研究は、動的時間ワープ(DTW)を拡張して、リピートサインによって誘導されるシート音楽のジャンプを理論的に扱えるようにしている。
代替として、ユーザーはジャンプを素早くアノテートできるワークフローとインターフェースを提案し(リピートサインをクリックすることで)、少量の人的監督を必要とするが、平均よりもはるかに高品質なアライメントが得られる。
さらに,(1)スコア特徴表現に測度検出を統合すること,(2)ピアノロールの代わりに音楽の書き起こしモデルから生のオンセット予測確率を用いることにより,アライメント品質を向上させるために,オーディオとスコアの特徴表現を洗練し,アライメント品質を向上させる。
本研究では,測度単位における推定真理アライメントと地上真理アライメントとの距離を計算できるオーディオ・スコアアライメントの評価プロトコルを提案する。
この評価により,提案したジャンプアノテーションワークフローと特徴表現の改善により,先行作業(33%~82%)と比較してアライメント精度が150%向上することがわかった。
関連論文リスト
- Optimizing Contextual Speech Recognition Using Vector Quantization for Efficient Retrieval [18.333752341467083]
バイアス機構は典型的には、オーディオとバイアスのエントリのカタログの間のクロスアテンションモジュールに基づいている。
本研究では,ベクトル量子化に基づくクロスアテンションスコアリングに対する近似を提案する。
検索に基づくショートリスト化により,数千のエントリのバイアス付けカタログを効率よく活用できることを示す。
論文 参考訳(メタデータ) (2024-11-01T15:28:03Z) - Estimated Audio-Caption Correspondences Improve Language-Based Audio Retrieval [3.5570874721859016]
本稿では,複数の検索モデルを推定文を使わずに訓練する2段階の訓練手法を提案する。
第2段階では、これらのモデルによって予測される音声カプセル対応が予測ターゲットとして機能する。
提案手法をClosoV2とAudioCapsベンチマークで評価し, 自己蒸留条件が制限された場合でも, 検索性能が向上することを示す。
論文 参考訳(メタデータ) (2024-08-21T14:10:58Z) - Online Symbolic Music Alignment with Offline Reinforcement Learning [0.0]
シンボリック・ミュージック・アライメント(シンボリック・ミュージック・アライメント)は、演奏されたMIDI音符と対応する楽譜とをマッチングするプロセスである。
本稿では,強化学習に基づくオンラインシンボリック音楽アライメント手法を提案する。
提案モデルは,オフラインのシンボリック音楽アライメントの最先端参照モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-31T11:42:42Z) - STELLA: Continual Audio-Video Pre-training with Spatio-Temporal Localized Alignment [61.83340833859382]
様々な音声・ビデオの意味を時間とともに継続的に学習することは、音声関連推論タスクに不可欠である。
これは非時間的問題であり、オーディオとビデオのペア間のスパース時間相関と、オーディオとビデオの関係を忘れるマルチモーダル相関オーバーライトという2つの重要な課題を提起する。
本稿では,2つの新しいアイデアを取り入れた連続的なオーディオビデオ事前学習手法を提案する。
論文 参考訳(メタデータ) (2023-10-12T10:50:21Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Iterative pseudo-forced alignment by acoustic CTC loss for
self-supervised ASR domain adaptation [80.12316877964558]
特定のドメインからの高品質なデータラベリングはコストと人的時間を要する。
本稿では,反復的擬力アライメントアルゴリズムに基づく自己教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2022-10-27T07:23:08Z) - Unaligned Supervision For Automatic Music Transcription in The Wild [1.2183405753834562]
NoteEMは、トランクレーバーを同時に訓練し、スコアを対応するパフォーマンスに合わせる方法である。
我々は、MAPSデータセットのSOTAノートレベル精度と、データセット間の評価において好適なマージンを報告した。
論文 参考訳(メタデータ) (2022-04-28T17:31:43Z) - Cross-domain Speech Recognition with Unsupervised Character-level
Distribution Matching [60.8427677151492]
2つの領域における各文字間の微粒化適応を行うための文字レベルの分布マッチング手法であるCMatchを提案する。
Libri-Adaptデータセットを用いた実験の結果,提案手法はクロスデバイスとクロス環境の両方で14.39%,16.50%の単語誤り率(WER)を低減できることがわかった。
論文 参考訳(メタデータ) (2021-04-15T14:36:54Z) - Learning Frame Similarity using Siamese networks for Audio-to-Score
Alignment [13.269759433551478]
そこで本稿では,学習フレームの類似性を利用して音声とスコアのアライメントの制限を克服する手法を提案する。
ピアノ音楽のオフラインオーディオ・スコアアライメントに焦点を当てる。
論文 参考訳(メタデータ) (2020-11-15T14:58:03Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。