論文の概要: Learning Frame Similarity using Siamese networks for Audio-to-Score
Alignment
- arxiv url: http://arxiv.org/abs/2011.07546v1
- Date: Sun, 15 Nov 2020 14:58:03 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-25 07:48:07.476633
- Title: Learning Frame Similarity using Siamese networks for Audio-to-Score
Alignment
- Title(参考訳): siameseネットワークを用いた音声-スコアアライメントのための学習フレーム類似性
- Authors: Ruchit Agrawal, Simon Dixon
- Abstract要約: そこで本稿では,学習フレームの類似性を利用して音声とスコアのアライメントの制限を克服する手法を提案する。
ピアノ音楽のオフラインオーディオ・スコアアライメントに焦点を当てる。
- 参考スコア(独自算出の注目度): 13.269759433551478
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Audio-to-score alignment aims at generating an accurate mapping between a
performance audio and the score of a given piece. Standard alignment methods
are based on Dynamic Time Warping (DTW) and employ handcrafted features, which
cannot be adapted to different acoustic conditions. We propose a method to
overcome this limitation using learned frame similarity for audio-to-score
alignment. We focus on offline audio-to-score alignment of piano music.
Experiments on music data from different acoustic conditions demonstrate that
our method achieves higher alignment accuracy than a standard DTW-based method
that uses handcrafted features, and generates robust alignments whilst being
adaptable to different domains at the same time.
- Abstract(参考訳): オーディオ・トゥ・スコアアライメントは、演奏音声と曲のスコアの正確なマッピングを生成することを目的としている。
標準アライメント法は動的時間ウォーピング(DTW)に基づいており、異なる音響条件に適応できない手作りの特徴を用いる。
そこで本研究では,学習フレームの類似性を用いて,この制限を克服する手法を提案する。
ピアノ音楽のオフラインオーディオ・スコアアライメントに焦点を当てる。
音響条件の異なる音楽データに対する実験により,本手法は手作り特徴を用いた標準的なDTW法よりも高いアライメント精度を実現し,同時に異なるドメインに適応しながらロバストなアライメントを生成することを示す。
関連論文リスト
- Just Label the Repeats for In-The-Wild Audio-to-Score Alignment [7.7805314458791806]
In-the-wild Performance Audioとそれに対応する楽譜スキャン(画像)のアライメントのための効率的なワークフローを提案する。
提案したジャンプアノテーションワークフローと特徴表現の改善により,先行作業と比較してアライメント精度が150%向上したことを示す。
論文 参考訳(メタデータ) (2024-11-11T23:05:02Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Anomalous Sound Detection using Audio Representation with Machine ID
based Contrastive Learning Pretraining [52.191658157204856]
コントラスト学習を用いて、各音声サンプルではなく、各機械IDの音声表現を洗練する。
提案手法では、コントラスト学習を用いて音声表現モデルを事前学習する。
実験の結果,本手法はコントラスト学習や自己教師型分類を用いて最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-07T11:08:31Z) - Play It Back: Iterative Attention for Audio Recognition [104.628661890361]
聴覚認知の重要な機能は、特徴音とそれに対応する意味を時間とともに関連付けることである。
本稿では,最も識別性の高い音に対して選択的な繰り返しを通し,終端から終端までの注意に基づくアーキテクチャを提案する。
提案手法は,3つのオーディオ分類ベンチマークにおいて常に最先端の性能を達成可能であることを示す。
論文 参考訳(メタデータ) (2022-10-20T15:03:22Z) - Towards Context-Aware Neural Performance-Score Synchronisation [2.0305676256390934]
音楽の同期は、音楽の複数の表現を統一的にナビゲートする手段を提供する。
従来の同期手法は知識駆動と性能分析のアプローチを用いてアライメントを計算する。
このPhDは、データ駆動型コンテクスト対応アライメントアプローチの提案により、パフォーマンススコア同期の研究をさらに進める。
論文 参考訳(メタデータ) (2022-05-31T16:45:25Z) - A Convolutional-Attentional Neural Framework for Structure-Aware
Performance-Score Synchronization [12.951369232106178]
性能スコア同期は信号処理において重要なタスクである。
従来の同期手法は知識駆動アプローチを用いてアライメントを計算する。
構造スコア同期のための新しいデータ駆動方式を提案する。
論文 参考訳(メタデータ) (2022-04-19T11:41:21Z) - Using multiple reference audios and style embedding constraints for
speech synthesis [68.62945852651383]
提案モデルでは,複数の参照音声を用いて音声の自然さとコンテンツ品質を向上させることができる。
モデルは、スタイル類似性のABX選好テストにおいてベースラインモデルよりも優れている。
論文 参考訳(メタデータ) (2021-10-09T04:24:29Z) - Strumming to the Beat: Audio-Conditioned Contrastive Video Textures [112.6140796961121]
コントラスト学習を通して学習した表現を用いた無限ビデオテクスチャ合成のための非パラメトリック手法を提案する。
ビデオテクスチャから着想を得た結果、新しいビデオは1つのビデオから、新しくて一貫性のある順序でフレームを縫い合わせることで生成できることがわかった。
我々のモデルは人間の知覚スコアのベースラインを上回り、多様な入力ビデオを扱うことができ、音声信号とよく同期する映像を合成するために意味と音声の視覚的手がかりを組み合わせることができる。
論文 参考訳(メタデータ) (2021-04-06T17:24:57Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - A Hybrid Approach to Audio-to-Score Alignment [13.269759433551478]
オーディオ・トゥ・スコアアライメントは、演奏音声と曲のスコアの正確なマッピングを生成することを目的としている。
標準的なアライメント手法は動的時間ウォーピング(DTW)に基づいており、手作りの機能を採用している。
本稿では,DTWに基づく自動アライメント手法の事前処理ステップとしてニューラルネットワークの利用について検討する。
論文 参考訳(メタデータ) (2020-07-28T16:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。