論文の概要: A Convolutional-Attentional Neural Framework for Structure-Aware
Performance-Score Synchronization
- arxiv url: http://arxiv.org/abs/2204.08822v1
- Date: Tue, 19 Apr 2022 11:41:21 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-20 18:30:42.708390
- Title: A Convolutional-Attentional Neural Framework for Structure-Aware
Performance-Score Synchronization
- Title(参考訳): 構造認識性能スコア同期のための畳み込み注意ニューラルネットワークフレームワーク
- Authors: Ruchit Agrawal, Daniel Wolff, Simon Dixon
- Abstract要約: 性能スコア同期は信号処理において重要なタスクである。
従来の同期手法は知識駆動アプローチを用いてアライメントを計算する。
構造スコア同期のための新しいデータ駆動方式を提案する。
- 参考スコア(独自算出の注目度): 12.951369232106178
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Performance-score synchronization is an integral task in signal processing,
which entails generating an accurate mapping between an audio recording of a
performance and the corresponding musical score. Traditional synchronization
methods compute alignment using knowledge-driven and stochastic approaches, and
are typically unable to generalize well to different domains and modalities. We
present a novel data-driven method for structure-aware performance-score
synchronization. We propose a convolutional-attentional architecture trained
with a custom loss based on time-series divergence. We conduct experiments for
the audio-to-MIDI and audio-to-image alignment tasks pertained to different
score modalities. We validate the effectiveness of our method via ablation
studies and comparisons with state-of-the-art alignment approaches. We
demonstrate that our approach outperforms previous synchronization methods for
a variety of test settings across score modalities and acoustic conditions. Our
method is also robust to structural differences between the performance and
score sequences, which is a common limitation of standard alignment approaches.
- Abstract(参考訳): パフォーマンススコア同期は信号処理において不可欠なタスクであり、演奏のオーディオ記録と対応する楽譜との正確なマッピングを生成する。
従来の同期手法は知識駆動的アプローチと確率的アプローチを用いてアライメントを計算するが、通常は異なる領域やモダリティに対してうまく一般化できない。
構造認識性能スコア同期のための新しいデータ駆動方式を提案する。
本稿では,時系列の発散に基づくカスタム損失を訓練した畳み込み型アーキテクチャを提案する。
異なるスコアのモダリティに関連する音声から画像へのアライメントタスクについて実験を行う。
本手法の有効性をアブレーション研究および最先端アライメント手法との比較により検証した。
提案手法は,スコアのモーダリティと音響条件にまたがる様々なテスト設定において,従来の同期方式よりも優れていることを示す。
また,本手法は,標準アライメントアプローチの一般的な限界である性能とスコア列の構造的差異にも頑健である。
関連論文リスト
- Decomposable Transformer Point Processes [2.1756081703276]
本稿では,注目に基づくアーキテクチャの利点の維持と,薄型化アルゴリズムの限界を回避する枠組みを提案する。
提案手法は,その履歴が与えられたシーケンスの次の事象を予測する上で,最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T13:22:58Z) - Automatic Equalization for Individual Instrument Tracks Using Convolutional Neural Networks [2.5944208050492183]
本稿では,個々の楽器トラックの自動等化のための新しい手法を提案する。
本手法は,対象とする理想スペクトルを選択するために,音源記録中に存在する機器を同定することから始める。
我々は、従来確立されていた最先端技術に対する改善を実証する、微分可能なパラメトリック等化器マッチングニューラルネットワークを構築した。
論文 参考訳(メタデータ) (2024-07-23T17:55:25Z) - Match-Stereo-Videos: Bidirectional Alignment for Consistent Dynamic Stereo Matching [17.344430840048094]
最近の学習に基づく手法では, 一つのステレオペア上での最適性能が優先され, 時間的矛盾が生じている。
本研究では,隣接フレームの双方向アライメント機構を基本動作として開発する。
既存の手法とは異なり、我々はこのタスクを局所的なマッチングとグローバルアグリゲーションとしてモデル化する。
論文 参考訳(メタデータ) (2024-03-16T01:38:28Z) - Synchformer: Efficient Synchronization from Sparse Cues [100.89656994681934]
コントリビューションには、新しい音声-視覚同期モデル、同期モデルからの抽出を分離するトレーニングが含まれる。
このアプローチは、濃密な設定とスパース設定の両方において最先端の性能を実現する。
また,100万スケールの 'in-the-wild' データセットに同期モデルのトレーニングを拡張し,解釈可能性に対するエビデンス属性技術を調査し,同期モデルの新たな機能であるオーディオ-視覚同期性について検討する。
論文 参考訳(メタデータ) (2024-01-29T18:59:55Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Diffusion Action Segmentation [63.061058214427085]
本稿では,このような反復的洗練の本質的な精神を共用した拡散モデルによる新しい枠組みを提案する。
このフレームワークでは、入力された映像の特徴を条件としてランダムノイズから行動予測を反復的に生成する。
論文 参考訳(メタデータ) (2023-03-31T10:53:24Z) - Towards Context-Aware Neural Performance-Score Synchronisation [2.0305676256390934]
音楽の同期は、音楽の複数の表現を統一的にナビゲートする手段を提供する。
従来の同期手法は知識駆動と性能分析のアプローチを用いてアライメントを計算する。
このPhDは、データ駆動型コンテクスト対応アライメントアプローチの提案により、パフォーマンススコア同期の研究をさらに進める。
論文 参考訳(メタデータ) (2022-05-31T16:45:25Z) - FineDiving: A Fine-grained Dataset for Procedure-aware Action Quality
Assessment [93.09267863425492]
競争力のあるスポーツビデオにおける行動の高レベル意味論と内部時間構造の両方を理解することが、予測を正確かつ解釈可能なものにする鍵である、と我々は主張する。
本研究では,多様なダイビングイベントに対して,アクションプロシージャに関する詳細なアノテーションを付加した,ファインディビングと呼ばれる詳細なデータセットを構築した。
論文 参考訳(メタデータ) (2022-04-07T17:59:32Z) - Looking into Your Speech: Learning Cross-modal Affinity for Audio-visual
Speech Separation [73.1652905564163]
本稿では,音声-視覚的ニューラル処理を用いて音声信号と映像を分離する問題に対処する。
従来の手法では、フレームワイドマッチング基準を用いて、音声とビデオの共有情報を抽出する。
音声と視覚ストリーム間の局所的な親和性だけでなく,グローバル通信を学習するクロスモーダル親和性ネットワーク(CaffNet)を提案する。
論文 参考訳(メタデータ) (2021-03-25T15:39:12Z) - Exploiting Attention-based Sequence-to-Sequence Architectures for Sound
Event Localization [113.19483349876668]
本稿では,注意に基づくシーケンス・ツー・シーケンスモデルを用いて,音のイベントの局所化に新たなアプローチを提案する。
それは無響および残響の条件の最先端の方法と比較される優秀なローカリゼーションの性能をもたらします。
論文 参考訳(メタデータ) (2021-02-28T07:52:20Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。