論文の概要: Towards Context-Aware Neural Performance-Score Synchronisation
- arxiv url: http://arxiv.org/abs/2206.00454v1
- Date: Tue, 31 May 2022 16:45:25 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-04 07:15:28.398092
- Title: Towards Context-Aware Neural Performance-Score Synchronisation
- Title(参考訳): 文脈認識型ニューラルパフォーマンススコア同期に向けて
- Authors: Ruchit Agrawal
- Abstract要約: 音楽の同期は、音楽の複数の表現を統一的にナビゲートする手段を提供する。
従来の同期手法は知識駆動と性能分析のアプローチを用いてアライメントを計算する。
このPhDは、データ駆動型コンテクスト対応アライメントアプローチの提案により、パフォーマンススコア同期の研究をさらに進める。
- 参考スコア(独自算出の注目度): 2.0305676256390934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music can be represented in multiple forms, such as in the audio form as a
recording of a performance, in the symbolic form as a computer readable score,
or in the image form as a scan of the sheet music. Music synchronisation
provides a way to navigate among multiple representations of music in a unified
manner by generating an accurate mapping between them, lending itself
applicable to a myriad of domains like music education, performance analysis,
automatic accompaniment and music editing. Traditional synchronisation methods
compute alignment using knowledge-driven and stochastic approaches, typically
employing handcrafted features. These methods are often unable to generalise
well to different instruments, acoustic environments and recording conditions,
and normally assume complete structural agreement between the performances and
the scores. This PhD furthers the development of performance-score
synchronisation research by proposing data-driven, context-aware alignment
approaches, on three fronts: Firstly, I replace the handcrafted features by
employing a metric learning based approach that is adaptable to different
acoustic settings and performs well in data-scarce conditions. Secondly, I
address the handling of structural differences between the performances and
scores, which is a common limitation of standard alignment methods. Finally, I
eschew the reliance on both feature engineering and dynamic programming, and
propose a completely data-driven synchronisation method that computes
alignments using a neural framework, whilst also being robust to structural
differences between the performances and scores.
- Abstract(参考訳): 音楽は、演奏の録音としてオーディオ形式、コンピュータ可読性スコアとしてシンボリック形式、シート音楽のスキャンとしてイメージ形式など、複数の形式で表現することができる。
音楽同期は、音楽教育、パフォーマンス分析、自動伴奏、音楽編集などの無数の分野に適用可能な、正確なマッピングを生成することによって、音楽の複数の表現を統一的にナビゲートする方法を提供する。
従来の同期手法は知識駆動と確率的アプローチを用いてアライメントを計算する。
これらの手法は、しばしば異なる楽器、音響環境、記録条件にうまく一般化できず、通常、演奏とスコアの完全な構造的一致を仮定する。
このphdは、データ駆動型、コンテキスト対応のアライメントアプローチを3つの面から提案することで、パフォーマンススコア同期の研究をさらに発展させます。
第2に,標準アライメント手法の一般的な制限である演奏とスコアの構造的差異の処理について論じる。
最後に、機能エンジニアリングと動的プログラミングの両方に依存し、ニューラルネットワークを用いてアライメントを計算し、パフォーマンスとスコアの構造的差異にも頑健な、完全にデータ駆動の同期手法を提案する。
関連論文リスト
- End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - A Convolutional-Attentional Neural Framework for Structure-Aware
Performance-Score Synchronization [12.951369232106178]
性能スコア同期は信号処理において重要なタスクである。
従来の同期手法は知識駆動アプローチを用いてアライメントを計算する。
構造スコア同期のための新しいデータ駆動方式を提案する。
論文 参考訳(メタデータ) (2022-04-19T11:41:21Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - A framework to compare music generative models using automatic
evaluation metrics extended to rhythm [69.2737664640826]
本稿では,前回の研究で提示された,リズムを考慮せず,設計決定を下すための枠組みを取り上げ,単音素音楽作成における2つのrnnメモリセルの性能評価のためにリズムサポートを付加した。
モデルでは,音素変換の処理を考慮し,リズムサポートを付加した幾何学に基づく自動計測値を用いて,生成した楽曲の質を評価する。
論文 参考訳(メタデータ) (2021-01-19T15:04:46Z) - Sequence Generation using Deep Recurrent Networks and Embeddings: A
study case in music [69.2737664640826]
本稿では,異なる種類の記憶機構(メモリセル)について評価し,音楽合成分野におけるその性能について検討する。
提案したアーキテクチャの性能を自動評価するために,定量的な測定値のセットが提示される。
論文 参考訳(メタデータ) (2020-12-02T14:19:19Z) - Learning Frame Similarity using Siamese networks for Audio-to-Score
Alignment [13.269759433551478]
そこで本稿では,学習フレームの類似性を利用して音声とスコアのアライメントの制限を克服する手法を提案する。
ピアノ音楽のオフラインオーディオ・スコアアライメントに焦点を当てる。
論文 参考訳(メタデータ) (2020-11-15T14:58:03Z) - Music Gesture for Visual Sound Separation [121.36275456396075]
ミュージック・ジェスチャ(Music Gesture)は、音楽演奏時の演奏者の身体と指の動きを明示的にモデル化するキーポイントに基づく構造化表現である。
まず、コンテキスト対応グラフネットワークを用いて、視覚的コンテキストと身体力学を統合し、その後、身体の動きと対応する音声信号とを関連付けるために、音声-視覚融合モデルを適用する。
論文 参考訳(メタデータ) (2020-04-20T17:53:46Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - Continuous Melody Generation via Disentangled Short-Term Representations
and Structural Conditions [14.786601824794369]
ユーザが指定したシンボリックシナリオと過去の音楽コンテキストを組み合わせることで,メロディーを構成するモデルを提案する。
本モデルでは,8拍子の音符列を基本単位として長い旋律を生成でき,一貫したリズムパターン構造を他の特定の歌と共有することができる。
その結果,本モデルが生成する音楽は,顕著な繰り返し構造,豊かな動機,安定したリズムパターンを有する傾向が示唆された。
論文 参考訳(メタデータ) (2020-02-05T06:23:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。