論文の概要: Online Symbolic Music Alignment with Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2401.00466v1
- Date: Sun, 31 Dec 2023 11:42:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 17:05:44.129756
- Title: Online Symbolic Music Alignment with Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習によるオンラインシンボリック音楽アライメント
- Authors: Silvan David Peter
- Abstract要約: シンボリック・ミュージック・アライメント(シンボリック・ミュージック・アライメント)は、演奏されたMIDI音符と対応する楽譜とをマッチングするプロセスである。
本稿では,強化学習に基づくオンラインシンボリック音楽アライメント手法を提案する。
提案モデルは,オフラインのシンボリック音楽アライメントの最先端参照モデルよりも優れている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Symbolic Music Alignment is the process of matching performed MIDI notes to
corresponding score notes. In this paper, we introduce a reinforcement learning
(RL)-based online symbolic music alignment technique. The RL agent - an
attention-based neural network - iteratively estimates the current score
position from local score and performance contexts. For this symbolic alignment
task, environment states can be sampled exhaustively and the reward is dense,
rendering a formulation as a simplified offline RL problem straightforward. We
evaluate the trained agent in three ways. First, in its capacity to identify
correct score positions for sampled test contexts; second, as the core
technique of a complete algorithm for symbolic online note-wise alignment; and
finally, as a real-time symbolic score follower. We further investigate the
pitch-based score and performance representations used as the agent's inputs.
To this end, we develop a second model, a two-step Dynamic Time Warping
(DTW)-based offline alignment algorithm leveraging the same input
representation. The proposed model outperforms a state-of-the-art reference
model of offline symbolic music alignment.
- Abstract(参考訳): シンボリック音楽アライメント(symbolic music alignment)は、midi音符と対応するスコア音符をマッチングするプロセスである。
本稿では,強化学習(RL)に基づくオンラインシンボリック音楽アライメント手法を提案する。
注意に基づくニューラルネットワークであるrlエージェントは、ローカルスコアとパフォーマンスコンテキストから現在のスコア位置を反復的に推定する。
このシンボリックアライメントタスクでは、環境状態が徹底的にサンプリングされ、報酬が密集し、簡易なオフラインrl問題として定式化される。
訓練されたエージェントを3つの方法で評価する。
第1に、サンプリングされたテストコンテキストに対する正しいスコア位置を特定する能力、第2に、オンラインノートワイドアライメントを象徴する完全アルゴリズムのコアテクニックとして、そして最後に、リアルタイムのシンボルスコアフォロワとして。
エージェントの入力として使用するピッチベースのスコアとパフォーマンス表現についてさらに検討する。
そこで我々は,同じ入力表現を用いた2段階動的時間ゆがみ(dtw)に基づくオフラインアライメントアルゴリズム,第2モデルを開発した。
提案モデルは,オフラインシンボリック音楽アライメントの最先端参照モデルよりも優れている。
関連論文リスト
- Just Label the Repeats for In-The-Wild Audio-to-Score Alignment [7.7805314458791806]
In-the-wild Performance Audioとそれに対応する楽譜スキャン(画像)のアライメントのための効率的なワークフローを提案する。
提案したジャンプアノテーションワークフローと特徴表現の改善により,先行作業と比較してアライメント精度が150%向上したことを示す。
論文 参考訳(メタデータ) (2024-11-11T23:05:02Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - AlignSTS: Speech-to-Singing Conversion via Cross-Modal Alignment [67.10208647482109]
STS音声変換タスクは,音声録音に対応する歌唱サンプルを生成することを目的としている。
本稿では,明示的なクロスモーダルアライメントに基づくSTSモデルであるAlignSTSを提案する。
実験の結果、AlignSTSは客観的メトリクスと主観的メトリクスの両方で優れたパフォーマンスを達成している。
論文 参考訳(メタデータ) (2023-05-08T06:02:10Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Hybrid Routing Transformer for Zero-Shot Learning [83.64532548391]
本稿ではハイブリッド・ルーティング・トランス (HRT) と呼ばれる新しいトランス・デコーダモデルを提案する。
ボトムアップとトップダウンの動的ルーティング経路の両方で構築されたアクティブアテンションを組み込んで,属性に整合した視覚的特徴を生成する。
HRTデコーダでは,属性対応の視覚特徴,対応する属性セマンティクス,およびクラス属性ベクトル間の相関関係を静的なルーティングで計算し,最終クラスラベルの予測を生成する。
論文 参考訳(メタデータ) (2022-03-29T07:55:08Z) - Exploring single-song autoencoding schemes for audio-based music
structure analysis [6.037383467521294]
この研究は、低次元のオートエンコーダを訓練し、特定の歌に特有の潜在/圧縮表現を学習する「ピース固有」オートエンコード方式を探求する。
提案手法は,3秒耐性を有する教師付き最先端手法の性能レベルを実現する。
論文 参考訳(メタデータ) (2021-10-27T13:48:25Z) - Multi-modal Conditional Bounding Box Regression for Music Score
Following [7.360807642941713]
本稿では,シート画像に基づくオンラインオーディオ・スコアアライメントの問題に対処する。
条件付きニューラルネットワークアーキテクチャは、与えられた音楽演奏の各時点における完全なスコアシート画像におけるマッチング位置のx,y座標を直接予測する。
論文 参考訳(メタデータ) (2021-05-10T12:43:35Z) - Higher Performance Visual Tracking with Dual-Modal Localization [106.91097443275035]
Visual Object Tracking (VOT)は、堅牢性と正確性の両方に同期性を必要とする。
ONRによるロバストなローカリゼーション抑制器とOFCによるターゲットセンターへの正確なローカリゼーションにより、ターゲットローカリゼーションのためのデュアルモーダルフレームワークを提案します。
論文 参考訳(メタデータ) (2021-03-18T08:47:56Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - A Hybrid Approach to Audio-to-Score Alignment [13.269759433551478]
オーディオ・トゥ・スコアアライメントは、演奏音声と曲のスコアの正確なマッピングを生成することを目的としている。
標準的なアライメント手法は動的時間ウォーピング(DTW)に基づいており、手作りの機能を採用している。
本稿では,DTWに基づく自動アライメント手法の事前処理ステップとしてニューラルネットワークの利用について検討する。
論文 参考訳(メタデータ) (2020-07-28T16:04:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。