論文の概要: Multi-modal Conditional Bounding Box Regression for Music Score
Following
- arxiv url: http://arxiv.org/abs/2105.04309v1
- Date: Mon, 10 May 2021 12:43:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-11 14:23:15.047434
- Title: Multi-modal Conditional Bounding Box Regression for Music Score
Following
- Title(参考訳): 音楽スコア追従のためのマルチモーダル条件付きバウンディングボックス回帰
- Authors: Florian Henkel and Gerhard Widmer
- Abstract要約: 本稿では,シート画像に基づくオンラインオーディオ・スコアアライメントの問題に対処する。
条件付きニューラルネットワークアーキテクチャは、与えられた音楽演奏の各時点における完全なスコアシート画像におけるマッチング位置のx,y座標を直接予測する。
- 参考スコア(独自算出の注目度): 7.360807642941713
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper addresses the problem of sheet-image-based on-line audio-to-score
alignment also known as score following. Drawing inspiration from object
detection, a conditional neural network architecture is proposed that directly
predicts x,y coordinates of the matching positions in a complete score sheet
image at each point in time for a given musical performance. Experiments are
conducted on a synthetic polyphonic piano benchmark dataset and the new method
is compared to several existing approaches from the literature for
sheet-image-based score following as well as an Optical Music Recognition
baseline. The proposed approach achieves new state-of-the-art results and
furthermore significantly improves the alignment performance on a set of
real-world piano recordings by applying Impulse Responses as a data
augmentation technique.
- Abstract(参考訳): 本稿では,シート画像に基づくオンラインオーディオ・スコアアライメントの問題に対処する。
物体検出からインスピレーションを得た条件付きニューラルネットワークアーキテクチャは、与えられた演奏のそれぞれの時点における完全なスコアシート画像における一致する位置のx,y座標を直接予測する。
合成ポリフォニックピアノベンチマークデータセットを用いて実験を行い、新しい手法は、シート画像に基づくスコア追従のための文献と、光学的音楽認識ベースラインとの既存のアプローチと比較する。
提案手法は,新たな最先端結果を得るとともに,インパルス応答をデータ拡張手法として適用することにより,実世界のピアノ録音のアライメント性能をさらに向上させる。
関連論文リスト
- End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - Online Symbolic Music Alignment with Offline Reinforcement Learning [0.0]
シンボリック・ミュージック・アライメント(シンボリック・ミュージック・アライメント)は、演奏されたMIDI音符と対応する楽譜とをマッチングするプロセスである。
本稿では,強化学習に基づくオンラインシンボリック音楽アライメント手法を提案する。
提案モデルは,オフラインのシンボリック音楽アライメントの最先端参照モデルよりも優れている。
論文 参考訳(メタデータ) (2023-12-31T11:42:42Z) - Positive-Augmented Contrastive Learning for Image and Video Captioning
Evaluation [47.40949434032489]
画像キャプションのための新しいコントラストベース評価指標,すなわち肯定的拡張コントラスト学習スコア(PAC-S)を提案する。
PAC-Sは、生成した画像とキュレートされたデータにテキストを追加することで、対照的な視覚的意味空間の学習を統一する。
複数のデータセットにまたがる実験により、私たちの新しい測定基準は、画像とビデオの両方で人間の判断と最も高い相関を達成できることが示された。
論文 参考訳(メタデータ) (2023-03-21T18:03:14Z) - Music Enhancement via Image Translation and Vocoding [14.356705444361832]
本稿では,低品質音楽録音の深層学習手法を提案する。
本稿では,メル-スペクトログラム表現における音声操作のイメージ・ツー・イメージ変換モデルと,合成したメル-スペクトログラムを知覚的に現実的な波形にマッピングする音楽ボコーディングモデルを組み合わせる。
メル-スペクトログラム逆変換の古典的手法と、ノイズ波形をクリーンな波形に直接マッピングするエンドツーエンドアプローチを用いて、この手法はベースラインよりも優れることがわかった。
論文 参考訳(メタデータ) (2022-04-28T05:00:07Z) - Learning with Neighbor Consistency for Noisy Labels [69.83857578836769]
特徴空間におけるトレーニング例間の類似性を利用した雑音ラベルから学習する手法を提案する。
合成(CIFAR-10, CIFAR-100)とリアル(mini-WebVision, Clothing1M, mini-ImageNet-Red)の両方のノイズを評価するデータセットの評価を行った。
論文 参考訳(メタデータ) (2022-02-04T15:46:27Z) - Contextual Similarity Aggregation with Self-attention for Visual
Re-ranking [96.55393026011811]
本稿では,自己注意を伴う文脈的類似性集約による視覚的再ランク付け手法を提案する。
提案手法の汎用性と有効性を示すため,4つのベンチマークデータセットの総合的な実験を行った。
論文 参考訳(メタデータ) (2021-10-26T06:20:31Z) - Structure-Aware Audio-to-Score Alignment using Progressively Dilated
Convolutional Neural Networks [8.669338893753885]
音楽演奏と楽譜の間の構造的差異の同定は、音声とスコアのアライメントにおいて難しいが不可欠なステップである。
本稿では、進化的に拡張された畳み込みニューラルネットワークを用いて、そのような違いを検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2021-01-31T05:14:58Z) - Score-informed Networks for Music Performance Assessment [64.12728872707446]
MPAモデルにスコア情報を組み込んだディープニューラルネットワークに基づく手法はまだ研究されていない。
スコアインフォームド性能評価が可能な3つのモデルを提案する。
論文 参考訳(メタデータ) (2020-08-01T07:46:24Z) - Learning to Compose Hypercolumns for Visual Correspondence [57.93635236871264]
本稿では,画像に条件付けされた関連レイヤを活用することで,動的に効率的な特徴を構成する視覚対応手法を提案する。
提案手法はダイナミックハイパーピクセルフロー(Dynamic Hyperpixel Flow)と呼ばれ,深層畳み込みニューラルネットワークから少数の関連層を選択することにより,高速にハイパーカラム機能を構成することを学習する。
論文 参考訳(メタデータ) (2020-07-21T04:03:22Z) - Understanding Integrated Gradients with SmoothTaylor for Deep Neural
Network Attribution [70.78655569298923]
ディープニューラルネットワークモデルの属性方法としての統合グラディエントは、シンプルな実装性を提供する。
理解しやすさに影響を及ぼす説明のうるささに悩まされる。
SmoothGrad法は,ノイズ問題を解消し,勾配に基づく帰属法の帰属写像を円滑化するために提案される。
論文 参考訳(メタデータ) (2020-04-22T10:43:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。