論文の概要: Towards Reliable Real-time Opera Tracking: Combining Alignment with
Audio Event Detectors to Increase Robustness
- arxiv url: http://arxiv.org/abs/2006.11033v1
- Date: Fri, 19 Jun 2020 09:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 05:23:38.182927
- Title: Towards Reliable Real-time Opera Tracking: Combining Alignment with
Audio Event Detectors to Increase Robustness
- Title(参考訳): 信頼性の高いリアルタイムオペラ追跡に向けて:ロバスト性向上のためのアライメントとオーディオイベント検出器を組み合わせる
- Authors: Charles Brazier and Gerhard Widmer
- Abstract要約: まず、モーツァルトオペラのフル長録音に、オンライン動的時間ワープに基づく最先端オーディオアライメント手法を適用する。
我々は,トラッカーの最も厳しい誤りを分析し,オペラのシナリオに特有の3つの問題の原因を特定する。
本稿では,DTWをベースとした音楽トラッカーと特殊な音声イベント検出器の組み合わせを提案する。
- 参考スコア(独自算出の注目度): 7.817685358710508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in real-time music score following have made it possible for
machines to automatically track highly complex polyphonic music, including full
orchestra performances. In this paper, we attempt to take this to an even
higher level, namely, live tracking of full operas. We first apply a
state-of-the-art audio alignment method based on online Dynamic Time-Warping
(OLTW) to full-length recordings of a Mozart opera and, analyzing the tracker's
most severe errors, identify three common sources of problems specific to the
opera scenario. To address these, we propose a combination of a DTW-based music
tracker with specialized audio event detectors (for applause, silence/noise,
and speech) that condition the DTW algorithm in a top-down fashion, and show,
step by step, how these detectors add robustness to the score follower.
However, there remain a number of open problems which we identify as targets
for ongoing and future research.
- Abstract(参考訳): 近年のリアルタイム音楽の進歩により、機械がオーケストラ演奏を含む複雑なポリフォニック音楽を自動的に追跡できるようになった。
本稿では、これをさらに高いレベル、すなわちフルオペラのライブトラッキングにしようと試みる。
まず,オンライン動的時間ワープ(OLTW)に基づく最先端オーディオアライメント手法をモーツァルトオペラのフル長録音に適用し,トラッカーの最も厳しいエラーを分析し,オペラシナリオ特有の3つの問題の原因を特定する。
そこで本研究では、DTWに基づく音楽トラッカーと、DTWアルゴリズムをトップダウン方式で条件付けした音声イベント検出器(拍手、沈黙、音声)を組み合わせることで、これらの検出器が、スコアフォロワに堅牢性を加える方法を示す。
しかし、現在および将来の研究の対象として認識されている多くの未解決問題が存在する。
関連論文リスト
- EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous
Driving [67.82112360246025]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
音声やビデオのセマンティックモデリング能力が不足しているため、既存の研究は主にテキストベースの多目的追跡に焦点を当てている。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Towards Robust and Truly Large-Scale Audio-Sheet Music Retrieval [4.722882736419499]
クロスモーダル・ディープ・ラーニング(英語版)は、2つの異なるモーダル(オーディオと楽譜)を繋ぐジョイント埋め込み空間を学習するために用いられる。
過去数年間、この領域は着実に改善されてきたが、多くのオープンな問題が依然としてこの手法の大規模採用を妨げている。
実シナリオにおけるロバストで大規模なクロスモーダル音楽検索への道のりの主な課題を同定する。
論文 参考訳(メタデータ) (2023-09-21T15:11:16Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - Anticipatory Music Transformer [77.29752896976116]
本稿では、時間点過程の制御可能な生成モデルを構築する方法である予測を導入する。
コントロールはイベント自体のサブセットであるので、コントロールタスクの充実に重点を置いています。
大規模かつ多様なLakh MIDI音楽データセットを用いて予測入出力モデルを訓練する。
論文 参考訳(メタデータ) (2023-06-14T16:27:53Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - Deep Spectro-temporal Artifacts for Detecting Synthesized Speech [57.42110898920759]
本稿では,トラック1(低品質フェイク音声検出)とトラック2(部分フェイク音声検出)の総合評価を行う。
本稿では, 原時間信号, スペクトル特性, 深層埋没特性を用いて, 分光時相アーティファクトを検出した。
我々はそれぞれ1番線と2番線で4位と5位にランクインした。
論文 参考訳(メタデータ) (2022-10-11T08:31:30Z) - Multitrack Music Transformer [36.91519546327085]
短いシーケンス長を維持しながら多様な楽器のセットを表現できる新しいマルチトラック音楽表現を提案する。
提案するMultitrack Music Transformer (MMT) は,最先端システムと同等の性能を実現する。
論文 参考訳(メタデータ) (2022-07-14T15:06:37Z) - Late multimodal fusion for image and audio music transcription [0.0]
マルチモーダル画像とオーディオ音楽の書き起こしは、画像とオーディオのモダリティによって伝達される情報を効果的に組み合わせるという課題を含む。
エンドツーエンドのOMRシステムとAMTシステムに関する仮説を,初めてマージするために,4つの組み合わせのアプローチについて検討した。
4つの戦略のうちの2つは、対応する単調な標準認識フレームワークを著しく改善することを検討した。
論文 参考訳(メタデータ) (2022-04-06T20:00:33Z) - Quantized GAN for Complex Music Generation from Dance Videos [48.196705493763986]
D2M-GAN(Dance2Music-GAN, D2M-GAN, D2M-GAN)は、ダンスビデオに条件付けされた楽曲のサンプルを生成する新しいマルチモーダルフレームワークである。
提案フレームワークは,ダンスビデオフレームと人体の動きを入力とし,対応する入力に付随する音楽サンプルを生成することを学習する。
論文 参考訳(メタデータ) (2022-04-01T17:53:39Z) - An Empirical Evaluation of End-to-End Polyphonic Optical Music
Recognition [24.377724078096144]
ピアノと管弦楽の楽譜は多音節をしばしば示しており、これはその課題に第2の次元を付け加えている。
終端ポリフォニックOMRの2つの新しい定式化法を提案する。
我々は,マルチシーケンス検出デコーダであるRNNDecoderを用いて,新しい最先端性能を観察する。
論文 参考訳(メタデータ) (2021-08-03T22:04:40Z) - Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT
Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。
効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。
動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。
我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文 参考訳(メタデータ) (2021-04-25T00:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。