論文の概要: Towards Reliable Real-time Opera Tracking: Combining Alignment with
Audio Event Detectors to Increase Robustness
- arxiv url: http://arxiv.org/abs/2006.11033v1
- Date: Fri, 19 Jun 2020 09:31:07 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 05:23:38.182927
- Title: Towards Reliable Real-time Opera Tracking: Combining Alignment with
Audio Event Detectors to Increase Robustness
- Title(参考訳): 信頼性の高いリアルタイムオペラ追跡に向けて:ロバスト性向上のためのアライメントとオーディオイベント検出器を組み合わせる
- Authors: Charles Brazier and Gerhard Widmer
- Abstract要約: まず、モーツァルトオペラのフル長録音に、オンライン動的時間ワープに基づく最先端オーディオアライメント手法を適用する。
我々は,トラッカーの最も厳しい誤りを分析し,オペラのシナリオに特有の3つの問題の原因を特定する。
本稿では,DTWをベースとした音楽トラッカーと特殊な音声イベント検出器の組み合わせを提案する。
- 参考スコア(独自算出の注目度): 7.817685358710508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advances in real-time music score following have made it possible for
machines to automatically track highly complex polyphonic music, including full
orchestra performances. In this paper, we attempt to take this to an even
higher level, namely, live tracking of full operas. We first apply a
state-of-the-art audio alignment method based on online Dynamic Time-Warping
(OLTW) to full-length recordings of a Mozart opera and, analyzing the tracker's
most severe errors, identify three common sources of problems specific to the
opera scenario. To address these, we propose a combination of a DTW-based music
tracker with specialized audio event detectors (for applause, silence/noise,
and speech) that condition the DTW algorithm in a top-down fashion, and show,
step by step, how these detectors add robustness to the score follower.
However, there remain a number of open problems which we identify as targets
for ongoing and future research.
- Abstract(参考訳): 近年のリアルタイム音楽の進歩により、機械がオーケストラ演奏を含む複雑なポリフォニック音楽を自動的に追跡できるようになった。
本稿では、これをさらに高いレベル、すなわちフルオペラのライブトラッキングにしようと試みる。
まず,オンライン動的時間ワープ(OLTW)に基づく最先端オーディオアライメント手法をモーツァルトオペラのフル長録音に適用し,トラッカーの最も厳しいエラーを分析し,オペラシナリオ特有の3つの問題の原因を特定する。
そこで本研究では、DTWに基づく音楽トラッカーと、DTWアルゴリズムをトップダウン方式で条件付けした音声イベント検出器(拍手、沈黙、音声)を組み合わせることで、これらの検出器が、スコアフォロワに堅牢性を加える方法を示す。
しかし、現在および将来の研究の対象として認識されている多くの未解決問題が存在する。
関連論文リスト
- Toward a More Complete OMR Solution [49.74172035862698]
光音楽認識は、音楽の表記をデジタル形式に変換することを目的としている。
OMRに取り組む1つのアプローチは、画像内の視覚音楽の表記要素を最初に検出するマルチステージパイプラインである。
YOLOv8に基づく音楽オブジェクト検出器を導入し,検出性能を向上する。
第2に、検出出力に基づいて記法組立段階を完了する教師付きトレーニングパイプラインを導入する。
論文 参考訳(メタデータ) (2024-08-31T01:09:12Z) - BandControlNet: Parallel Transformers-based Steerable Popular Music Generation with Fine-Grained Spatiotemporal Features [19.284531698181116]
BandControlNetは、複数の音楽シーケンスに対処し、与えられた時間的制御機能に合わせた高品質な音楽サンプルを生成するように設計されている。
提案したBandControlNetは、ほとんどの客観的指標において、忠実度と推論速度の点で他の条件付き音楽生成モデルよりも優れている。
短いデータセットでトレーニングされた主観評価は、最先端のモデルに匹敵する品質の音楽を生成できるが、BandControlNetでは大幅にパフォーマンスが向上する。
論文 参考訳(メタデータ) (2024-07-15T06:33:25Z) - LARP: Language Audio Relational Pre-training for Cold-Start Playlist Continuation [49.89372182441713]
マルチモーダルコールドスタートプレイリスト継続モデルであるLARPを導入する。
我々のフレームワークはタスク固有の抽象化の段階を増大させており、イントラトラック(音声)コントラスト損失、トラックトラックコントラスト損失、トラックプレイリストコントラスト損失である。
論文 参考訳(メタデータ) (2024-06-20T14:02:15Z) - End-to-End Real-World Polyphonic Piano Audio-to-Score Transcription with Hierarchical Decoding [4.604877755214193]
既存のピアノA2Sシステムは、合成データのみで訓練され、評価されている。
楽譜の階層構造に整合した階層デコーダを用いたシーケンス・ツー・シーケンス(Seq2Seq)モデルを提案する。
本研究では,合成音声上での表現的パフォーマンスレンダリングシステムを用いてモデルを事前学習する2段階学習手法を提案し,続いて人間の演奏記録を用いてモデルを微調整する。
論文 参考訳(メタデータ) (2024-05-22T10:52:04Z) - TIM: A Time Interval Machine for Audio-Visual Action Recognition [64.24297230981168]
音声と視覚イベントの時間的範囲を明示的にモデル化することで、長いビデオにおける2つのモード間の相互作用に対処する。
本稿では,TIM (Time Interval Machine) を提案する。
我々は、EPIC-KITCHENS、Perception Test、AVEの3つの長い音声視覚ビデオデータセットでTIMをテストする。
論文 参考訳(メタデータ) (2024-04-08T14:30:42Z) - EchoTrack: Auditory Referring Multi-Object Tracking for Autonomous Driving [64.58258341591929]
聴覚参照マルチオブジェクトトラッキング(AR-MOT)は、自律運転において難しい問題である。
私たちは、デュアルストリーム・ビジョン・トランスフォーマーを備えたエンドツーエンドのAR-MOTフレームワークであるEchoTrackを提案しました。
大規模AR-MOTベンチマークの最初のセットを確立する。
論文 参考訳(メタデータ) (2024-02-28T12:50:16Z) - Towards Robust and Truly Large-Scale Audio-Sheet Music Retrieval [4.722882736419499]
クロスモーダル・ディープ・ラーニング(英語版)は、2つの異なるモーダル(オーディオと楽譜)を繋ぐジョイント埋め込み空間を学習するために用いられる。
過去数年間、この領域は着実に改善されてきたが、多くのオープンな問題が依然としてこの手法の大規模採用を妨げている。
実シナリオにおけるロバストで大規模なクロスモーダル音楽検索への道のりの主な課題を同定する。
論文 参考訳(メタデータ) (2023-09-21T15:11:16Z) - Self-Supervised Contrastive Learning for Robust Audio-Sheet Music
Retrieval Systems [3.997809845676912]
自己指導型コントラスト学習は、実際の音楽コンテンツからの注釈付きデータの不足を軽減することができることを示す。
クロスモーダルなピース識別の高レベルなタスクにスニペットを埋め込む。
本研究では,実際の音楽データが存在する場合,検索品質が30%から100%に向上することが観察された。
論文 参考訳(メタデータ) (2023-09-21T14:54:48Z) - GETMusic: Generating Any Music Tracks with a Unified Representation and
Diffusion Framework [58.64512825534638]
シンボリック・ミュージック・ジェネレーションは、ユーザーが音楽を作るのに役立つ音符を作成することを目的としている。
私たちは「GETMusic」と呼ばれるフレームワークを紹介します。「GET'」は「GEnerate Music Tracks」の略です。
GETScoreは、音符をトークンとして表現し、2D構造でトークンを整理する。
提案する表現は,非自己回帰生成モデルと組み合わせて,任意のソース・ターゲットトラックの組み合わせでGETMusicに音楽を生成する。
論文 参考訳(メタデータ) (2023-05-18T09:53:23Z) - An Empirical Evaluation of End-to-End Polyphonic Optical Music
Recognition [24.377724078096144]
ピアノと管弦楽の楽譜は多音節をしばしば示しており、これはその課題に第2の次元を付け加えている。
終端ポリフォニックOMRの2つの新しい定式化法を提案する。
我々は,マルチシーケンス検出デコーダであるRNNDecoderを用いて,新しい最先端性能を観察する。
論文 参考訳(メタデータ) (2021-08-03T22:04:40Z) - Distractor-Aware Fast Tracking via Dynamic Convolutions and MOT
Philosophy [63.91005999481061]
実用的長期トラッカーは、典型的には3つの重要な特性を含む。
効率的なモデル設計、効果的なグローバル再検出戦略、堅牢な気晴らし認識メカニズム。
動的畳み込み (d-convs) と多重オブジェクト追跡 (MOT) の哲学を用いて, 注意をそらした高速トラッキングを実現するための2タスクトラッキングフレームワーク(DMTrack)を提案する。
我々のトラッカーはLaSOT, OxUvA, TLP, VOT2018LT, VOT 2019LTベンチマークの最先端性能を実現し, リアルタイム3倍高速に動作させる。
論文 参考訳(メタデータ) (2021-04-25T00:59:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。