論文の概要: Source Separation of Small Classical Ensembles: Challenges and Opportunities
- arxiv url: http://arxiv.org/abs/2505.17823v1
- Date: Fri, 23 May 2025 12:39:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:34.069395
- Title: Source Separation of Small Classical Ensembles: Challenges and Opportunities
- Title(参考訳): 小さな古典的アンサンブルの音源分離--課題と機会
- Authors: Gerardo Roa-Dabike, Trevor J. Cox, Jon P. Barker, Michael A. Akeroyd, Scott Bannister, Bruno Fazenda, Jennifer Firth, Simone Graetzer, Alinka Greasley, Rebecca R. Vos, William M. Whitmer,
- Abstract要約: 非因果深層学習を用いた西洋ポピュラー音楽の音源分離は非常に効果的である。
クラシック音楽のためのMSSは未解決の問題である。
古典的なアンサンブルは、音楽に固有の大きなバリエーションのような問題のために、ポピュラー音楽よりも分離するのが困難である。
- 参考スコア(独自算出の注目度): 2.8457245667398188
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Musical (MSS) source separation of western popular music using non-causal deep learning can be very effective. In contrast, MSS for classical music is an unsolved problem. Classical ensembles are harder to separate than popular music because of issues such as the inherent greater variation in the music; the sparsity of recordings with ground truth for supervised training; and greater ambiguity between instruments. The Cadenza project has been exploring MSS for classical music. This is being done so music can be remixed to improve listening experiences for people with hearing loss. To enable the work, a new database of synthesized woodwind ensembles was created to overcome instrumental imbalances in the EnsembleSet. For the MSS, a set of ConvTasNet models was used with each model being trained to extract a string or woodwind instrument. ConvTasNet was chosen because it enabled both causal and non-causal approaches to be tested. Non-causal approaches have dominated MSS work and are useful for recorded music, but for live music or processing on hearing aids, causal signal processing is needed. The MSS performance was evaluated on the two small datasets (Bach10 and URMP) of real instrument recordings where the ground-truth is available. The performances of the causal and non-causal systems were similar. Comparing the average Signal-to-Distortion (SDR) of the synthesized validation set (6.2 dB causal; 6.9 non-causal), to the real recorded evaluation set (0.3 dB causal, 0.4 dB non-causal), shows that mismatch between synthesized and recorded data is a problem. Future work needs to either gather more real recordings that can be used for training, or to improve the realism and diversity of the synthesized recordings to reduce the mismatch...
- Abstract(参考訳): 非因果深層学習を用いた西洋ポピュラー音楽の音源分離は非常に効果的である。
対照的に、クラシック音楽のMSSは未解決の問題である。
古典的なアンサンブルは、音楽に固有の大きなバリエーション、監督訓練のための基礎的な真実を伴う録音の空間性、楽器間のあいまいさなどの問題により、ポピュラー音楽よりも分離するのが困難である。
Cadenzaプロジェクトはクラシック音楽のためのMSSを探究している。
音楽をリミックスすることで、聴覚障害のある人のための聴取体験を改善することができる。
この作業を可能にするため、アンサンブルセットの楽器的不均衡を克服するために、合成された木管アンサンブルの新しいデータベースが作られた。
MSSでは、一連のConvTasNetモデルを使用して、各モデルに弦や木管楽器の抽出を訓練した。
ConvTasNetは因果的アプローチと非因果的アプローチの両方をテスト可能にするため選ばれた。
非因果的アプローチはMSS作業を支配しており、録音音楽に有用であるが、ライブ音楽や補聴器の処理には因果信号処理が必要である。
MSSの性能は、地上構造が利用可能な実楽器記録の2つの小さなデータセット(Bach10とURMP)で評価された。
因果系と非因果系の性能は類似していた。
合成検証セットの平均信号対歪み(SDR)(6.2dB因果6.9非因果6.9)と実記録評価セット(0.3dB因果0.4dB非因果0.4dB)を比較すると、合成データと記録データのミスマッチが問題となる。
将来的な作業は、トレーニングに使用できるよりリアルな録音を集めるか、あるいは、ミスマッチを減らすために合成された録音のリアリズムと多様性を改善するかだ。
関連論文リスト
- Estimating Musical Surprisal in Audio [4.056099795258358]
シンボリック・ミュージックにおけるサブプライムのプロキシとしての自己回帰モデルからのワンステップ予測の情報コンテンツ(IC)
我々は、事前訓練されたオートエンコーダネットワークの圧縮遅延音声表現を予測するために、自己回帰変換モデルを訓練する。
音声・音楽の特徴とICの関係について検討し,音節の変動や声の大きさと相関し,低音域,不協和性,リズムの複雑度,および音声・音楽の特徴に関連するオンセット密度を推定した。
論文 参考訳(メタデータ) (2025-01-13T16:46:45Z) - Sanidha: A Studio Quality Multi-Modal Dataset for Carnatic Music [0.8437187555622164]
音源分離は、楽曲を個々の音源に分解する。
最も一般的なデータセットは、商業的な西洋音楽から作られる。
「サニダ」は、カルナティック音楽のための最初のオープンソース・ノベル・データセットである。
論文 参考訳(メタデータ) (2025-01-12T22:39:58Z) - Quantifying the Corpus Bias Problem in Automatic Music Transcription Systems [3.5570874721859016]
AMT(Automatic Music Transcription)は、音楽の音声録音における音符認識のタスクである。
我々は、音楽と音の2つの主要な分布シフト源を同定する。
2つの新しい実験セットにおいて,複数のSotA AMTシステムの性能評価を行った。
論文 参考訳(メタデータ) (2024-08-08T19:40:28Z) - MuPT: A Generative Symbolic Music Pretrained Transformer [56.09299510129221]
音楽の事前学習におけるLarge Language Models (LLM) の適用について検討する。
生成過程の異なるトラックからの不整合対策に関連する課題に対処するために,SMT-ABC Notation(Synchronized Multi-Track ABC Notation)を提案する。
私たちのコントリビューションには、最大8192個のトークンを処理可能な一連のモデルが含まれており、トレーニングセットの象徴的な音楽データの90%をカバーしています。
論文 参考訳(メタデータ) (2024-04-09T15:35:52Z) - RMSSinger: Realistic-Music-Score based Singing Voice Synthesis [56.51475521778443]
RMS-SVSは、異なる音符タイプでリアル音楽のスコアを与えられた高品質な歌声を生成することを目的としている。
RMS-SVS方式であるRMSSingerを提案する。
RMSSingerでは,時間を要する音素の持続時間アノテーションと複雑な音素レベルのメルノートアライメントを避けるために,単語レベルのモデリングを導入する。
論文 参考訳(メタデータ) (2023-05-18T03:57:51Z) - Benchmarks and leaderboards for sound demixing tasks [44.99833362998488]
音源分離タスクのための2つの新しいベンチマークを導入する。
これらのベンチマークでは、音のデミックスやアンサンブルなどの人気モデルを比較します。
また,特定の茎に最適な異なるモデルのアンサンブルに基づく,音声分離のための新しいアプローチも開発している。
論文 参考訳(メタデータ) (2023-05-12T14:00:26Z) - Comparision Of Adversarial And Non-Adversarial LSTM Music Generative
Models [2.569647910019739]
この研究は、MIDIデータに基づいて、リカレントニューラルネットワーク音楽作曲家の敵対的および非敵対的な訓練を実装し、比較する。
この評価は, 対人訓練がより審美的に楽しむ音楽を生み出すことを示唆している。
論文 参考訳(メタデータ) (2022-11-01T20:23:49Z) - Contrastive Learning with Positive-Negative Frame Mask for Music
Representation [91.44187939465948]
本稿では,PEMRと略記したコントラッシブラーニングフレームワークに基づく,音楽表現のための正負負のフレームマスクを提案する。
我々は,同じ音楽からサンプリングした自己増強陽性/陰性の両方に対応するために,新しいコントラスト学習目標を考案した。
論文 参考訳(メタデータ) (2022-03-17T07:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。