論文の概要: Improving Real-Time Music Accompaniment Separation with MMDenseNet
- arxiv url: http://arxiv.org/abs/2407.00657v1
- Date: Sun, 30 Jun 2024 11:00:09 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-04 02:07:11.778695
- Title: Improving Real-Time Music Accompaniment Separation with MMDenseNet
- Title(参考訳): MMDenseNetによるリアルタイム音楽伴奏分離の改善
- Authors: Chun-Hsiang Wang, Chung-Che Wang, Jun-You Wang, Jyh-Shing Roger Jang, Yen-Hsun Chu,
- Abstract要約: 音楽ソースの分離は、ポリフォニック音楽を異なるタイプのソースに分離することを目的としている。
既存のほとんどの手法は、より大きなモデル構造を用いて、分離された結果の品質を向上させることに重点を置いている。
本稿では,リアルタイムアプリケーションにおける分離品質とレイテンシのバランスをとるために,軽量モデルMDDenstNetを強化することを目的とする。
- 参考スコア(独自算出の注目度): 5.190441148945635
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Music source separation aims to separate polyphonic music into different types of sources. Most existing methods focus on enhancing the quality of separated results by using a larger model structure, rendering them unsuitable for deployment on edge devices. Moreover, these methods may produce low-quality output when the input duration is short, making them impractical for real-time applications. Therefore, the goal of this paper is to enhance a lightweight model, MMDenstNet, to strike a balance between separation quality and latency for real-time applications. Different directions of improvement are explored or proposed in this paper, including complex ideal ratio mask, self-attention, band-merge-split method, and feature look back. Source-to-distortion ratio, real-time factor, and optimal latency are employed to evaluate the performance. To align with our application requirements, the evaluation process in this paper focuses on the separation performance of the accompaniment part. Experimental results demonstrate that our improvement achieves low real-time factor and optimal latency while maintaining acceptable separation quality.
- Abstract(参考訳): 音楽ソースの分離は、ポリフォニック音楽を異なるタイプのソースに分離することを目的としている。
既存のほとんどのメソッドは、より大きなモデル構造を使用することで、分離された結果の品質向上に重点を置いており、エッジデバイスへのデプロイには適さない。
さらに、これらの手法は、入力期間が短いときに低品質の出力を生成するため、リアルタイムアプリケーションでは実用的ではない。
そこで本論文の目的は,リアルタイムアプリケーションにおける分離品質とレイテンシのバランスをとるために,軽量モデルMDDenstNetを強化することである。
本稿では, 複雑な理想比マスク, 自己注意, バンドマージ分割法, 特徴の振り返りなど, 改善の方向性について検討し, 提案する。
性能評価には、ソース・ツー・ディストーション比、リアルタイム係数、最適レイテンシが使用される。
本稿では,アプリケーション要件に合わせるために,伴奏部分の分離性能に焦点をあてる。
実験結果から,分離品質を維持しつつ,低リアルタイム化と最適遅延を実現することができた。
関連論文リスト
- Collaborative Feedback Discriminative Propagation for Video Super-Resolution [66.61201445650323]
ビデオ超解像法(VSR)の主な成功は、主に空間情報と時間情報を探索することに由来する。
不正確なアライメントは通常、重要なアーティファクトを備えたアライメント機能につながる。
伝搬モジュールは同じタイムステップ機能のみを前方または後方に伝播する。
論文 参考訳(メタデータ) (2024-04-06T22:08:20Z) - DITTO: Diffusion Inference-Time T-Optimization for Music Generation [49.90109850026932]
Diffusion Inference-Time T-Optimization (DITTO) は、事前訓練されたテキストから音楽への拡散モデルを推論時に制御するためのフレームワークである。
我々は、インペイント、アウトペイント、ループ化、強度、メロディ、音楽構造制御など、驚くほど幅広い音楽生成応用を実証する。
論文 参考訳(メタデータ) (2024-01-22T18:10:10Z) - Resource-constrained stereo singing voice cancellation [1.0962868591006976]
ステレオ歌唱音声キャンセリングの問題点について検討する。
提案手法は,客観的なオフラインメトリクスと大規模MUSHRA試験を用いて評価する。
論文 参考訳(メタデータ) (2024-01-22T16:05:30Z) - Latent Autoregressive Source Separation [5.871054749661012]
本稿では,ベクトル量子化遅延自己回帰音源分離(入力信号を構成源にデミックスする)を導入する。
分離法は, 自己回帰モデルが先行するベイズ式に依拠し, 付加トークンの潜在和に対して離散的(非パラメトリック)確率関数を構築した。
論文 参考訳(メタデータ) (2023-01-09T17:32:00Z) - Hierarchical Timbre-Painting and Articulation Generation [92.59388372914265]
本稿では,f0と大音量に基づく高速かつ高忠実な楽曲生成手法を提案する。
合成音声は、対象楽器の音色及び調音を模倣する。
論文 参考訳(メタデータ) (2020-08-30T05:27:39Z) - Towards Streaming Perception [70.68520310095155]
本稿では、リアルタイムオンライン知覚のための単一のメトリクスにレイテンシと精度を協調的に統合するアプローチを提案する。
この指標の背後にある重要な洞察は、瞬間ごとに認識スタック全体の出力を共同で評価することである。
本稿では,都市ビデオストリームにおけるオブジェクト検出とインスタンスセグメンテーションの具体的タスクに注目し,高品質で時間依存的なアノテーションを備えた新しいデータセットを寄贈する。
論文 参考訳(メタデータ) (2020-05-21T01:51:35Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z) - A Generative Learning Approach for Spatio-temporal Modeling in Connected
Vehicular Network [55.852401381113786]
本稿では,コネクテッドカーの無線アクセス遅延を実現するための総合的時間品質フレームワークであるLaMI(Latency Model Inpainting)を提案する。
LaMIはイメージインペイントと合成のアイデアを採用し、2段階の手順で欠落したレイテンシサンプルを再構築することができる。
特に、パッチ方式のアプローチを用いて各地域で収集されたサンプル間の空間的相関を初めて発見し、その後、原点および高度に相関したサンプルをバラエナオートコーダ(VAE)に供給する。
論文 参考訳(メタデータ) (2020-03-16T03:43:59Z) - Good Feature Matching: Towards Accurate, Robust VO/VSLAM with Low
Latency [23.443265839365054]
最先端VO/VSLAMシステムの解析は、性能(正確性と堅牢性)と効率(レイテンシ)のバランスのギャップを露呈する
本稿では,特徴量に基づくVSLAMの適用により,性能と効率のギャップを埋めることを目的としている。
論文 参考訳(メタデータ) (2020-01-03T03:50:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。