論文の概要: Real-time Low-latency Music Source Separation using Hybrid
Spectrogram-TasNet
- arxiv url: http://arxiv.org/abs/2402.17701v1
- Date: Tue, 27 Feb 2024 17:26:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 15:14:47.704202
- Title: Real-time Low-latency Music Source Separation using Hybrid
Spectrogram-TasNet
- Title(参考訳): ハイブリッドスペクトログラムTasNetを用いたリアルタイム低レイテンシ音源分離
- Authors: Satvik Venkatesh, Arthur Benilov, Philip Coleman, Frederic Roskam
- Abstract要約: 本稿では、低レイテンシアプリケーションのための文献における現在のデミックスモデルの適用に関する課題について検討する。
本稿では,Hybrid Spectrogram Time- domain Audio separation Network HS-TasNetを提案する。
23ミリ秒のレイテンシでは、HS-TasNetはMusDBテストセットで4.65の信号対歪み比(SDR)を取得し、追加のトレーニングデータで5.55に増加する。
- 参考スコア(独自算出の注目度): 0.38540803801323253
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: There have been significant advances in deep learning for music demixing in
recent years. However, there has been little attention given to how these
neural networks can be adapted for real-time low-latency applications, which
could be helpful for hearing aids, remixing audio streams and live shows. In
this paper, we investigate the various challenges involved in adapting current
demixing models in the literature for this use case. Subsequently, inspired by
the Hybrid Demucs architecture, we propose the Hybrid Spectrogram Time-domain
Audio Separation Network HS-TasNet, which utilises the advantages of spectral
and waveform domains. For a latency of 23 ms, the HS-TasNet obtains an overall
signal-to-distortion ratio (SDR) of 4.65 on the MusDB test set, and increases
to 5.55 with additional training data. These results demonstrate the potential
of efficient demixing for real-time low-latency music applications.
- Abstract(参考訳): 近年、音楽デミックスのためのディープラーニングは大幅に進歩している。
しかし、これらのニューラルネットワークがリアルタイム低レイテンシアプリケーションにどのように適応できるかについては、ほとんど注目されていない。
本稿では,本事例の文献における現行デミックスモデルの適用に関する諸課題について考察する。
その後,Hybrid Demucsアーキテクチャにヒントを得て,スペクトル領域と波形領域の利点を利用したHybrid Spectrogram Time- domain Audio separation Network HS-TasNetを提案する。
23ミリ秒のレイテンシでは、HS-TasNetはMusDBテストセットで4.65の信号対歪み比(SDR)を取得し、追加のトレーニングデータで5.55に増加する。
これらの結果は、リアルタイム低レイテンシ音楽アプリケーションにおける効率的なデミックスの可能性を示している。
関連論文リスト
- Hybrid Convolutional and Attention Network for Hyperspectral Image Denoising [54.110544509099526]
ハイパースペクトル画像(HSI)は、ハイパースペクトルデータの効果的な解析と解釈に重要である。
ハイブリット・コンボリューション・アテンション・ネットワーク(HCANet)を提案する。
主流HSIデータセットに対する実験結果は,提案したHCANetの合理性と有効性を示している。
論文 参考訳(メタデータ) (2024-03-15T07:18:43Z) - Music Source Separation with Band-split RNN [25.578400006180527]
本稿では,周波数領域モデルを提案する。このモデルでは,混合物のスペクトルをサブバンドに分割し,インターリーブバンドレベルおよびシーケンスレベルのモデリングを行う。
サブバンドの帯域幅の選択は、対象源の特性に関する事前知識または専門知識によって決定できる。
実験の結果、BSRNNはMUSDB18-HQデータセットのみをトレーニングし、ミュージック・デミキシング(MDX)チャレンジ2021において、いくつかの上位モデルを上回った。
論文 参考訳(メタデータ) (2022-09-30T01:49:52Z) - SpecGrad: Diffusion Probabilistic Model based Neural Vocoder with
Adaptive Noise Spectral Shaping [51.698273019061645]
SpecGradは拡散雑音に適応し、その時間変化スペクトル包絡が条件付き対数メル分光器に近づく。
時間周波数領域で処理され、計算コストは従来のDDPMベースのニューラルボコーダとほぼ同じである。
論文 参考訳(メタデータ) (2022-03-31T02:08:27Z) - Real-Time GPU-Accelerated Machine Learning Based Multiuser Detection for
5G and Beyond [70.81551587109833]
非線形ビームフォーミングフィルタは、大規模な接続を伴う定常シナリオにおいて、線形アプローチを著しく上回る。
主な課題の1つは、これらのアルゴリズムのリアルタイム実装である。
本稿では,大規模並列化によるAPSMに基づくアルゴリズムの高速化について検討する。
論文 参考訳(メタデータ) (2022-01-13T15:20:45Z) - Deep Convolutional and Recurrent Networks for Polyphonic Instrument
Classification from Monophonic Raw Audio Waveforms [30.3491261167433]
サウンドイベント検出とオーディオ分類タスクは、伝統的にスペクトログラムなどのオーディオ信号の時間周波数表現を通じて対処されます。
効率的な特徴抽出器としてのディープニューラルネットワークは、分類目的にオーディオ信号を直接使用可能にする。
生の波形を深層学習モデルに入力するだけで,ポリフォニック・オーディオで楽器を認識する。
論文 参考訳(メタデータ) (2021-02-13T13:44:46Z) - Downbeat Tracking with Tempo-Invariant Convolutional Neural Networks [0.0]
畳み込みニューラルネットワーク(CNN)において,この技術を実現するための決定論的時間ワープ演算を提案する。
トレーニングデータセットに存在するテンポでリズムパターンを学習する従来のディープラーニングアプローチとは異なり、我々のモデルで学んだパターンはテンポ不変である。
提案モデルの一般化の利点は、GTZANとBallroomのデータセットで示されているように、実際の音楽に拡張される。
論文 参考訳(メタデータ) (2021-02-03T20:25:36Z) - Fast accuracy estimation of deep learning based multi-class musical
source separation [79.10962538141445]
本稿では,ニューラルネットワークのトレーニングやチューニングを行うことなく,任意のデータセットにおける楽器の分離性を評価する手法を提案する。
理想的な比マスクを持つオラクルの原理に基づいて、我々の手法は最先端のディープラーニング手法の分離性能を推定するための優れたプロキシである。
論文 参考訳(メタデータ) (2020-10-19T13:05:08Z) - Lip-reading with Densely Connected Temporal Convolutional Networks [61.66144695679362]
本稿では,孤立した単語の唇読解のためのDensely Connected Temporal Convolutional Network (DC-TCN)を提案する。
我々の手法はWildデータセットのLip Readingで88.36%、LRW-1000データセットで43.65%の精度を達成した。
論文 参考訳(メタデータ) (2020-09-29T18:08:15Z) - Wavelet Networks: Scale-Translation Equivariant Learning From Raw
Time-Series [31.73386289965465]
スケール変換同変写像はウェーブレット変換と強い類似性を持っている。
この類似性に着想を得て、我々のネットワークをウェーブレットネットワークと呼び、ネストした非線形ウェーブレットのような時間周波数変換を行うことを示す。
論文 参考訳(メタデータ) (2020-06-09T13:50:34Z) - A Generative Learning Approach for Spatio-temporal Modeling in Connected
Vehicular Network [55.852401381113786]
本稿では,コネクテッドカーの無線アクセス遅延を実現するための総合的時間品質フレームワークであるLaMI(Latency Model Inpainting)を提案する。
LaMIはイメージインペイントと合成のアイデアを採用し、2段階の手順で欠落したレイテンシサンプルを再構築することができる。
特に、パッチ方式のアプローチを用いて各地域で収集されたサンプル間の空間的相関を初めて発見し、その後、原点および高度に相関したサンプルをバラエナオートコーダ(VAE)に供給する。
論文 参考訳(メタデータ) (2020-03-16T03:43:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。