論文の概要: Sudo rm -rf: Efficient Networks for Universal Audio Source Separation
- arxiv url: http://arxiv.org/abs/2007.06833v1
- Date: Tue, 14 Jul 2020 05:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:31:47.525054
- Title: Sudo rm -rf: Efficient Networks for Universal Audio Source Separation
- Title(参考訳): Sudo rm -rf: ユニバーサル音源分離のための効率的なネットワーク
- Authors: Efthymios Tzinis, Zhepei Wang and Paris Smaragdis
- Abstract要約: 本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。
このネットワークのバックボーン構造は、SuDoRMRF(Sucessive DOwnsampling and Resampling of Multi-Resolution Features)である。
- 参考スコア(独自算出の注目度): 32.851407723043806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an efficient neural network for end-to-end general
purpose audio source separation. Specifically, the backbone structure of this
convolutional network is the SUccessive DOwnsampling and Resampling of
Multi-Resolution Features (SuDoRMRF) as well as their aggregation which is
performed through simple one-dimensional convolutions. In this way, we are able
to obtain high quality audio source separation with limited number of floating
point operations, memory requirements, number of parameters and latency. Our
experiments on both speech and environmental sound separation datasets show
that SuDoRMRF performs comparably and even surpasses various state-of-the-art
approaches with significantly higher computational resource requirements.
- Abstract(参考訳): 本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。
具体的には、この畳み込みネットワークのバックボーン構造は、単純な1次元畳み込みによって実行される、複数の解像度特徴(sudormrf)の連続的なダウンサンプリングと再サンプリングである。
このようにして,浮動小数点演算数,メモリ要求数,パラメータ数,レイテンシを限定した高品質なオーディオソース分離を実現することができる。
音声と環境音の分離データセットを用いた実験により,SuDoRMRFは相容れない性能を示し,計算資源の要求が大幅に高い様々な最先端手法を超越していることがわかった。
関連論文リスト
- RTFS-Net: Recurrent time-frequency modelling for efficient audio-visual
speech separation [21.278294846228935]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - A Study of Designing Compact Audio-Visual Wake Word Spotting System
Based on Iterative Fine-Tuning in Neural Network Pruning [57.28467469709369]
視覚情報を利用した小型音声覚醒単語スポッティング(WWS)システムの設計について検討する。
繰り返し微調整方式(LTH-IF)で抽選券仮説を通したニューラルネットワークプルーニング戦略を導入する。
提案システムでは,ノイズ条件の異なる単一モード(オーディオのみ,ビデオのみ)システムに対して,大幅な性能向上を実現している。
論文 参考訳(メタデータ) (2022-02-17T08:26:25Z) - Optimal Power Allocation for Rate Splitting Communications with Deep
Reinforcement Learning [61.91604046990993]
このレターでは、レート分割多重アクセスネットワークにおいて、ユーザの電力割り当てを最適化するための新しいフレームワークを紹介します。
ネットワークでは、ユーザのために意図されたメッセージは、単一の共通部分と個々のプライベート部分に分割される。
論文 参考訳(メタデータ) (2021-07-01T06:32:49Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z) - Multi-wavelet residual dense convolutional neural network for image
denoising [2.500475462213752]
画像復号化タスクにおけるネットワークの性能と頑健性を改善するために, 短期的残差学習法を用いる。
ここでは、バックボーンとしてマルチウェーブレット畳み込みニューラルネットワーク(MWCNN)を選択し、各層に残留密度ブロック(RDB)を挿入する。
他のRDBベースのネットワークと比較して、隣接する層からオブジェクトのより多くの特徴を抽出し、大きなRFを保存し、計算効率を高めることができる。
論文 参考訳(メタデータ) (2020-02-19T17:21:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。