論文の概要: Sudo rm -rf: Efficient Networks for Universal Audio Source Separation
- arxiv url: http://arxiv.org/abs/2007.06833v1
- Date: Tue, 14 Jul 2020 05:46:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-10 13:31:47.525054
- Title: Sudo rm -rf: Efficient Networks for Universal Audio Source Separation
- Title(参考訳): Sudo rm -rf: ユニバーサル音源分離のための効率的なネットワーク
- Authors: Efthymios Tzinis, Zhepei Wang and Paris Smaragdis
- Abstract要約: 本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。
このネットワークのバックボーン構造は、SuDoRMRF(Sucessive DOwnsampling and Resampling of Multi-Resolution Features)である。
- 参考スコア(独自算出の注目度): 32.851407723043806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we present an efficient neural network for end-to-end general
purpose audio source separation. Specifically, the backbone structure of this
convolutional network is the SUccessive DOwnsampling and Resampling of
Multi-Resolution Features (SuDoRMRF) as well as their aggregation which is
performed through simple one-dimensional convolutions. In this way, we are able
to obtain high quality audio source separation with limited number of floating
point operations, memory requirements, number of parameters and latency. Our
experiments on both speech and environmental sound separation datasets show
that SuDoRMRF performs comparably and even surpasses various state-of-the-art
approaches with significantly higher computational resource requirements.
- Abstract(参考訳): 本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。
具体的には、この畳み込みネットワークのバックボーン構造は、単純な1次元畳み込みによって実行される、複数の解像度特徴(sudormrf)の連続的なダウンサンプリングと再サンプリングである。
このようにして,浮動小数点演算数,メモリ要求数,パラメータ数,レイテンシを限定した高品質なオーディオソース分離を実現することができる。
音声と環境音の分離データセットを用いた実験により,SuDoRMRFは相容れない性能を示し,計算資源の要求が大幅に高い様々な最先端手法を超越していることがわかった。
関連論文リスト
- Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference [6.005712471509875]
コーディネート・ネットワーク (Coordinate Network) または暗黙の神経表現 (INR) は、自然信号を高速に符号化する手法である。
本稿では,多分解能座標分解と階層変調を組み合わせたASMR座標ネットワークを提案する。
また,ASMRにより,バニラSIRENモデルのMACを最大500倍まで低減し,SIRENのベースラインよりも高い再現性が得られることを示す。
論文 参考訳(メタデータ) (2024-05-20T22:35:34Z) - Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。
より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。
我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文 参考訳(メタデータ) (2024-05-08T11:09:24Z) - RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。
RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。
これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文 参考訳(メタデータ) (2023-09-29T12:38:00Z) - A Generalized Bandsplit Neural Network for Cinematic Audio Source
Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。
信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。
我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文 参考訳(メタデータ) (2023-09-05T19:19:22Z) - On Neural Architectures for Deep Learning-based Source Separation of
Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。
我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文 参考訳(メタデータ) (2023-03-11T16:29:13Z) - Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。
既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。
本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文 参考訳(メタデータ) (2022-03-28T17:51:00Z) - Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。
実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。
ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文 参考訳(メタデータ) (2021-03-15T12:54:26Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。
我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文 参考訳(メタデータ) (2020-10-12T16:50:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。