Fugu-MT 論文翻訳(概要): Sudo rm -rf: Efficient Networks for Universal Audio Source Separation

論文の概要: Sudo rm -rf: Efficient Networks for Universal Audio Source Separation

arxiv url: http://arxiv.org/abs/2007.06833v1
Date: Tue, 14 Jul 2020 05:46:38 GMT
ステータス: 翻訳完了
システム内更新日: 2022-11-10 13:31:47.525054
Title: Sudo rm -rf: Efficient Networks for Universal Audio Source Separation
Title（参考訳）: Sudo rm -rf: ユニバーサル音源分離のための効率的なネットワーク
Authors: Efthymios Tzinis, Zhepei Wang and Paris Smaragdis
Abstract要約: 本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。このネットワークのバックボーン構造は、SuDoRMRF(Sucessive DOwnsampling and Resampling of Multi-Resolution Features)である。
参考スコア（独自算出の注目度）: 32.851407723043806
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we present an efficient neural network for end-to-end general purpose audio source separation. Specifically, the backbone structure of this convolutional network is the SUccessive DOwnsampling and Resampling of Multi-Resolution Features (SuDoRMRF) as well as their aggregation which is performed through simple one-dimensional convolutions. In this way, we are able to obtain high quality audio source separation with limited number of floating point operations, memory requirements, number of parameters and latency. Our experiments on both speech and environmental sound separation datasets show that SuDoRMRF performs comparably and even surpasses various state-of-the-art approaches with significantly higher computational resource requirements.
Abstract（参考訳）: 本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。具体的には、この畳み込みネットワークのバックボーン構造は、単純な1次元畳み込みによって実行される、複数の解像度特徴(sudormrf)の連続的なダウンサンプリングと再サンプリングである。このようにして,浮動小数点演算数,メモリ要求数,パラメータ数,レイテンシを限定した高品質なオーディオソース分離を実現することができる。音声と環境音の分離データセットを用いた実験により,SuDoRMRFは相容れない性能を示し,計算資源の要求が大幅に高い様々な最先端手法を超越していることがわかった。

関連論文リスト

Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons [69.73249913506042]
本稿では、共振器(RF)ニューロンを用いて時間領域信号を直接処理する無線スプリットコンピューティングアーキテクチャについて検討する。可変周波数で共鳴することにより、RFニューロンは低スパイク活性を維持しながら時間局在スペクトル特徴を抽出する。実験の結果,提案したRF-SNNアーキテクチャは従来のLIF-SNNやANNと同等の精度を達成できることがわかった。
論文参考訳（メタデータ） (2025-06-24T21:14:59Z)
FADPNet: Frequency-Aware Dual-Path Network for Face Super-Resolution [70.61549422952193]
計算コストの制限による顔超解像(FSR)は未解決の問題である。既存のアプローチでは、全ての顔のピクセルを等しく扱い、計算資源を最適以下に割り当てる。本稿では、低周波成分と高周波成分に顔の特徴を分解する周波数対応デュアルパスネットワークであるFADPNetを提案する。
論文参考訳（メタデータ） (2025-06-17T02:33:42Z)
Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-21T12:02:47Z)
Implicit Neural Representations with Fourier Kolmogorov-Arnold Networks [4.499833362998488]
入射神経表現(INR)は、複雑な信号の連続的および分解非依存的な表現を提供するためにニューラルネットワークを使用する。提案したFKANは、第1層のフーリエ級数としてモデル化された学習可能なアクティベーション関数を用いて、タスク固有の周波数成分を効果的に制御し、学習する。実験結果から,提案したFKANモデルは,最先端の3つのベースラインスキームよりも優れていることがわかった。
論文参考訳（メタデータ） (2024-09-14T05:53:33Z)
ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference [6.005712471509875]
コーディネート・ネットワーク (Coordinate Network) または暗黙の神経表現 (INR) は、自然信号を高速に符号化する手法である。本稿では,多分解能座標分解と階層変調を組み合わせたASMR座標ネットワークを提案する。また,ASMRにより,バニラSIRENモデルのMACを最大500倍まで低減し,SIRENのベースラインよりも高い再現性が得られることを示す。
論文参考訳（メタデータ） (2024-05-20T22:35:34Z)
Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文参考訳（メタデータ） (2024-05-08T11:09:24Z)
RTFS-Net: Recurrent Time-Frequency Modelling for Efficient Audio-Visual Speech Separation [18.93255531121519]
本稿では,時間周波数領域の音声-視覚音声分離手法を提案する。 RTFS-Netはそのアルゴリズムをショートタイムフーリエ変換によって得られる複雑な時間周波数ビンに適用する。これは、時間周波数領域の音声・視覚的音声分離法として初めて、現代の時間領域の全てを上回ります。
論文参考訳（メタデータ） (2023-09-29T12:38:00Z)
A Generalized Bandsplit Neural Network for Cinematic Audio Source Separation [39.45425155123186]
周波数軸の完全あるいは過剰な分割に対してBandsplit RNNを一般化するモデルを開発する。信号-雑音比と1-ノルムの空間的プロモーティング特性によって動機付けられた損失関数を提案した。我々の最良のモデルは、対話幹の理想比マスクよりも高い性能で、Divide and Remasterデータセット上のアートの状態を設定します。
論文参考訳（メタデータ） (2023-09-05T19:19:22Z)
On Neural Architectures for Deep Learning-based Source Separation of Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文参考訳（メタデータ） (2023-03-11T16:29:13Z)
Neural Vocoder is All You Need for Speech Super-resolution [56.84715616516612]
音声スーパーレゾリューション(SR)は、高周波成分を生成して音声サンプリング率を高めるタスクである。既存の音声SR法は、固定的なアップサンプリング比のような制約のある実験環境で訓練される。本稿では,ニューラルボコーダを用いた音声超解法(NVSR)を提案する。
論文参考訳（メタデータ） (2022-03-28T17:51:00Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文参考訳（メタデータ） (2021-03-03T19:16:53Z)
Conditioning Trick for Training Stable GANs [70.15099665710336]
本稿では,GANトレーニング中の不安定性問題に対応するため,ジェネレータネットワークに正規性から逸脱する条件付け手法を提案する。我々は、生成元をシュア分解のスペクトル領域で計算された実サンプルの正規化関数から逸脱するように強制する。
論文参考訳（メタデータ） (2020-10-12T16:50:22Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。