Fugu-MT 論文翻訳(概要): Compute and memory efficient universal sound source separation

論文の概要: Compute and memory efficient universal sound source separation

arxiv url: http://arxiv.org/abs/2103.02644v1
Date: Wed, 3 Mar 2021 19:16:53 GMT
ステータス: 翻訳完了
システム内更新日: 2021-03-07 21:30:26.603821
Title: Compute and memory efficient universal sound source separation
Title（参考訳）: 計算とメモリ効率のよいユニバーサル音源分離
Authors: Efthymios Tzinis, Zhepei Wang, Xilin Jiang and Paris Smaragdis
Abstract要約: 汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
参考スコア（独自算出の注目度）: 23.152611264259225
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Recent progress in audio source separation lead by deep learning has enabled many neural network models to provide robust solutions to this fundamental estimation problem. In this study, we provide a family of efficient neural network architectures for general purpose audio source separation while focusing on multiple computational aspects that hinder the application of neural networks in real-world scenarios. The backbone structure of this convolutional network is the SUccessive DOwnsampling and Resampling of Multi-Resolution Features (SuDoRM-RF) as well as their aggregation which is performed through simple one-dimensional convolutions. This mechanism enables our models to obtain high fidelity signal separation in a wide variety of settings where variable number of sources are present and with limited computational resources (e.g. floating point operations, memory footprint, number of parameters and latency). Our experiments show that SuDoRM-RF models perform comparably and even surpass several state-of-the-art benchmarks with significantly higher computational resource requirements. The causal variation of SuDoRM-RF is able to obtain competitive performance in real-time speech separation of around 10dB scale-invariant signal-to-distortion ratio improvement (SI-SDRi) while remaining up to 20 times faster than real-time on a laptop device.
Abstract（参考訳）: ディープラーニングによるオーディオソース分離の最近の進歩により、多くのニューラルネットワークモデルがこの基本的な推定問題に対する堅牢なソリューションを提供することができました。本研究では,実世界のシナリオにおけるニューラルネットワークの適用を妨げる複数の計算的側面に注目しながら,汎用音源分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供する。この畳み込みネットワークのバックボーン構造は、単純な一次元畳み込みによって行われる、Successive DOwnsampling and Resampling of Multi-Resolution Features (SuDoRM-RF) およびそれらの凝集である。このメカニズムにより,可変数のソースが存在する,限られた計算資源(例えば,計算資源)で,多種多様な設定で高い忠実度信号分離が得られる。浮動小数点演算、メモリフットプリント、パラメータの数とレイテンシ)。実験の結果,SuDoRM-RFモデルは計算資源の要求がかなり高い最先端のベンチマークを数回上回っていることがわかった。 SuDoRM-RFの因果的変化は、10dBスケール不変信号対歪み比改善(SI-SDRi)のリアルタイム音声分離において、ラップトップデバイス上で最大20倍の速度で競合性能を得ることができる。

関連論文リスト

ANCRe: Adaptive Neural Connection Reassignment for Efficient Depth Scaling [57.91760520589592]
ネットワークの深度を拡大することは、現代の基礎モデルの成功の背後にある中心的な要因である。本稿では,ニューラルネットワークの奥行き,すなわち残差接続の既定メカニズムを再考する。我々は、データから残余接続性をパラメータ化し、学習する原則的かつ軽量なフレームワークである、適応型ニューラルネットワーク再割り当て(ANCRe)を導入する。
論文参考訳（メタデータ） (2026-02-09T18:54:18Z)
Multivariate time series prediction using clustered echo state network [4.4778341776682735]
エコー状態ネットワーク(ESN)は、従来のリカレントニューラルネットワークに代わる効率的な代替手段を提供する。予測精度と雑音に対する頑健性の観点から,CESNは従来型ESNよりも一貫して優れていた。当社のアルゴリズムは、株式市場、太陽風、カオスRsslerシステムなど、さまざまな現実世界のデータセットでうまく機能します。
論文参考訳（メタデータ） (2025-11-28T17:14:15Z)
Advancing physiological time series reconstruction and imputation via mixture of receptive fields and experts fusion [40.98861820195174]
スコアベース拡散フレームワークにおいて,Mixture of Experts(MoE)に基づくノイズ推定器を提案する。 RFAMoEモジュールは拡散過程を通じて各チャネルが所望の受容場を適応的に選択できるように設計されている。我々は、Fusion MoEモジュールを設計し、MoEモジュールの性質を革新的に活用し、Kノイズ信号を並列に生成し、ルーティング機構を用いてそれらを融合し、単一推論ステップで完全な信号再構成を行う。
論文参考訳（メタデータ） (2025-11-27T04:06:55Z)
Neuromorphic Wireless Split Computing with Resonate-and-Fire Neurons [69.73249913506042]
本稿では、共振器(RF)ニューロンを用いて時間領域信号を直接処理する無線スプリットコンピューティングアーキテクチャについて検討する。可変周波数で共鳴することにより、RFニューロンは低スパイク活性を維持しながら時間局在スペクトル特徴を抽出する。実験の結果,提案したRF-SNNアーキテクチャは従来のLIF-SNNやANNと同等の精度を達成できることがわかった。
論文参考訳（メタデータ） (2025-06-24T21:14:59Z)
Neuromorphic Wireless Split Computing with Multi-Level Spikes [69.73249913506042]
ニューロモルフィックコンピューティングでは、スパイクニューラルネットワーク(SNN)が推論タスクを実行し、シーケンシャルデータを含むワークロードの大幅な効率向上を提供する。ハードウェアとソフトウェアの最近の進歩は、スパイクニューロン間で交換された各スパイクに数ビットのペイロードを埋め込むことにより、推論精度をさらに高めることを示した。本稿では,マルチレベルSNNを用いた無線ニューロモルフィック分割計算アーキテクチャについて検討する。
論文参考訳（メタデータ） (2024-11-07T14:08:35Z)
Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文参考訳（メタデータ） (2024-09-21T12:02:47Z)
ASMR: Activation-sharing Multi-resolution Coordinate Networks For Efficient Inference [6.005712471509875]
コーディネート・ネットワーク (Coordinate Network) または暗黙の神経表現 (INR) は、自然信号を高速に符号化する手法である。本稿では,多分解能座標分解と階層変調を組み合わせたASMR座標ネットワークを提案する。また,ASMRにより,バニラSIRENモデルのMACを最大500倍まで低減し,SIRENのベースラインよりも高い再現性が得られることを示す。
論文参考訳（メタデータ） (2024-05-20T22:35:34Z)
Frequency-Assisted Mamba for Remote Sensing Image Super-Resolution [49.902047563260496]
我々は、リモートセンシング画像(RSI)の超高解像度化のために、視覚状態空間モデル(Mamba)を統合するための最初の試みを開発した。より優れたSR再構築を実現するため,FMSRと呼ばれる周波数支援型Mambaフレームワークを考案した。我々のFMSRは、周波数選択モジュール(FSM)、ビジョン状態空間モジュール(VSSM)、ハイブリッドゲートモジュール(HGM)を備えた多層融合アーキテクチャを備えている。
論文参考訳（メタデータ） (2024-05-08T11:09:24Z)
Heterogenous Memory Augmented Neural Networks [84.29338268789684]
ニューラルネットワークのための新しいヘテロジニアスメモリ拡張手法を提案する。学習可能なメモリトークンをアテンション機構付きで導入することにより、膨大な計算オーバーヘッドを伴わずに性能を効果的に向上させることができる。 In-distriion (ID) と Out-of-distriion (OOD) の両方の条件下での様々な画像およびグラフベースのタスクに対するアプローチを示す。
論文参考訳（メタデータ） (2023-10-17T01:05:28Z)
On Neural Architectures for Deep Learning-based Source Separation of Co-Channel OFDM Signals [104.11663769306566]
周波数分割多重化(OFDM)信号を含む単一チャネル音源分離問題について検討する。我々はOFDM構造からの洞察に基づいて、ネットワークパラメータ化に対する重要なドメインインフォームド修正を提案する。
論文参考訳（メタデータ） (2023-03-11T16:29:13Z)
Neural Calibration for Scalable Beamforming in FDD Massive MIMO with Implicit Channel Estimation [10.775558382613077]
チャネル推定とビームフォーミングは、周波数分割二重化(FDD)大規模マルチインプット多重出力(MIMO)システムにおいて重要な役割を果たす。受信したアップリンクパイロットに応じて,基地局のビームフォーマを直接最適化する深層学習方式を提案する。エンド・ツー・エンドの設計のスケーラビリティを向上させるために,ニューラルキャリブレーション法を提案する。
論文参考訳（メタデータ） (2021-08-03T14:26:14Z)
Learning Frequency-aware Dynamic Network for Efficient Super-Resolution [56.98668484450857]
本稿では、離散コサイン変換(dct)領域の係数に応じて入力を複数の部分に分割する新しい周波数認識動的ネットワークについて検討する。実際、高周波部は高価な操作で処理され、低周波部は計算負荷を軽減するために安価な操作が割り当てられる。ベンチマークSISRモデルおよびデータセット上での実験は、周波数認識動的ネットワークが様々なSISRニューラルネットワークに使用できることを示している。
論文参考訳（メタデータ） (2021-03-15T12:54:26Z)
Sudo rm -rf: Efficient Networks for Universal Audio Source Separation [32.851407723043806]
本稿では,エンドツーエンドの汎用音源分離のための効率的なニューラルネットワークを提案する。このネットワークのバックボーン構造は、SuDoRMRF(Sucessive DOwnsampling and Resampling of Multi-Resolution Features)である。
論文参考訳（メタデータ） (2020-07-14T05:46:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。