論文の概要: LaSAFT: Latent Source Attentive Frequency Transformation for Conditioned
Source Separation
- arxiv url: http://arxiv.org/abs/2010.11631v2
- Date: Wed, 14 Apr 2021 05:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:26:55.712131
- Title: LaSAFT: Latent Source Attentive Frequency Transformation for Conditioned
Source Separation
- Title(参考訳): LaSAFT:条件付き音源分離のための遅延音源減衰周波数変換
- Authors: Woosung Choi and Minseok Kim and Jaehwa Chung and Soonyoung Jung
- Abstract要約: 本稿では、ソース依存周波数パターンをキャプチャするLaSAFT(Latent Source Attentive Frequency Transformation)ブロックを提案する。
また,Gated Point-wise Convolutional Modulation (GPoCM) を提案する。
- 参考スコア(独自算出の注目度): 7.002478301291264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep-learning approaches have shown that Frequency Transformation (FT)
blocks can significantly improve spectrogram-based single-source separation
models by capturing frequency patterns. The goal of this paper is to extend the
FT block to fit the multi-source task. We propose the Latent Source Attentive
Frequency Transformation (LaSAFT) block to capture source-dependent frequency
patterns. We also propose the Gated Point-wise Convolutional Modulation
(GPoCM), an extension of Feature-wise Linear Modulation (FiLM), to modulate
internal features. By employing these two novel methods, we extend the
Conditioned-U-Net (CUNet) for multi-source separation, and the experimental
results indicate that our LaSAFT and GPoCM can improve the CUNet's performance,
achieving state-of-the-art SDR performance on several MUSDB18 source separation
tasks.
- Abstract(参考訳): 近年の深層学習アプローチでは、周波数パターンをキャプチャすることで、スペクトルベースの単一ソース分離モデルを大幅に改善できることが示されている。
本論文の目的は、FTブロックを拡張してマルチソースタスクに適合させることである。
本稿では、ソース依存周波数パターンをキャプチャするLaSAFT(Latent Source Attentive Frequency Transformation)ブロックを提案する。
また,内部特徴を変調するための特徴点線形変調(フィルム)の拡張であるgpocm(gated point-wise convolutional modulation)を提案する。
これらの2つの新しい手法を用いることで、マルチソース分離のための条件付きU-Net(CUNet)を拡張し、実験結果からLaSAFTとGPoCMがCUNetの性能を改善し、複数のMUSDB18ソース分離タスクで最先端のSDR性能を達成することを示す。
関連論文リスト
- MFF-FTNet: Multi-scale Feature Fusion across Frequency and Temporal Domains for Time Series Forecasting [18.815152183468673]
時系列予測は多くの分野において重要であるが、現在のディープラーニングモデルはノイズやデータの分散、複雑なパターンのキャプチャに苦労している。
本稿では,コントラスト学習とマルチスケール特徴抽出を組み合わせることで,これらの課題に対処する新しいフレームワークであるMFF-FTNetを提案する。
5つの実世界のデータセットに対する大規模な実験は、MFF-FTNetが最先端のモデルを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2024-11-26T12:41:42Z) - Accelerated Multi-Contrast MRI Reconstruction via Frequency and Spatial Mutual Learning [50.74383395813782]
本稿では,周波数・空間相互学習ネットワーク(FSMNet)を提案する。
提案したFSMNetは, 加速度係数の異なるマルチコントラストMR再構成タスクに対して, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2024-09-21T12:02:47Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Sparse Multi-Family Deep Scattering Network [14.932318540666543]
DSN(Deep Scattering Network)の解釈可能性を活用した新しいアーキテクチャを提案する。
SMF-DSNは散乱係数の多様性を高めてDSNを強化し、(ii)非定常雑音に対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2020-12-14T16:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。