論文の概要: LaSAFT: Latent Source Attentive Frequency Transformation for Conditioned
Source Separation
- arxiv url: http://arxiv.org/abs/2010.11631v2
- Date: Wed, 14 Apr 2021 05:31:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-04 08:26:55.712131
- Title: LaSAFT: Latent Source Attentive Frequency Transformation for Conditioned
Source Separation
- Title(参考訳): LaSAFT:条件付き音源分離のための遅延音源減衰周波数変換
- Authors: Woosung Choi and Minseok Kim and Jaehwa Chung and Soonyoung Jung
- Abstract要約: 本稿では、ソース依存周波数パターンをキャプチャするLaSAFT(Latent Source Attentive Frequency Transformation)ブロックを提案する。
また,Gated Point-wise Convolutional Modulation (GPoCM) を提案する。
- 参考スコア(独自算出の注目度): 7.002478301291264
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent deep-learning approaches have shown that Frequency Transformation (FT)
blocks can significantly improve spectrogram-based single-source separation
models by capturing frequency patterns. The goal of this paper is to extend the
FT block to fit the multi-source task. We propose the Latent Source Attentive
Frequency Transformation (LaSAFT) block to capture source-dependent frequency
patterns. We also propose the Gated Point-wise Convolutional Modulation
(GPoCM), an extension of Feature-wise Linear Modulation (FiLM), to modulate
internal features. By employing these two novel methods, we extend the
Conditioned-U-Net (CUNet) for multi-source separation, and the experimental
results indicate that our LaSAFT and GPoCM can improve the CUNet's performance,
achieving state-of-the-art SDR performance on several MUSDB18 source separation
tasks.
- Abstract(参考訳): 近年の深層学習アプローチでは、周波数パターンをキャプチャすることで、スペクトルベースの単一ソース分離モデルを大幅に改善できることが示されている。
本論文の目的は、FTブロックを拡張してマルチソースタスクに適合させることである。
本稿では、ソース依存周波数パターンをキャプチャするLaSAFT(Latent Source Attentive Frequency Transformation)ブロックを提案する。
また,内部特徴を変調するための特徴点線形変調(フィルム)の拡張であるgpocm(gated point-wise convolutional modulation)を提案する。
これらの2つの新しい手法を用いることで、マルチソース分離のための条件付きU-Net(CUNet)を拡張し、実験結果からLaSAFTとGPoCMがCUNetの性能を改善し、複数のMUSDB18ソース分離タスクで最先端のSDR性能を達成することを示す。
関連論文リスト
- Frequency-Adaptive Dilated Convolution for Semantic Segmentation [15.809228628233583]
本稿では、スペクトル分析の観点から、拡張畳み込みの個々の位相を改善するための3つの戦略を提案する。
周波数適応型拡張畳み込み(FADC)を導入し、局所周波数成分に基づいて空間的に拡散率を調整する。
2つのプラグインモジュールを設計し、有効帯域幅と受容フィールドサイズを直接的に拡張する。
論文 参考訳(メタデータ) (2024-03-08T15:00:44Z) - Score-based Source Separation with Applications to Digital Communication
Signals [72.6570125649502]
拡散モデルを用いた重畳音源の分離手法を提案する。
高周波(RF)システムへの応用によって、我々は、基礎となる離散的な性質を持つ情報源に興味を持っている。
提案手法は,最近提案されたスコア蒸留サンプリング方式のマルチソース拡張と見なすことができる。
論文 参考訳(メタデータ) (2023-06-26T04:12:40Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Transfering Low-Frequency Features for Domain Adaptation [44.86474562827323]
我々は低周波モジュール(LFM)と呼ばれるアプローチを導入し、ドメイン不変の特徴表現を抽出する。
実験の結果,LFMは様々なコンピュータビジョンタスクの最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-08-31T09:13:25Z) - Adaptive Frequency Learning in Two-branch Face Forgery Detection [66.91715092251258]
本稿では、AFDと呼ばれる2分岐検出フレームワークにおいて、周波数情報を適応的に学習する手法を提案する。
我々は、固定周波数変換からネットワークを解放し、データおよびタスク依存の変換層でより良いパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-03-27T14:25:52Z) - FAMLP: A Frequency-Aware MLP-Like Architecture For Domain Generalization [73.41395947275473]
本稿では、変換周波数領域において、ドメイン固有の特徴をフィルタリングする新しい周波数認識アーキテクチャを提案する。
3つのベンチマークの実験では、最先端の手法をそれぞれ3%、4%、9%のマージンで上回った。
論文 参考訳(メタデータ) (2022-03-24T07:26:29Z) - Deep Frequency Filtering for Domain Generalization [55.66498461438285]
Deep Neural Networks(DNN)は、学習プロセスにおいて、いくつかの周波数成分を優先する。
本稿では、ドメイン一般化可能な特徴を学習するためのDeep Frequency Filtering (DFF)を提案する。
提案したDFFをベースラインに適用すると,ドメインの一般化タスクにおける最先端の手法よりも優れることを示す。
論文 参考訳(メタデータ) (2022-03-23T05:19:06Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - Compute and memory efficient universal sound source separation [23.152611264259225]
汎用オーディオソース分離のための効率的なニューラルネットワークアーキテクチャのファミリーを提供します。
この畳み込みネットワークのバックボーン構造は、SuDoRM-RF(Sccessive DOwnsampling and Resampling of Multi-Resolution Features)である。
実験の結果,SuDoRM-RFモデルは相容れない性能を示し,またいくつかの最先端ベンチマークを上回る性能を示した。
論文 参考訳(メタデータ) (2021-03-03T19:16:53Z) - Sparse Multi-Family Deep Scattering Network [14.932318540666543]
DSN(Deep Scattering Network)の解釈可能性を活用した新しいアーキテクチャを提案する。
SMF-DSNは散乱係数の多様性を高めてDSNを強化し、(ii)非定常雑音に対するロバスト性を向上させる。
論文 参考訳(メタデータ) (2020-12-14T16:06:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。