論文の概要: FFC-SE: Fast Fourier Convolution for Speech Enhancement
- arxiv url: http://arxiv.org/abs/2204.03042v1
- Date: Wed, 6 Apr 2022 18:52:47 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-08 16:05:41.529248
- Title: FFC-SE: Fast Fourier Convolution for Speech Enhancement
- Title(参考訳): FFC-SE:音声強調のための高速フーリエ変換
- Authors: Ivan Shchekotov, Pavel Andreev, Oleg Ivanov, Aibek Alanov, Dmitry
Vetrov
- Abstract要約: Fast Fourier Convolution(FFC)は、最近提案された神経オペレータで、いくつかのコンピュータビジョン問題で有望なパフォーマンスを示している。
本研究では、FFCを音声強調に適応させるニューラルネットワークアーキテクチャを設計する。
その結果、FFCに基づくニューラルネットワークは、類似の畳み込みモデルよりも優れており、他の音声強調ベースラインよりも良い結果または同等の結果が得られた。
- 参考スコア(独自算出の注目度): 1.0499611180329804
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fast Fourier convolution (FFC) is the recently proposed neural operator
showing promising performance in several computer vision problems. The FFC
operator allows employing large receptive field operations within early layers
of the neural network. It was shown to be especially helpful for inpainting of
periodic structures which are common in audio processing. In this work, we
design neural network architectures which adapt FFC for speech enhancement. We
hypothesize that a large receptive field allows these networks to produce more
coherent phases than vanilla convolutional models, and validate this hypothesis
experimentally. We found that neural networks based on Fast Fourier convolution
outperform analogous convolutional models and show better or comparable results
with other speech enhancement baselines.
- Abstract(参考訳): Fast Fourier Convolution(FFC)は、最近提案された神経オペレータで、いくつかのコンピュータビジョン問題で有望なパフォーマンスを示している。
FFCオペレータは、ニューラルネットワークの初期層内で大きな受容野操作を使用することができる。
音声処理に共通する周期的構造のインペインティングに特に有用であることが示されている。
本研究では,ffcを音声強調に適応するニューラルネットワークアーキテクチャを設計する。
我々は、大きな受容場がバニラ畳み込みモデルよりもコヒーレントな位相を生成できると仮定し、この仮説を実験的に検証する。
高速フーリエ畳み込みに基づくニューラルネットワークは、類似した畳み込みモデルよりも優れており、他の音声強調ベースラインと同等の結果を示すことが判明した。
関連論文リスト
- Adaptive Frequency Filters As Efficient Global Token Mixers [100.27957692579892]
適応周波数フィルタは効率的なグローバルトークンミキサーとして機能することを示す。
我々は、AFFNetと呼ばれる軽量ニューラルネットワークを構築するために、AFFトークンミキサーを主要なニューラルネットワークとして捉えています。
論文 参考訳(メタデータ) (2023-07-26T07:42:28Z) - Vocos: Closing the gap between time-domain and Fourier-based neural vocoders for high-quality audio synthesis [1.4277428617774877]
フーリエスペクトル係数を直接生成する新しいモデルであるVocosを提案する。
計算効率を大幅に向上し、時間領域のニューラルネットワークのボコーディングアプローチに比べて、桁違いにスピードが向上する。
論文 参考訳(メタデータ) (2023-06-01T15:40:32Z) - A Scalable Walsh-Hadamard Regularizer to Overcome the Low-degree
Spectral Bias of Neural Networks [79.28094304325116]
任意の関数を学習するニューラルネットワークの能力にもかかわらず、勾配降下によって訓練されたモデルは、しばしばより単純な関数に対するバイアスを示す。
我々は、この低度周波数に対するスペクトルバイアスが、現実のデータセットにおけるニューラルネットワークの一般化を実際にいかに損なうかを示す。
本稿では,ニューラルネットワークによる高次周波数学習を支援する,スケーラブルな機能正規化手法を提案する。
論文 参考訳(メタデータ) (2023-05-16T20:06:01Z) - Properties and Potential Applications of Random Functional-Linked Types
of Neural Networks [81.56822938033119]
ランダム関数リンクニューラルネットワーク(RFLNN)は、深い構造を学習する別の方法を提供する。
本稿では周波数領域の観点からRFLNNの特性について考察する。
本稿では,より優れた性能でBLSネットワークを生成する手法を提案し,ポゾン方程式を解くための効率的なアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-04-03T13:25:22Z) - Polynomial Neural Fields for Subband Decomposition and Manipulation [78.2401411189246]
我々はニューラルフィールド(PNF)と呼ばれる新しい種類のニューラルフィールドを提案する。
PNFの鍵となる利点は、信号がニューラルネットワークの利点を失うことなく、操作可能なコンポーネントと解釈可能なコンポーネントの合成として表現できることである。
本研究では,Fourier PNFがテクスチャ転送やスケール空間といった信号操作の応用を可能にすることを実証的に示す。
論文 参考訳(メタデータ) (2023-02-09T18:59:04Z) - QFF: Quantized Fourier Features for Neural Field Representations [28.82293263445964]
我々は、QFF(Quantized Fourier Features)を用いることで、モデルのサイズが小さくなり、トレーニングが速くなり、複数のアプリケーションの品質が向上することを示した。
QFFは簡単にコーディングでき、高速に計算でき、多くのニューラルネットワーク表現に加えてシンプルなドロップインとして機能する。
論文 参考訳(メタデータ) (2022-12-02T00:11:22Z) - Transform Once: Efficient Operator Learning in Frequency Domain [69.74509540521397]
本研究では、周波数領域の構造を利用して、空間や時間における長距離相関を効率的に学習するために設計されたディープニューラルネットワークについて検討する。
この研究は、単一変換による周波数領域学習のための青写真を導入している。
論文 参考訳(メタデータ) (2022-11-26T01:56:05Z) - Neural Fourier Shift for Binaural Speech Rendering [16.957415282256758]
音源の位置, 方向, 音源から音声を描画するニューラルネットワークを提案する。
フーリエ空間における音声の描画を可能にする新しいネットワークアーキテクチャであるニューラルシフト(NFS)を提案する。
論文 参考訳(メタデータ) (2022-11-02T04:55:09Z) - Functional Regularization for Reinforcement Learning via Learned Fourier
Features [98.90474131452588]
本稿では、入力を学習されたフーリエベースに埋め込むことにより、深層強化学習のための簡単なアーキテクチャを提案する。
その結果、状態ベースと画像ベースの両方のRLのサンプル効率が向上することがわかった。
論文 参考訳(メタデータ) (2021-12-06T18:59:52Z) - Efficient Trainable Front-Ends for Neural Speech Enhancement [22.313111311130665]
本稿では,高速フーリエ変換を演算するバタフライ機構に基づく,効率的で訓練可能なフロントエンドを提案する。
我々はその精度と効率の利点を低計算型ニューラル音声強調モデルに示す。
論文 参考訳(メタデータ) (2020-02-20T01:51:15Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。