論文の概要: A non-causal FFTNet architecture for speech enhancement
- arxiv url: http://arxiv.org/abs/2006.04469v1
- Date: Mon, 8 Jun 2020 10:49:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-24 02:17:58.853877
- Title: A non-causal FFTNet architecture for speech enhancement
- Title(参考訳): 音声強調のための非因果FFTNetアーキテクチャ
- Authors: Muhammed PV Shifas, Nagaraj Adiga, Vassilis Tsiaras, Yannis Stylianou
- Abstract要約: FFTNetに基づく音声強調のための新しい並列・非因果・浅部波形領域アーキテクチャを提案する。
浅いネットワークを提案し、特定の制限内で非因果性を適用することで、提案されたFFTNetは、他のニューラルネットワークベースのアプローチと比較してはるかに少ないパラメータを使用する。
- 参考スコア(独自算出の注目度): 18.583426581177278
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we suggest a new parallel, non-causal and shallow waveform
domain architecture for speech enhancement based on FFTNet, a neural network
for generating high quality audio waveform. In contrast to other waveform based
approaches like WaveNet, FFTNet uses an initial wide dilation pattern. Such an
architecture better represents the long term correlated structure of speech in
the time domain, where noise is usually highly non-correlated, and therefore it
is suitable for waveform domain based speech enhancement. To further strengthen
this feature of FFTNet, we suggest a non-causal FFTNet architecture, where the
present sample in each layer is estimated from the past and future samples of
the previous layer. By suggesting a shallow network and applying non-causality
within certain limits, the suggested FFTNet for speech enhancement (SE-FFTNet)
uses much fewer parameters compared to other neural network based approaches
for speech enhancement like WaveNet and SEGAN. Specifically, the suggested
network has considerably reduced model parameters: 32% fewer compared to
WaveNet and 87% fewer compared to SEGAN. Finally, based on subjective and
objective metrics, SE-FFTNet outperforms WaveNet in terms of enhanced signal
quality, while it provides equally good performance as SEGAN. A Tensorflow
implementation of the architecture is provided at 1 .
- Abstract(参考訳): 本稿では,高品質な音声波形を生成するニューラルネットワークであるfftnetに基づく音声強調のための,並列,非コーサル,浅い波形領域アーキテクチャを提案する。
WaveNetのような他の波形ベースのアプローチとは対照的に、FFTNetは初期拡張パターンを使用している。
このようなアーキテクチャは、通常ノイズが非相関である時間領域における音声の長期的相関構造をよりよく表現するので、波形領域に基づく音声強調に好適である。
FFTNetのこの特徴をさらに強化するために、各層における現在のサンプルを前層の過去と将来のサンプルから推定する非因果FFTNetアーキテクチャを提案する。
浅いネットワークを提案し、一定の範囲内で非因果性を適用することで、提案する音声強調のためのFFTNetは、WaveNetやSEGANのような他のニューラルネットワークベースのアプローチに比べてはるかに少ないパラメータを使用する。
具体的には、提案するネットワークはモデルパラメータを著しく削減し、WaveNetより32%、SEGANより87%削減した。
最後に、主観的および客観的な指標に基づいて、SE-FFTNetは、SEGANと同等に優れた性能を提供する一方で、信号品質の強化の観点から、WaveNetより優れている。
アーキテクチャのTensorflow実装は1.0で提供される。
関連論文リスト
- TCCT-Net: Two-Stream Network Architecture for Fast and Efficient Engagement Estimation via Behavioral Feature Signals [58.865901821451295]
本稿では,新しい2ストリーム機能融合 "Tensor-Convolution and Convolution-Transformer Network" (TCCT-Net) アーキテクチャを提案する。
時間空間領域における意味のあるパターンをよりよく学習するために、ハイブリッド畳み込み変換器を統合する「CT」ストリームを設計する。
並行して、時間周波数領域からリッチなパターンを効率的に抽出するために、連続ウェーブレット変換(CWT)を用いて情報を2次元テンソル形式で表現する「TC」ストリームを導入する。
論文 参考訳(メタデータ) (2024-04-15T06:01:48Z) - HiFTNet: A Fast High-Quality Neural Vocoder with Harmonic-plus-Noise
Filter and Inverse Short Time Fourier Transform [21.896817015593122]
時間周波数領域に高調波+雑音源フィルタを組み込んだiSTFTNet(HiFTNet)の拡張を提案する。
LJSpeech の主観評価では,iSTFTNet と HiFi-GAN のどちらよりも優れていた。
私たちの研究は、効率的で高品質なニューラルボコーディングのための新しいベンチマークを設定し、リアルタイムアプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2023-09-18T05:30:15Z) - FFC-SE: Fast Fourier Convolution for Speech Enhancement [1.0499611180329804]
Fast Fourier Convolution(FFC)は、最近提案された神経オペレータで、いくつかのコンピュータビジョン問題で有望なパフォーマンスを示している。
本研究では、FFCを音声強調に適応させるニューラルネットワークアーキテクチャを設計する。
その結果、FFCに基づくニューラルネットワークは、類似の畳み込みモデルよりも優れており、他の音声強調ベースラインよりも良い結果または同等の結果が得られた。
論文 参考訳(メタデータ) (2022-04-06T18:52:47Z) - Speech-enhanced and Noise-aware Networks for Robust Speech Recognition [25.279902171523233]
音声強調と音声認識を協調的に最適化するために,2つのカスケードニューラルネットワーク構造に基づく雑音認識学習フレームワークを提案する。
提案した2つのシステムは,オーロラ4タスクにおいてそれぞれ3.90%と3.55%の単語誤り率(WER)を達成する。
CNN-TDNNF ベースのシステムは,Bigram と Trigram の言語モデルを用いた復号化システムと比較して,それぞれ 15.20% と 33.53% の WER 削減を実現している。
論文 参考訳(メタデータ) (2022-03-25T15:04:51Z) - An Adaptive Device-Edge Co-Inference Framework Based on Soft
Actor-Critic [72.35307086274912]
高次元パラメータモデルと大規模数学的計算は、特にIoT(Internet of Things)デバイスにおける実行効率を制限する。
本稿では,ソフトポリシーの繰り返しによるエフェキシット点,エフェキシット点,エンフェキシット点を生成する離散的(SAC-d)のための新しい深層強化学習(DRL)-ソフトアクタ批判法を提案する。
レイテンシと精度を意識した報酬設計に基づいて、そのような計算は動的無線チャンネルや任意の処理のような複雑な環境によく適応でき、5G URLをサポートすることができる。
論文 参考訳(メタデータ) (2022-01-09T09:31:50Z) - Towards Theoretical Understanding of Flexible Transmitter Networks via
Approximation and Local Minima [74.30120779041428]
近似と局所最小値の観点から一層FTNetの理論的性質を考察する。
その結果,FTNetは効率よく対象関数を表現でき,局所最小化には関心がないことが明らかとなった。
論文 参考訳(メタデータ) (2021-11-11T02:41:23Z) - Time-domain Speech Enhancement with Generative Adversarial Learning [53.74228907273269]
本稿では,TSEGAN(Time-domain Speech Enhancement Generative Adversarial Network)という新しいフレームワークを提案する。
TSEGANは、スケーリング問題を軽減するためのメトリクス評価を備えた時間領域におけるジェネレーション・アドバーサリ・ネットワーク(GAN)の拡張である。
さらに,計量ganの性能を理論的に解析するために,客観的関数マッピングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-03-30T08:09:49Z) - Network Adjustment: Channel Search Guided by FLOPs Utilization Ratio [101.84651388520584]
本稿では,ネットワークの精度をFLOPの関数として考慮した,ネットワーク調整という新しいフレームワークを提案する。
標準画像分類データセットと幅広いベースネットワークの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2020-04-06T15:51:00Z) - FastWave: Accelerating Autoregressive Convolutional Neural Networks on
FPGA [27.50143717931293]
WaveNetは、拡張畳み込みの複数のレイヤで構成された、深く自己回帰的なCNNである。
我々は,自己回帰畳み込みニューラルネットワークのための最初のアクセラレータtextitFastWaveを開発した。
論文 参考訳(メタデータ) (2020-02-09T06:15:09Z) - WaveTTS: Tacotron-based TTS with Joint Time-Frequency Domain Loss [74.11899135025503]
Tacotron-based text-to-speech (TTS) システムはテキスト入力から直接音声を合成する。
本稿では2つの損失関数を持つタコトロン型TS(WaveTTS)の新たなトレーニング手法を提案する。
WaveTTSは、音響特性と結果の音声波形の両方の品質を保証する。
論文 参考訳(メタデータ) (2020-02-02T15:51:22Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。