論文の概要: Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement
- arxiv url: http://arxiv.org/abs/2306.08956v1
- Date: Thu, 15 Jun 2023 08:48:19 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-16 15:43:40.935582
- Title: Multi-Loss Convolutional Network with Time-Frequency Attention for
Speech Enhancement
- Title(参考訳): 音声強調のための時間周波数アテンション付きマルチロス畳み込みネットワーク
- Authors: Liang Wan and Hongqing Liu and Yi Zhou and Jie Ji
- Abstract要約: 我々はDPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
DPRNNと比較して、軸方向の自己アテンションはメモリと計算の必要性を大幅に減らす。
本稿では,WavLMネットワークを用いた多分解能STFT損失とWavLM損失のジョイントトレーニング手法を提案する。
- 参考スコア(独自算出の注目度): 16.701596804113553
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The Dual-Path Convolution Recurrent Network (DPCRN) was proposed to
effectively exploit time-frequency domain information. By combining the DPRNN
module with Convolution Recurrent Network (CRN), the DPCRN obtained a promising
performance in speech separation with a limited model size. In this paper, we
explore self-attention in the DPCRN module and design a model called Multi-Loss
Convolutional Network with Time-Frequency Attention(MNTFA) for speech
enhancement. We use self-attention modules to exploit the long-time
information, where the intra-chunk self-attentions are used to model the
spectrum pattern and the inter-chunk self-attention are used to model the
dependence between consecutive frames. Compared to DPRNN, axial self-attention
greatly reduces the need for memory and computation, which is more suitable for
long sequences of speech signals. In addition, we propose a joint training
method of a multi-resolution STFT loss and a WavLM loss using a pre-trained
WavLM network. Experiments show that with only 0.23M parameters, the proposed
model achieves a better performance than DPCRN.
- Abstract(参考訳): 時間周波数領域情報を有効に活用するためにdpcrn(d-path convolution recurrent network)を提案した。
DPRNNモジュールとCRN(Convolution Recurrent Network)を組み合わせることで、DPCRNは限られたモデルサイズで音声分離において有望な性能を得た。
本稿では、DPCRNモジュールにおける自己注意を探求し、音声強調のためのMNTFA(Multi-Loss Convolutional Network with Time-Frequency Attention)と呼ばれるモデルの設計を行う。
我々は, 長期的情報を活用するために自己照準モジュールを用い, チャンク内自己照準を用いてスペクトルパターンをモデル化し, チャンク間自己照準を連続フレーム間の依存性をモデル化する。
DPRNNと比較して、軸方向の自己注意は、長い音声信号列に適したメモリと計算の必要性を大幅に減らす。
さらに,事前学習したWavLMネットワークを用いた多分解能STFT損失とWavLM損失の合同トレーニング手法を提案する。
実験の結果,0.23MパラメータだけでDPCRNよりも優れた性能が得られることがわかった。
関連論文リスト
- Cascaded Temporal Updating Network for Efficient Video Super-Resolution [47.63267159007611]
リカレントベースのVSRネットワークにおけるキーコンポーネントはモデル効率に大きな影響を及ぼす。
本稿では,効率的なVSRのための時空間更新ネットワーク(CTUN)を提案する。
CTUNは,従来の方法に比べて効率と性能のトレードオフが良好である。
論文 参考訳(メタデータ) (2024-08-26T12:59:32Z) - Delayed Memory Unit: Modelling Temporal Dependency Through Delay Gate [16.4160685571157]
リカレントニューラルネットワーク(RNN)は、時間的依存をモデル化する能力で広く認識されている。
本稿では、ゲートRNNのための新しい遅延メモリユニット(DMU)を提案する。
DMUは遅延線構造と遅延ゲートをバニラRNNに組み込み、時間的相互作用を高め、時間的信用割り当てを容易にする。
論文 参考訳(メタデータ) (2023-10-23T14:29:48Z) - Complex-Valued Time-Frequency Self-Attention for Speech Dereverberation [39.64103126881576]
本稿では,スペクトルおよび時間依存性をモデル化した複雑なT-Fアテンション(TFA)モジュールを提案する。
本稿では,REVERBチャレンジコーパスを用いた深部複雑畳み込みリカレントネットワーク(DCCRN)を用いた複雑なTFAモジュールの有効性を検証した。
実験結果から,複雑なTFAモジュールをDCCRNに統合することで,バックエンド音声アプリケーション全体の品質と性能が向上することが示唆された。
論文 参考訳(メタデータ) (2022-11-22T23:38:10Z) - Streaming Audio-Visual Speech Recognition with Alignment Regularization [69.30185151873707]
本稿では,ハイブリッド接続型時間分類(CTC)/アテンションニューラルネットワークアーキテクチャに基づくストリーミングAV-ASRシステムを提案する。
提案したAV-ASRモデルは、オフラインおよびオンライン設定でLip Reading Sentences 3データセット上で、WERの2.0%と2.6%を達成する。
論文 参考訳(メタデータ) (2022-11-03T20:20:47Z) - Recurrence-in-Recurrence Networks for Video Deblurring [58.49075799159015]
最先端のビデオデブロアリング法は、しばしばフレーム間の時間的依存性をモデル化するために、リカレントニューラルネットワークを採用する。
本稿では,短距離メモリの限界に対処する再帰型ネットワークアーキテクチャを提案する。
論文 参考訳(メタデータ) (2022-03-12T11:58:13Z) - MIMO Self-attentive RNN Beamformer for Multi-speaker Speech Separation [45.90599689005832]
近年,ADL-MVDRビームフォーマ法を応用したリカレントニューラルネットワーク(RNN)は,従来のMVDRよりも優れた性能を示した。
我々は、自己注意の強力なモデリング能力を活用し、従来のRNNベースのビームフォーマをさらに改良する自己注意型RNNビームフォーマを提案する。
論文 参考訳(メタデータ) (2021-04-17T05:02:04Z) - Multi-Temporal Convolutions for Human Action Recognition in Videos [83.43682368129072]
複数の解像度で抽出できる新しい時間・時間的畳み込みブロックを提案する。
提案するブロックは軽量で,任意の3D-CNNアーキテクチャに統合可能である。
論文 参考訳(メタデータ) (2020-11-08T10:40:26Z) - Multi-Tones' Phase Coding (MTPC) of Interaural Time Difference by
Spiking Neural Network [68.43026108936029]
雑音の多い実環境下での正確な音像定位のための純粋スパイクニューラルネットワーク(SNN)に基づく計算モデルを提案する。
このアルゴリズムを,マイクロホンアレイを用いたリアルタイムロボットシステムに実装する。
実験の結果, 平均誤差方位は13度であり, 音源定位に対する他の生物学的に妥当なニューロモルフィックアプローチの精度を上回っていることがわかった。
論文 参考訳(メタデータ) (2020-07-07T08:22:56Z) - WaveCRN: An Efficient Convolutional Recurrent Neural Network for
End-to-end Speech Enhancement [31.236720440495994]
本稿では、WaveCRNと呼ばれる効率的なE2E SEモデルを提案する。
WaveCRNでは、音声の局所性特徴は畳み込みニューラルネットワーク(CNN)によって捉えられ、その局所性特徴の時間的シーケンシャル特性はスタック化された単純な繰り返し単位(SRU)によってモデル化される。
さらに、入力雑音音声の雑音成分をより効果的に抑制するために、隠れた層における特徴マップの強化を行う新しい制限された特徴マスキング(RFM)アプローチを導出する。
論文 参考訳(メタデータ) (2020-04-06T13:48:05Z) - Single Channel Speech Enhancement Using Temporal Convolutional Recurrent
Neural Networks [23.88788382262305]
時間畳み込みリカレントネットワーク(TCRN)は、ノイズ波形を直接クリーン波形にマッピングするエンドツーエンドモデルである。
既存の畳み込みリカレントネットワークと比較して,本モデルではモデルの性能を向上させることができることを示す。
論文 参考訳(メタデータ) (2020-02-02T04:26:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。