論文の概要: On Using Transformers for Speech-Separation
- arxiv url: http://arxiv.org/abs/2202.02884v1
- Date: Sun, 6 Feb 2022 23:13:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-08 18:45:40.427412
- Title: On Using Transformers for Speech-Separation
- Title(参考訳): 変圧器を用いた音声分離について
- Authors: Cem Subakan, Mirco Ravanelli, Samuele Cornell, Francois Grondin, Mirko
Bronzi
- Abstract要約: 近年,WSJ0-2/3Mixデータセット上で,自己認識と最先端の成果を得るSepFormerを提案する。
本稿では,LibriMix や WHAM!, WHAMR!
また,最近提案したSepFormerモデルに効率的な自己アテンション機構を導入し,効率的な自己アテンション機構を用いることで,メモリ要求を大幅に低減できることを示す。
- 参考スコア(独自算出の注目度): 11.210834842425955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers have enabled major improvements in deep learning. They often
outperform recurrent and convolutional models in many tasks while taking
advantage of parallel processing. Recently, we have proposed SepFormer, which
uses self-attention and obtains state-of-the art results on WSJ0-2/3 Mix
datasets for speech separation. In this paper, we extend our previous work by
providing results on more datasets including LibriMix, and WHAM!, WHAMR! which
include noisy and noisy-reverberant conditions. Moreover we provide denoising,
and denoising+dereverberation results in the context of speech enhancement,
respectively on WHAM! and WHAMR! datasets. We also investigate incorporating
recently proposed efficient self-attention mechanisms inside the SepFormer
model, and show that by using efficient self-attention mechanisms it is
possible to reduce the memory requirements significantly while performing
better than the popular convtasnet model on WSJ0-2Mix dataset.
- Abstract(参考訳): トランスフォーマーはディープラーニングに大きな改善をもたらした。
並列処理を活用しながら、多くのタスクで再帰モデルや畳み込みモデルを上回ることが多い。
近年,音声分離のためのwsj0-2/3ミックスデータセットの最先端結果を得るsepformerが提案されている。
本稿では,librimix や wham など,さらに多くのデータセットに関する結果を提供することで,これまでの作業を拡張する。
騒がしい、騒がしい、残響の多い条件を含む。
さらに,wham!とwhamr!データセット上で,音声強調の文脈において,デノイジング,デノイジング+デノイジンゲーション結果を提供する。
また,最近提案したSepFormerモデルに効率的な自己アテンション機構を導入し,効率的な自己アテンション機構を用いることで,WSJ0-2Mixデータセット上の一般的なconvtasnetモデルよりも優れた性能を保ちながら,メモリ要求を大幅に低減できることを示す。
関連論文リスト
- TIGER: Time-frequency Interleaved Gain Extraction and Reconstruction for Efficient Speech Separation [19.126525226518975]
パラメータと計算コストを大幅に削減した音声分離モデルを提案する。
TIGERは事前の知識を活用して周波数帯域を分割し、周波数情報を圧縮する。
我々は、TIGERが、最先端(SOTA)モデルTF-GridNetを上回る性能を達成することを示す。
論文 参考訳(メタデータ) (2024-10-02T12:21:06Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - Efficient Monaural Speech Enhancement using Spectrum Attention Fusion [15.8309037583936]
本稿では,自己意図の表現性を保ちながら,モデルの複雑さを著しく低減する音声強調モデルの改良について述べる。
音声変換器において,複数の自己認識層を置き換えるための畳み込みモジュールを構築し,より効率的にスペクトル特徴を融合させる。
提案モデルでは,SOTAモデルに対して同等あるいはより良い結果が得られるが,Voice Bank + DEMANDデータセット上では,パラメータが0.58Mよりもはるかに小さい。
論文 参考訳(メタデータ) (2023-08-04T11:39:29Z) - Multi-Dimensional and Multi-Scale Modeling for Speech Separation
Optimized by Discriminative Learning [9.84949849886926]
音声分離のためのSE変換器とISCIT(Intra-SE-Conformer and Inter-Transformer)
新しいネットワークSE-Conformerは、複数の次元とスケールでオーディオシーケンスをモデル化できる。
論文 参考訳(メタデータ) (2023-03-07T08:53:20Z) - Directed Speech Separation for Automatic Speech Recognition of Long Form
Conversational Speech [10.291482850329892]
混合信号から直接抽出した話者埋め込みに基づいて訓練された話者条件付きセパレータを提案する。
また,会話データに対する単語誤り率 (WER) の大幅な改善を実現した。
論文 参考訳(メタデータ) (2021-12-10T23:07:48Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Utilizing Self-supervised Representations for MOS Prediction [51.09985767946843]
既存の評価は通常、クリーンな参照または平行な地上真実データを必要とする。
一方、主観的テストは、追加のクリーンデータや並列データを必要としず、人間の知覚とよりよく相関する。
基礎的真理データを必要とせず,人間の知覚とよく相関する自動評価手法を開発した。
論文 参考訳(メタデータ) (2021-04-07T09:44:36Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Switching Variational Auto-Encoders for Noise-Agnostic Audio-visual
Speech Enhancement [26.596930749375474]
本稿では,異なるVAEアーキテクチャを時間的に切り換えるために,マルコフの依存関係を持つ潜在逐次変数を導入する。
モデルのパラメータを推定し、音声信号を強化するために、対応する変動予測-最大化アルゴリズムを導出する。
論文 参考訳(メタデータ) (2021-02-08T11:45:02Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z) - Real Time Speech Enhancement in the Waveform Domain [99.02180506016721]
本稿では,ラップトップCPU上でリアルタイムに動作する生波形を用いた因果音声強調モデルを提案する。
提案モデルは、スキップ接続を持つエンコーダデコーダアーキテクチャに基づいている。
静止ノイズや非定常ノイズを含む様々な背景ノイズを除去することができる。
論文 参考訳(メタデータ) (2020-06-23T09:19:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。