論文の概要: Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement
- arxiv url: http://arxiv.org/abs/2409.01352v1
- Date: Mon, 2 Sep 2024 16:11:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 06:11:05.446740
- Title: Spectron: Target Speaker Extraction using Conditional Transformer with Adversarial Refinement
- Title(参考訳): スペクトル: 逆補正を用いた条件変換器を用いたターゲット話者抽出
- Authors: Tathagata Bandyopadhyay,
- Abstract要約: 混合音声信号から対象話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。
実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
- 参考スコア(独自算出の注目度): 17.645026729525462
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, attention-based transformers have become a de facto standard in many deep learning applications including natural language processing, computer vision, signal processing, etc.. In this paper, we propose a transformer-based end-to-end model to extract a target speaker's speech from a monaural multi-speaker mixed audio signal. Unlike existing speaker extraction methods, we introduce two additional objectives to impose speaker embedding consistency and waveform encoder invertibility and jointly train both speaker encoder and speech separator to better capture the speaker conditional embedding. Furthermore, we leverage a multi-scale discriminator to refine the perceptual quality of the extracted speech. Our experiments show that the use of a dual path transformer in the separator backbone along with proposed training paradigm improves the CNN baseline by $3.12$ dB points. Finally, we compare our approach with recent state-of-the-arts and show that our model outperforms existing methods by $4.1$ dB points on an average without creating additional data dependency.
- Abstract(参考訳): 近年,自然言語処理,コンピュータビジョン,信号処理など,多くのディープラーニングアプリケーションにおいて,アテンションベースのトランスフォーマーがデファクトスタンダードになっている。
本論文では,モノラルマルチスピーカ混合音声信号からターゲット話者の音声を抽出するトランスフォーマーに基づくエンドツーエンドモデルを提案する。
既存の話者抽出法とは異なり、話者埋め込み一貫性と波形エンコーダの可逆性を付加する2つの追加目的を導入し、話者エンコーダと音声分離器を併用して話者条件埋め込みをよりよく捉える。
さらに,抽出した音声の知覚品質を向上するために,マルチスケール判別器を利用する。
実験の結果,セパレータのバックボーンにデュアルパストランスフォーマーを用いることで,CNNのベースラインを3.12ドルdBポイント向上できることがわかった。
最後に、我々のアプローチを最近の最先端技術と比較し、我々のモデルは、追加のデータ依存を発生させずに、平均4.1ドルのdBポイントで既存のメソッドを上回ります。
関連論文リスト
- In search of strong embedding extractors for speaker diarisation [49.7017388682077]
話者ダイアリゼーションにEEを採用する際の2つの重要な問題に対処する。
まず、性能向上に必要な特徴が話者検証とダイアリゼーションに異なるため、評価は簡単ではない。
広く採用されている話者検証評価プロトコルの性能向上は、ダイアリゼーション性能の向上に繋がらないことを示す。
重なり合う音声や話者変化の入力を認識するために,2番目の問題を緩和する2つのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2022-10-26T13:00:29Z) - ECAPA-TDNN for Multi-speaker Text-to-speech Synthesis [13.676243543864347]
本稿では,高品質な音声を生成できるエンドツーエンド手法を提案する。
この方法は、最先端のTDNNベースのECAPA-TDNNに基づく話者エンコーダ、FastSpeech2ベースのシンセサイザー、HiFi-GANボコーダの3つの別々に訓練されたコンポーネントで構成されている。
論文 参考訳(メタデータ) (2022-03-20T07:04:26Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Multi-View Self-Attention Based Transformer for Speaker Recognition [33.21173007319178]
トランスフォーマーモデルは、話者認識などの音声処理タスクに広く利用されている。
本稿では,話者変換器のための多視点自己認識機構を提案する。
提案した話者トランスフォーマーネットワークは,最先端モデルと比較して優れた結果が得られることを示す。
論文 参考訳(メタデータ) (2021-10-11T07:03:23Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z) - Time-Domain Speech Extraction with Spatial Information and Multi Speaker
Conditioning Mechanism [27.19635746008699]
混合物から複数のクリーンな個人ソースを同時に抽出する,新しいマルチチャネル音声抽出システムを提案する。
提案手法は改良されたマルチチャネル時間領域音声分離ネットワーク上に構築される。
2チャンネル WHAMR! データを用いた実験により, 強いマルチチャネルベースライン上でのソース分離性能を9%向上することを確認した。
論文 参考訳(メタデータ) (2021-02-07T10:11:49Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Investigation of Speaker-adaptation methods in Transformer based ASR [8.637110868126548]
本稿では,トランスフォーマモデルを用いて音声認識性能の向上を図りながら,エンコーダ入力に話者情報を組み込む方法について検討する。
話者情報を各話者に対する話者埋め込み形式で提示する。
モデルに話者埋め込みを組み込むことにより,ベースライン上の単語誤り率を改善する。
論文 参考訳(メタデータ) (2020-08-07T16:09:03Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。