論文の概要: Enhancing Unsupervised Speech Recognition with Diffusion GANs
- arxiv url: http://arxiv.org/abs/2303.13559v1
- Date: Thu, 23 Mar 2023 02:54:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-27 17:18:27.343564
- Title: Enhancing Unsupervised Speech Recognition with Diffusion GANs
- Title(参考訳): 拡散GANを用いた教師なし音声認識の実現
- Authors: Xianchao Wu
- Abstract要約: 拡散GANによる教師なし自動音声認識(ASR)のためのバニラ対向訓練法を強化する。
我々のモデルは、生成元の出力とラベルなし参照テキストに様々な強度のインスタンスノイズを注入する。
- 参考スコア(独自算出の注目度): 1.4649095013539173
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We enhance the vanilla adversarial training method for unsupervised Automatic
Speech Recognition (ASR) by a diffusion-GAN. Our model (1) injects instance
noises of various intensities to the generator's output and unlabeled reference
text which are sampled from pretrained phoneme language models with a length
constraint, (2) asks diffusion timestep-dependent discriminators to separate
them, and (3) back-propagates the gradients to update the generator.
Word/phoneme error rate comparisons with wav2vec-U under Librispeech (3.1% for
test-clean and 5.6% for test-other), TIMIT and MLS datasets, show that our
enhancement strategies work effectively.
- Abstract(参考訳): 拡散GANによる教師なし自動音声認識(ASR)のためのバニラ対向訓練法を強化する。
提案モデル(1)は,事前学習した音素言語モデルから抽出した出力およびラベルなし参照テキストに対して,様々な強度のインスタンスノイズを注入し,(2)拡散時間に依存した識別器に分離を依頼し,(3)生成器を更新するための勾配をバックプロパゲートする。
Librispeechによるwav2vec-Uの単語/音素誤り率比較(3.1%はテストクリーン、5.6%はテスト他)、TIMITおよびMLSデータセットは、我々の拡張戦略が効果的に機能することを示している。
関連論文リスト
- DiffATR: Diffusion-based Generative Modeling for Audio-Text Retrieval [49.076590578101985]
ノイズから関節分布を生成する拡散型ATRフレームワーク(DiffATR)を提案する。
優れたパフォーマンスを持つAudioCapsとClothoデータセットの実験は、我々のアプローチの有効性を検証する。
論文 参考訳(メタデータ) (2024-09-16T06:33:26Z) - Mutual Learning for Acoustic Matching and Dereverberation via Visual Scene-driven Diffusion [93.32354378820648]
本稿では拡散モデルに基づく相互学習フレームワークMVSDを紹介する。
MVSDは2つのタスクを対称的に考慮し、逆タスクからの学習を容易にするために相互関係を利用する。
我々のフレームワークは、残響器と残響器の性能を向上させることができる。
論文 参考訳(メタデータ) (2024-07-15T00:47:56Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - VoiceExtender: Short-utterance Text-independent Speaker Verification
with Guided Diffusion Model [28.316314490687667]
本稿では,短時間の音声信号処理において,SV性能を改善するための有望なソリューションを提供するVoiceExtenderというアーキテクチャを提案する。
本稿では,2つの拡散モデル,組込みと外部話者埋め込み(SE)誘導拡散モデルを用いて,拡散モデルに基づくサンプル生成器を用いて短い発話に基づいて音声特徴を増強する。
提案手法は, それぞれ0.5, 1.0, 1.5, 2.0秒の短い発話条件に対して, 46.1%, 35.7%, 10.4%, 5.7%の誤差率(EER)を相対的に改善した。
論文 参考訳(メタデータ) (2023-10-07T03:42:19Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - Single and Few-step Diffusion for Generative Speech Enhancement [18.487296462927034]
拡散モデルは音声強調において有望な結果を示した。
本稿では,2段階の学習手法を用いて,これらの制約に対処する。
提案手法は定常的な性能を保ち,従って拡散ベースラインよりも大きく向上することを示す。
論文 参考訳(メタデータ) (2023-09-18T11:30:58Z) - Adversarial Training of Denoising Diffusion Model Using Dual
Discriminators for High-Fidelity Multi-Speaker TTS [0.0]
拡散モデルは確率論的アプローチにより高品質なデータを生成することができる。
これは、多くの時間ステップを必要とするため、生成速度が遅くなるという欠点に悩まされる。
本稿では、逆過程の分布を学習する拡散判別器と、生成されたデータの分布を学習するスペクトログラム判別器の2つの識別器を用いた音声合成モデルを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:22:04Z) - Minimally-Supervised Speech Synthesis with Conditional Diffusion Model
and Language Model: A Comparative Study of Semantic Coding [57.42429912884543]
Diff-LM-Speech, Tetra-Diff-Speech, Tri-Diff-Speechを提案する。
また,変分オートエンコーダと韻律ボトルネックに基づくプロンプトエンコーダ構造を導入し,プロンプト表現能力の向上を図る。
実験の結果,提案手法はベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2023-07-28T11:20:23Z) - DiffVoice: Text-to-Speech with Latent Diffusion [18.150627638754923]
本稿では,遅延拡散に基づく新しい音声合成モデルDiffVoiceを提案する。
LJSpeech と LibriTTS データセットの主観評価は,本手法が自然界で最高の公開システムに勝っていることを示す。
論文 参考訳(メタデータ) (2023-04-23T21:05:33Z) - DiffusionBERT: Improving Generative Masked Language Models with
Diffusion Models [81.84866217721361]
DiffusionBERTは離散拡散モデルに基づく新しい生成マスク付き言語モデルである。
本稿では,各ステップに付加される雑音の度合いを制御する前方拡散プロセスのための新しいノイズスケジュールを提案する。
非条件テキスト生成の実験では、DiffusionBERTは既存のテキスト拡散モデルよりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-11-28T03:25:49Z) - SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。