論文の概要: Boosting Objective Scores of a Speech Enhancement Model by MetricGAN
Post-processing
- arxiv url: http://arxiv.org/abs/2006.10296v2
- Date: Wed, 3 Mar 2021 06:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:35:48.678123
- Title: Boosting Objective Scores of a Speech Enhancement Model by MetricGAN
Post-processing
- Title(参考訳): MetricGAN後処理による音声強調モデルの客観的スコア向上
- Authors: Szu-Wei Fu, Chien-Feng Liao, Tsun-An Hsieh, Kuo-Hsuan Hung, Syu-Siang
Wang, Cheng Yu, Heng-Cheng Kuo, Ryandhimas E. Zezario, You-Jin Li, Shang-Yi
Chuang, Yen-Ju Lu, Yu Tsao
- Abstract要約: Transformerアーキテクチャは、多くの異なる自然言語処理アプリケーションにおいて、リカレントニューラルネットワークよりも優れた能力を示している。
本研究は音声強調作業に改良型トランスフォーマーを適用した。
- 参考スコア(独自算出の注目度): 18.19158404358494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has demonstrated a superior ability compared to
recurrent neural networks in many different natural language processing
applications. Therefore, our study applies a modified Transformer in a speech
enhancement task. Specifically, positional encoding in the Transformer may not
be necessary for speech enhancement, and hence, it is replaced by convolutional
layers. To further improve the perceptual evaluation of the speech quality
(PESQ) scores of enhanced speech, the L_1 pre-trained Transformer is fine-tuned
using a MetricGAN framework. The proposed MetricGAN can be treated as a general
post-processing module to further boost the objective scores of interest. The
experiments were conducted using the data sets provided by the organizer of the
Deep Noise Suppression (DNS) challenge. Experimental results demonstrated that
the proposed system outperformed the challenge baseline, in both subjective and
objective evaluations, with a large margin.
- Abstract(参考訳): Transformerアーキテクチャは、多くの異なる自然言語処理アプリケーションにおいて、リカレントニューラルネットワークよりも優れた能力を示している。
そこで本研究では,変換トランスを音声強調タスクに適用する。
具体的には、トランスフォーマにおける位置符号化は音声強調に必要とせず、畳み込み層に置き換えられる。
強調音声の音声品質(PESQ)スコアの知覚的評価をさらに向上するため、L_1事前学習トランスフォーマをMetricGANフレームワークを用いて微調整する。
提案したMetricGANは汎用的な後処理モジュールとして扱うことができ、目的とする関心のスコアをさらに高めることができる。
実験は、Deep Noise Suppression(DNS)チャレンジのオーガナイザが提供したデータセットを用いて行われた。
実験結果から,提案システムは主観的評価と客観的評価の両面において,大きなマージンを有する課題ベースラインを上回った。
関連論文リスト
- Human Evaluation of English--Irish Transformer-Based NMT [2.648836772989769]
ベストパフォーマンスのTransformerシステムは、RNNベースのモデルと比較して精度と誤差を著しく低減する。
Google Translateに対してベンチマークを行ったところ、我々の翻訳エンジンは大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T11:45:46Z) - DASA: Difficulty-Aware Semantic Augmentation for Speaker Verification [55.306583814017046]
本稿では,話者認証のための難易度認識型セマンティック拡張(DASA)手法を提案する。
DASAは、話者埋め込み空間における多様なトレーニングサンプルを、無視できる余分な計算コストで生成する。
最も良い結果は、CN-Celeb評価セット上でのEER測定値の14.6%の相対的な減少を達成する。
論文 参考訳(メタデータ) (2023-10-18T17:07:05Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech
Recognition [32.28306081954454]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - CMGAN: Conformer-Based Metric-GAN for Monaural Speech Enhancement [7.1764897101213965]
音声強調のためのコンバータを用いた距離生成対向ネットワーク(CMGAN)を提案する。
ジェネレータは、2段コンバータブロックを用いて、大きさと複雑な分光図情報を符号化する。
CMGANは3つの音声強調課題における最先端手法と比較して優れた性能を示すことができる。
論文 参考訳(メタデータ) (2022-09-22T15:50:21Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。