論文の概要: Boosting Objective Scores of a Speech Enhancement Model by MetricGAN
Post-processing
- arxiv url: http://arxiv.org/abs/2006.10296v2
- Date: Wed, 3 Mar 2021 06:36:01 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-19 14:35:48.678123
- Title: Boosting Objective Scores of a Speech Enhancement Model by MetricGAN
Post-processing
- Title(参考訳): MetricGAN後処理による音声強調モデルの客観的スコア向上
- Authors: Szu-Wei Fu, Chien-Feng Liao, Tsun-An Hsieh, Kuo-Hsuan Hung, Syu-Siang
Wang, Cheng Yu, Heng-Cheng Kuo, Ryandhimas E. Zezario, You-Jin Li, Shang-Yi
Chuang, Yen-Ju Lu, Yu Tsao
- Abstract要約: Transformerアーキテクチャは、多くの異なる自然言語処理アプリケーションにおいて、リカレントニューラルネットワークよりも優れた能力を示している。
本研究は音声強調作業に改良型トランスフォーマーを適用した。
- 参考スコア(独自算出の注目度): 18.19158404358494
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has demonstrated a superior ability compared to
recurrent neural networks in many different natural language processing
applications. Therefore, our study applies a modified Transformer in a speech
enhancement task. Specifically, positional encoding in the Transformer may not
be necessary for speech enhancement, and hence, it is replaced by convolutional
layers. To further improve the perceptual evaluation of the speech quality
(PESQ) scores of enhanced speech, the L_1 pre-trained Transformer is fine-tuned
using a MetricGAN framework. The proposed MetricGAN can be treated as a general
post-processing module to further boost the objective scores of interest. The
experiments were conducted using the data sets provided by the organizer of the
Deep Noise Suppression (DNS) challenge. Experimental results demonstrated that
the proposed system outperformed the challenge baseline, in both subjective and
objective evaluations, with a large margin.
- Abstract(参考訳): Transformerアーキテクチャは、多くの異なる自然言語処理アプリケーションにおいて、リカレントニューラルネットワークよりも優れた能力を示している。
そこで本研究では,変換トランスを音声強調タスクに適用する。
具体的には、トランスフォーマにおける位置符号化は音声強調に必要とせず、畳み込み層に置き換えられる。
強調音声の音声品質(PESQ)スコアの知覚的評価をさらに向上するため、L_1事前学習トランスフォーマをMetricGANフレームワークを用いて微調整する。
提案したMetricGANは汎用的な後処理モジュールとして扱うことができ、目的とする関心のスコアをさらに高めることができる。
実験は、Deep Noise Suppression(DNS)チャレンジのオーガナイザが提供したデータセットを用いて行われた。
実験結果から,提案システムは主観的評価と客観的評価の両面において,大きなマージンを有する課題ベースラインを上回った。
関連論文リスト
- Convexity-based Pruning of Speech Representation Models [1.3873323883842132]
最近の研究によると、NLPのトランスモデルには大きな冗長性があることが示されている。
本稿では,音声モデルにおけるレイヤプルーニングについて検討する。
計算の労力が大幅に削減され、性能が損なわれず、場合によっては改善されることもない。
論文 参考訳(メタデータ) (2024-08-16T09:04:54Z) - Human Evaluation of English--Irish Transformer-Based NMT [2.648836772989769]
ベストパフォーマンスのTransformerシステムは、RNNベースのモデルと比較して精度と誤差を著しく低減する。
Google Translateに対してベンチマークを行ったところ、我々の翻訳エンジンは大幅に改善された。
論文 参考訳(メタデータ) (2024-03-04T11:45:46Z) - Prompt Tuning of Deep Neural Networks for Speaker-adaptive Visual Speech Recognition [66.94463981654216]
話者適応型視覚音声認識(VSR)のためのディープニューラルネットワーク(DNN)の即時チューニング手法を提案する。
我々は、事前訓練されたモデルパラメータを変更する代わりに、ターゲット話者の適応データを微調整する。
提案手法の有効性を単語レベルのVSRデータベースと文レベルのVSRデータベースで評価した。
論文 参考訳(メタデータ) (2023-02-16T06:01:31Z) - Latency Adjustable Transformer Encoder for Language Understanding [0.8287206589886879]
本稿では,提案する推論遅延の高速化により,推論コストを適応的に調整する効率的なトランスフォーマーアーキテクチャを提案する。
提案手法は,重要でないシークエンス要素(ワードベクター)を検出し,Actent Context Contribution (ACC) メトリックを用いて,各エンコーダ層でそれらを除去する。
提案手法は,BERT_base と GPT-2 の推論遅延を最大4.8倍,3.72倍に改善し,0.75% の精度低下と平均パープレキシティが可能である。
論文 参考訳(メタデータ) (2022-01-10T13:04:39Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Bayesian Transformer Language Models for Speech Recognition [59.235405107295655]
トランスフォーマーで表現される最先端のニューラルネットワークモデル(LM)は非常に複雑である。
本稿では,トランスフォーマーLM推定のためのベイズ学習フレームワークを提案する。
論文 参考訳(メタデータ) (2021-02-09T10:55:27Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - End-to-End Whisper to Natural Speech Conversion using Modified
Transformer Network [0.8399688944263843]
シーケンス・ツー・シーケンス・アプローチを用いて、whisper-to-natural-speech変換を導入する。
本稿では,メル周波数ケプストラム係数やスムーズなスペクトル特徴などの異なる特徴について検討する。
提案するネットワークは、機能間変換のための教師ありアプローチを用いて、エンドツーエンドで訓練される。
論文 参考訳(メタデータ) (2020-04-20T14:47:46Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。