論文の概要: EAT: Enhanced ASR-TTS for Self-supervised Speech Recognition
- arxiv url: http://arxiv.org/abs/2104.07474v1
- Date: Tue, 13 Apr 2021 23:18:25 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-16 15:09:18.052227
- Title: EAT: Enhanced ASR-TTS for Self-supervised Speech Recognition
- Title(参考訳): EAT:自己教師型音声認識のためのASR-TTSの強化
- Authors: Murali Karthick Baskar, Luk\'a\v{s} Burget, Shinji Watanabe, Ramon
Fernandez Astudillo, and Jan "Honza'' \v{C}ernock\'y
- Abstract要約: ASR-TTS(EAT)モデルを2つの特徴を組み込んだ強化モデルを提案します。
EATはLibrispeechおよびBABELの絶対2.6%および2.7%によって監督された訓練および自己監督された訓練間の性能のギャップをそれぞれ減らします。
- 参考スコア(独自算出の注目度): 43.702644305349054
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised ASR-TTS models suffer in out-of-domain data conditions. Here
we propose an enhanced ASR-TTS (EAT) model that incorporates two main features:
1) The ASR$\rightarrow$TTS direction is equipped with a language model reward
to penalize the ASR hypotheses before forwarding it to TTS. 2) In the
TTS$\rightarrow$ASR direction, a hyper-parameter is introduced to scale the
attention context from synthesized speech before sending it to ASR to handle
out-of-domain data. Training strategies and the effectiveness of the EAT model
are explored under out-of-domain data conditions. The results show that EAT
reduces the performance gap between supervised and self-supervised training
significantly by absolute 2.6\% and 2.7\% on Librispeech and BABEL
respectively.
- Abstract(参考訳): 自己管理型ASR-TTSモデルはドメイン外データ条件に悩まされる。
1) ASR$\rightarrow$TTS方向は、TSに転送する前にASR仮説をペナルティ化する言語モデル報酬を備える。
2) TTS$\rightarrow$ASR 方向では,合成音声から注目コンテキストを拡大するためにハイパーパラメータを導入し,ASR に送信してドメイン外データを処理する。
ドメイン外データ条件下でのトレーニング戦略とEATモデルの有効性について検討した。
その結果、EATは、リブリスペヒとBABELの絶対2.6\%と2.7\%とで、教師付きトレーニングと自己指導型トレーニングのパフォーマンスギャップを著しく減少させることがわかった。
関連論文リスト
- Transferable Adversarial Attacks against ASR [43.766547483367795]
最先端自動音声認識モデルにおける実用的なブラックボックス攻撃の脆弱性について検討する。
そこで本稿では,ASRに対する音声認識勾配最適化手法(SAGO)を提案する。
総合的な実験結果から,2つのデータベース上の5つのモデルにまたがるベースラインアプローチと比較して,性能が向上したことが明らかとなった。
論文 参考訳(メタデータ) (2024-11-14T06:32:31Z) - Unified Speech Recognition: A Single Model for Auditory, Visual, and Audiovisual Inputs [73.74375912785689]
本稿では,音声認識システムのための統合学習戦略を提案する。
3つのタスクの1つのモデルをトレーニングすることで、VSRとAVSRの性能が向上することを示す。
また,非ラベル標本をより効果的に活用するために,強欲な擬似ラベリング手法を導入する。
論文 参考訳(メタデータ) (2024-11-04T16:46:53Z) - Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文 参考訳(メタデータ) (2022-03-27T06:38:39Z) - ASR-Aware End-to-end Neural Diarization [15.172086811068962]
本稿では、音響入力と自動音声認識(ASR)モデルから得られる特徴の両方を用いて、コンフォーマーに基づくエンドツーエンドニューラルダイアリゼーション(EEND)モデルを提案する。
この機能を組み込むために、ConformerベースのEENDアーキテクチャの3つの変更が提案されている。
Switchboard+SREデータセットの2つの話者による英語会話実験により、単語位置情報を用いたマルチタスク学習がASR特徴を利用する最も効果的な方法であることが示された。
論文 参考訳(メタデータ) (2022-02-02T21:17:14Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Fine-tuning of Pre-trained End-to-end Speech Recognition with Generative
Adversarial Networks [10.723935272906461]
近年, GAN (Generative Adversarial Network) を用いたエンド・ツー・エンド(E2E) ASRシステムの対戦訓練について検討している。
GAN目標を用いた事前学習型ASRモデルの微調整のための新しいフレームワークを提案する。
提案手法は,ベースラインと従来のGANベースの対戦モデルより優れている。
論文 参考訳(メタデータ) (2021-03-10T17:40:48Z) - Dual-mode ASR: Unify and Improve Streaming ASR with Full-context
Modeling [76.43479696760996]
本稿では,ストリーミングとフルコンテキスト音声認識の両方に共通重みを持つ単一エンドツーエンドのASRモデルをトレーニングするための統合フレームワークであるDual-mode ASRを提案する。
そこで本研究では,ストリーミングASRのレイテンシと精度が,重み共有とフルコンテキストASRの連成訓練のメリットを顕著に示す。
論文 参考訳(メタデータ) (2020-10-12T21:12:56Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。