論文の概要: REDAT: Accent-Invariant Representation for End-to-End ASR by Domain
Adversarial Training with Relabeling
- arxiv url: http://arxiv.org/abs/2012.07353v2
- Date: Fri, 12 Feb 2021 06:44:12 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-08 14:20:59.932880
- Title: REDAT: Accent-Invariant Representation for End-to-End ASR by Domain
Adversarial Training with Relabeling
- Title(参考訳): redat:relabelingを用いたドメイン逆学習によるエンドツーエンドasrのアクセント不変表現
- Authors: Hu Hu, Xuesong Yang, Zeynab Raeesy, Jinxi Guo, Gokce Keskin, Harish
Arsikere, Ariya Rastrow, Andreas Stolcke, Roland Maas
- Abstract要約: アクセントミスマッチは、エンドツーエンドASRにとって重要な問題です。
本稿では,アクセントを損なうRNN-Tシステムの構築によってこの問題に対処することを目的とする。
DATの背後にある魔法を明らかにし、DATがアクセント不変表現を学ぶという理論的保証を初めて提供します。
- 参考スコア(独自算出の注目度): 27.020602491270942
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accents mismatching is a critical problem for end-to-end ASR. This paper aims
to address this problem by building an accent-robust RNN-T system with domain
adversarial training (DAT). We unveil the magic behind DAT and provide, for the
first time, a theoretical guarantee that DAT learns accent-invariant
representations. We also prove that performing the gradient reversal in DAT is
equivalent to minimizing the Jensen-Shannon divergence between domain output
distributions. Motivated by the proof of equivalence, we introduce reDAT, a
novel technique based on DAT, which relabels data using either unsupervised
clustering or soft labels. Experiments on 23K hours of multi-accent data show
that DAT achieves competitive results over accent-specific baselines on both
native and non-native English accents but up to 13% relative WER reduction on
unseen accents; our reDAT yields further improvements over DAT by 3% and 8%
relatively on non-native accents of American and British English.
- Abstract(参考訳): アクセントのミスマッチは、エンドツーエンドのASRにとって重要な問題である。
本稿では,ドメイン逆行訓練(DAT)を用いたアクセントローバストRNN-Tシステムの構築により,この問題に対処することを目的とする。
DATの背後にある魔法を公開し、初めて、DATがアクセント不変表現を学ぶという理論的保証を提供する。
また、DATにおける勾配反転の実行は、領域出力分布間のジェンセン-シャノンのばらつきを最小化することと同値であることを示す。
等価性の証明に動機づけられたredatは,教師なしクラスタリングあるいはソフトラベルを使用してデータをリラベルする,datに基づく新しい手法である。
マルチアクセントデータを用いた23K時間の実験では、DATはネイティブおよび非ネイティブの英語アクセントのアクセント固有のベースラインよりも競争力のある結果を得るが、見知らぬアクセントに対するWERの相対的な減少は最大13%である。
関連論文リスト
- Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR
with Internal Language Model Estimation [14.840612036671734]
自己回帰モデルに対するこのバイアスを軽減するために、内部言語モデル推定(ILME)が提案されている。
CTCに基づくASRモデルのための新しいILME手法を提案する。
本手法は、内部LMの擬似ログ類似度を推定するために、音声タイムステップを反復的にマスクする。
論文 参考訳(メタデータ) (2023-05-05T20:35:42Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z) - Multi-Accent Adaptation based on Gate Mechanism [35.76889921807408]
アクセント特異的のトップ層とゲート機構(AST-G)を用いてマルチアクセント適応を実現する。
実世界の応用では、事前に推論のためのアクセントカテゴリーラベルを得ることはできない。
アクセントラベル予測が不正確である可能性があるため、アクセント固有の適応よりも性能が劣る。
論文 参考訳(メタデータ) (2020-11-05T11:58:36Z) - Towards a Competitive End-to-End Speech Recognition for CHiME-6 Dinner
Party Transcription [73.66530509749305]
本稿では,難しい場合であっても,ハイブリッドベースラインに近い性能を示すエンドツーエンドアプローチについて論じる。
CTC-Attention と RNN-Transducer のアプローチと RNN と Transformer のアーキテクチャを比較し,解析する。
RNN-Transducerをベースとしたベストエンド・ツー・エンドモデルでは、ビームサーチの改善とともに、LF-MMI TDNN-F CHiME-6 Challengeのベースラインよりも品質が3.8%向上した。
論文 参考訳(メタデータ) (2020-04-22T19:08:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。