論文の概要: Multi-Accent Adaptation based on Gate Mechanism
- arxiv url: http://arxiv.org/abs/2011.02774v1
- Date: Thu, 5 Nov 2020 11:58:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-29 12:32:51.452050
- Title: Multi-Accent Adaptation based on Gate Mechanism
- Title(参考訳): ゲート機構に基づくマルチアクセント適応
- Authors: Han Zhu, Li Wang, Pengyuan Zhang, Yonghong Yan
- Abstract要約: アクセント特異的のトップ層とゲート機構(AST-G)を用いてマルチアクセント適応を実現する。
実世界の応用では、事前に推論のためのアクセントカテゴリーラベルを得ることはできない。
アクセントラベル予測が不正確である可能性があるため、アクセント固有の適応よりも性能が劣る。
- 参考スコア(独自算出の注目度): 35.76889921807408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When only a limited amount of accented speech data is available, to promote
multi-accent speech recognition performance, the conventional approach is
accent-specific adaptation, which adapts the baseline model to multiple target
accents independently. To simplify the adaptation procedure, we explore
adapting the baseline model to multiple target accents simultaneously with
multi-accent mixed data. Thus, we propose using accent-specific top layer with
gate mechanism (AST-G) to realize multi-accent adaptation. Compared with the
baseline model and accent-specific adaptation, AST-G achieves 9.8% and 1.9%
average relative WER reduction respectively. However, in real-world
applications, we can't obtain the accent category label for inference in
advance. Therefore, we apply using an accent classifier to predict the accent
label. To jointly train the acoustic model and the accent classifier, we
propose the multi-task learning with gate mechanism (MTL-G). As the accent
label prediction could be inaccurate, it performs worse than the
accent-specific adaptation. Yet, in comparison with the baseline model, MTL-G
achieves 5.1% average relative WER reduction.
- Abstract(参考訳): アクセント付き音声データに限られる場合、マルチアクセント音声認識性能を促進するため、従来のアプローチはアクセント固有の適応であり、ベースラインモデルを複数のターゲットアクセントに独立に適応させる。
適応処理を簡略化するため,複数アクセント混合データと同時に,ベースラインモデルを複数のターゲットアクセントに適応する検討を行った。
そこで我々は,複数のアクセント適応を実現するために,アクセント特異的トップ層とゲート機構(AST-G)を提案する。
ベースラインモデルとアクセント特異的適応と比較して、AST-Gはそれぞれ9.8%と1.9%の平均相対的なWER減少を達成する。
しかし、現実の応用では、事前に推論のアクセントカテゴリーラベルを得ることはできない。
そこで,アクセント分類器を用いてアクセントラベルの予測を行う。
音響モデルとアクセント分類器を併用し,ゲート機構を用いたマルチタスク学習(MTL-G)を提案する。
アクセントラベル予測が不正確である可能性があるため、アクセント固有の適応よりも性能が劣る。
しかし、ベースラインモデルと比較して、MTL-G は平均相対 WER 減少率 5.1% に達する。
関連論文リスト
- Accent conversion using discrete units with parallel data synthesized from controllable accented TTS [56.18382038512251]
アクセント変換(AC)の目的は、コンテンツと話者のアイデンティティを保ちながら、アクセントを変換することである。
従来の手法では、推論中に参照発話が必要であったり、話者のアイデンティティを十分に保持していなかったり、ネイティブでないアクセントごとにのみトレーニング可能な1対1のシステムを使用していた。
本稿では,これらの問題を克服するために,多くのアクセントをネイティブに変換する,有望なACモデルを提案する。
論文 参考訳(メタデータ) (2024-09-30T19:52:10Z) - GE2E-AC: Generalized End-to-End Loss Training for Accent Classification [13.266765406714942]
入力音声のアクセント埋め込みやAEを抽出するためにモデルを訓練するGE2E-ACを提案する。
提案したGE2E-ACの有効性を,従来のクロスエントロピーに基づく損失をトレーニングしたベースラインモデルと比較した。
論文 参考訳(メタデータ) (2024-07-19T04:44:16Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Don't Stop Self-Supervision: Accent Adaptation of Speech Representations
via Residual Adapters [14.645374377673148]
大規模未ラベル音声コーパスから自己教師型で学習した音声表現は、複数の下流タスクに適応することに成功した。
そこで本研究では,アクセント固有のアダプタを訓練し,パラメータ効率の高い手法で音声表現を適応させる手法を提案する。
全4アクセントに対して,HuBERT-largeよりも強い単語誤り率(WERR)が減少し,アクセント特異的アダプターでは平均WERRが22.7%,全エンコーダがアクセント適応であれば平均WERRが25.1%となった。
論文 参考訳(メタデータ) (2023-07-02T02:21:29Z) - Modelling low-resource accents without accent-specific TTS frontend [4.185844990558149]
本研究は,TTSを持たない話者のアクセントをモデル化することに焦点を当てる。
本稿では,まずターゲットアクセントデータを,音声変換によるドナー音声のように拡張する手法を提案する。
次に、録音データと合成データを組み合わせてマルチスピーカのマルチアクセントTSモデルを訓練し、ターゲットアクセントを生成する。
論文 参考訳(メタデータ) (2023-01-11T18:00:29Z) - Low-resource Accent Classification in Geographically-proximate Settings:
A Forensic and Sociophonetics Perspective [8.002498051045228]
アクセント付き音声認識とアクセント分類は、音声技術における比較的未探索の研究分野である。
近年の深層学習法とトランスフォーマーを用いた事前学習モデルは,両領域で高い性能を達成している。
そこで本研究では,北イングランドの5つの都市品種から抽出した105の話者記録に基づいて,3つの主アクセントモデリング手法と2つの異なる分類器の組み合わせについて検討した。
論文 参考訳(メタデータ) (2022-06-26T01:25:17Z) - A Highly Adaptive Acoustic Model for Accurate Multi-Dialect Speech
Recognition [80.87085897419982]
単一AMを用いた高精度多言語音声認識のための新しい音響モデリング手法を提案する。
提案するAMは、方言情報とその内部表現に基づいて動的に適応し、複数の方言を同時に扱うための高度適応型AMとなる。
大規模音声データセットにおける実験結果から,提案したAMは,方言固有のAMと比較して,単語誤り率(WER)が8.11%,方言固有のAMに比べて7.31%向上していることがわかった。
論文 参考訳(メタデータ) (2022-05-06T06:07:09Z) - Black-box Adaptation of ASR for Accented Speech [52.63060669715216]
我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
論文 参考訳(メタデータ) (2020-06-24T07:07:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。