論文の概要: Black-box Adaptation of ASR for Accented Speech
- arxiv url: http://arxiv.org/abs/2006.13519v1
- Date: Wed, 24 Jun 2020 07:07:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-17 13:17:58.535343
- Title: Black-box Adaptation of ASR for Accented Speech
- Title(参考訳): アクセント音声に対するASRのブラックボックス適応
- Authors: Kartik Khandelwal, Preethi Jyothi, Abhijeet Awasthi, Sunita Sarawagi
- Abstract要約: 我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
そこで我々は,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
本アルゴリズムは,既存の単語レベルの組み合わせ手法よりもアクセントエラーの修正が優れている。
- 参考スコア(独自算出の注目度): 52.63060669715216
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce the problem of adapting a black-box, cloud-based ASR system to
speech from a target accent. While leading online ASR services obtain
impressive performance on main-stream accents, they perform poorly on
sub-populations - we observed that the word error rate (WER) achieved by
Google's ASR API on Indian accents is almost twice the WER on US accents.
Existing adaptation methods either require access to model parameters or
overlay an error-correcting module on output transcripts. We highlight the need
for correlating outputs with the original speech to fix accent errors.
Accordingly, we propose a novel coupling of an open-source accent-tuned local
model with the black-box service where the output from the service guides
frame-level inference in the local model. Our fine-grained merging algorithm is
better at fixing accent errors than existing word-level combination strategies.
Experiments on Indian and Australian accents with three leading ASR models as
service, show that we achieve as much as 28% relative reduction in WER over
both the local and service models.
- Abstract(参考訳): 我々は,ターゲットアクセントからの音声にブラックボックス,クラウドベースのASRシステムを適用する問題を紹介した。
主要なオンラインasrサービスは、メインストリームのアクセントで印象的なパフォーマンスを得ていますが、サブ人口ではパフォーマンスが悪く、インドのアクセントでgoogleのasr apiによって達成された単語エラー率(wer)は、米国のアクセントのほぼ2倍です。
既存の適応メソッドは、モデルパラメータにアクセスするか、出力の書き起こしにエラー訂正モジュールをオーバーレイする必要がある。
我々は、アクセントエラーを修正するために、出力と元の音声との関連性の必要性を強調した。
そこで本研究では,オープンソースアクセント調整型ローカルモデルとブラックボックスサービスとの結合を新たに提案する。
きめ細かいマージアルゴリズムは、既存の単語レベルの組み合わせ戦略よりもアクセントエラーの修正に優れている。
3つの主要なASRモデルをサービスとして使用したインドとオーストラリアでのアクセント実験では、ローカルモデルとサービスモデルの両方に対してWERの28%の相対的な減少を実現している。
関連論文リスト
- Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Convoifilter: A case study of doing cocktail party speech recognition [67.2096889032097]
このモデルは、このアプローチにより、ASRの単語誤り率(WER)を80%から26.4%に下げることができる。
我々はオープンに事前学習モデルを共有し、hf.co/nguyenvulebinh/voice-filterのさらなる研究を促進する。
論文 参考訳(メタデータ) (2023-08-22T12:09:30Z) - Don't Stop Self-Supervision: Accent Adaptation of Speech Representations
via Residual Adapters [14.645374377673148]
大規模未ラベル音声コーパスから自己教師型で学習した音声表現は、複数の下流タスクに適応することに成功した。
そこで本研究では,アクセント固有のアダプタを訓練し,パラメータ効率の高い手法で音声表現を適応させる手法を提案する。
全4アクセントに対して,HuBERT-largeよりも強い単語誤り率(WERR)が減少し,アクセント特異的アダプターでは平均WERRが22.7%,全エンコーダがアクセント適応であれば平均WERRが25.1%となった。
論文 参考訳(メタデータ) (2023-07-02T02:21:29Z) - CommonAccent: Exploring Large Acoustic Pretrained Models for Accent
Classification Based on Common Voice [1.559929646151698]
我々は、共通音声7.0(英語)と共通音声11.0(イタリア語、ドイツ語、スペイン語)に基づくアクセント分類のためのSpeechBrainツールキットに合わせたレシピを導入する。
我々は、95%の精度で英語アクセント分類のための新しい最先端技術を確立した。
論文 参考訳(メタデータ) (2023-05-29T17:53:35Z) - Synthetic Cross-accent Data Augmentation for Automatic Speech
Recognition [18.154258453839066]
我々は、ネイティブな米国英語音声をアクセント付き発音に変換するアクセント変換モデル(ACM)を改善した。
我々はACM訓練に音声知識を取り入れ、合成波形における発音パターンの再現性について正確なフィードバックを提供する。
ネイティブ・イングリッシュ・データセットと非ネイティブ・イングリッシュ・データセットに対する我々のアプローチを評価し、合成アクセント付きデータにより、アクセントの出現した音声をよりよく理解できるようになったことを発見した。
論文 参考訳(メタデータ) (2023-03-01T20:05:19Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Multi-Accent Adaptation based on Gate Mechanism [35.76889921807408]
アクセント特異的のトップ層とゲート機構(AST-G)を用いてマルチアクセント適応を実現する。
実世界の応用では、事前に推論のためのアクセントカテゴリーラベルを得ることはできない。
アクセントラベル予測が不正確である可能性があるため、アクセント固有の適応よりも性能が劣る。
論文 参考訳(メタデータ) (2020-11-05T11:58:36Z) - Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。
APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。
我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文 参考訳(メタデータ) (2020-04-09T09:26:42Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。