論文の概要: Accented Speech Recognition: A Survey
- arxiv url: http://arxiv.org/abs/2104.10747v1
- Date: Wed, 21 Apr 2021 20:21:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-23 13:48:02.967757
- Title: Accented Speech Recognition: A Survey
- Title(参考訳): アクセント付き音声認識:調査
- Authors: Arthur Hinsvark (1), Natalie Delworth (1), Miguel Del Rio (1), Quinten
McNamara (1), Joshua Dong (1), Ryan Westerman (1), Michelle Huang (1), Joseph
Palakapilly (1), Jennifer Drexler (1), Ilya Pirkin (1), Nishchal Bhandari
(1), Miguel Jette (1) ((1) Rev.com)
- Abstract要約: 本稿では,アクセント音声認識に対する現在有望なアプローチに関する調査を行う。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automatic Speech Recognition (ASR) systems generalize poorly on accented
speech. The phonetic and linguistic variability of accents present hard
challenges for ASR systems today in both data collection and modeling
strategies. The resulting bias in ASR performance across accents comes at a
cost to both users and providers of ASR.
We present a survey of current promising approaches to accented speech
recognition and highlight the key challenges in the space. Approaches mostly
focus on single model generalization and accent feature engineering. Among the
challenges, lack of a standard benchmark makes research and comparison
especially difficult.
- Abstract(参考訳): 自動音声認識(asr)システムはアクセント付き音声にあまり依存しない。
アクセントの音声的および言語的変動は、今日のデータ収集とモデリング戦略において、ASRシステムにとって難しい課題である。
その結果、アクセント間のASRパフォーマンスのバイアスは、ASRのユーザとプロバイダの両方にコストがかかる。
本稿では,アクセント付き音声認識における現在有望なアプローチに関する調査を行い,この分野の重要な課題を浮き彫りにする。
アプローチは主にシングルモデル一般化とアクセント機能エンジニアリングに重点を置いている。
標準ベンチマークの欠如は、研究と比較を特に困難にしている。
関連論文リスト
- A New Benchmark for Evaluating Automatic Speech Recognition in the
Arabic Call Domain [0.0]
この研究は、アラビア語における電話会話の課題に対処するために、アラビア語音声認識のための包括的なベンチマークを導入する試みである。
我々の研究は、アラビア方言の幅広い範囲を包含するだけでなく、コールベースのコミュニケーションの現実的な条件をエミュレートする堅牢なベンチマークを確立することを目的としている。
論文 参考訳(メタデータ) (2024-03-07T07:24:32Z) - SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken
Question Answering [79.7437609151244]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - MLCA-AVSR: Multi-Layer Cross Attention Fusion based Audio-Visual Speech
Recognition [68.70787870401159]
異なるレベルのオーディオ/視覚エンコーダに融合することで、各モードの表現を促進する多層クロスアテンション融合に基づくAVSR手法を提案する。
提案手法は第1位システムを超え,新たなSOTA cpCERの29.13%をこのデータセット上に構築する。
論文 参考訳(メタデータ) (2024-01-07T08:59:32Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Improving Fairness and Robustness in End-to-End Speech Recognition
through unsupervised clustering [49.069298478971696]
エンド・ツー・エンドASRの公平性と堅牢性を改善するためのプライバシー保護手法を提案する。
公開データセット上で訓練された話者IDモデルを用いて発話レベルの埋め込みを抽出する。
モデル学習において,話者発話の埋め込みの代わりにクラスタIDを付加的な特徴として用いた。
論文 参考訳(メタデータ) (2023-06-06T21:13:08Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Automatic Speech Recognition using limited vocabulary: A survey [0.0]
アンダーリソース言語をターゲットにしたASRシステムを設計するためのアプローチは、限られた語彙から始めることである。
本稿では,ASRシステムの背後にあるメカニズムや技術,ツール,プロジェクト,最近のコントリビューション,さらには将来的な方向性を,限定語彙を用いて包括的に把握することを目的とする。
論文 参考訳(メタデータ) (2021-08-23T15:51:41Z) - Quantifying Bias in Automatic Speech Recognition [28.301997555189462]
本稿では,オランダのsoma asrシステムの性別,年齢,地域アクセント,非母語アクセントに対するバイアスを定量化する。
本研究では,ASR開発におけるバイアス緩和戦略を提案する。
論文 参考訳(メタデータ) (2021-03-28T12:52:03Z) - Contextualized Attention-based Knowledge Transfer for Spoken
Conversational Question Answering [63.72278693825945]
音声対話型質問応答 (SCQA) は複雑な対話の流れをモデル化するために機械を必要とする。
本稿では,新しい文脈型注意型蒸留手法CADNetを提案する。
Spoken-CoQAデータセット上で広範な実験を行い、本手法が優れた性能を発揮することを示す。
論文 参考訳(メタデータ) (2020-10-21T15:17:18Z) - AccentDB: A Database of Non-Native English Accents to Assist Neural
Speech Recognition [3.028098724882708]
まず、ロバストなASRシステムのトレーニングとテストのために、非ネイティブアクセントで音声サンプルの精度の高いデータベースを作成するための重要な要件について説明する。
次に、私たちによって収集された4つのインド英語アクセントのサンプルを含む、そのようなデータベースであるAccentDBを紹介します。
アクセント分類モデルをいくつか提示し, アクセントクラスに対して徹底的に評価する。
論文 参考訳(メタデータ) (2020-05-16T12:38:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。