論文の概要: Mondegreen: A Post-Processing Solution to Speech Recognition Error
Correction for Voice Search Queries
- arxiv url: http://arxiv.org/abs/2105.09930v1
- Date: Thu, 20 May 2021 17:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:41:49.373418
- Title: Mondegreen: A Post-Processing Solution to Speech Recognition Error
Correction for Voice Search Queries
- Title(参考訳): Mondegreen:音声検索クエリの音声認識誤り訂正のための後処理ソリューション
- Authors: Sukhdeep S. Sodhi, Ellie Ka-In Chio, Ambarish Jash, Santiago
Onta\~n\'on, Ajit Apte, Ankit Kumar, Ayooluwakunmi Jeje, Dima Kuzmin, Harry
Fung, Heng-Tze Cheng, Jon Effrat, Tarush Bali, Nitin Jindal, Pei Cao,
Sarvjeet Singh, Senqiang Zhou, Tameen Khan, Amol Wankhede, Moustafa Alzantot,
Allen Wu, Tushar Chandra
- Abstract要約: 音声信号に依存することなくテキスト空間における音声クエリを補正する手法であるMondegreenを導入する。
本稿では,従来のテキストコーパスにおいて,ユーザ音声クエリから得られる言語分布との違いについて分析する。
次に,Google 最大の検索システムのひとつにおいて,ユーザ音声クエリの修正により,Mondegreen がユーザインタラクションの大幅な向上を実現できることを実証した。
- 参考スコア(独自算出の注目度): 2.2962622992492143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As more and more online search queries come from voice, automatic speech
recognition becomes a key component to deliver relevant search results. Errors
introduced by automatic speech recognition (ASR) lead to irrelevant search
results returned to the user, thus causing user dissatisfaction. In this paper,
we introduce an approach, Mondegreen, to correct voice queries in text space
without depending on audio signals, which may not always be available due to
system constraints or privacy or bandwidth (for example, some ASR systems run
on-device) considerations. We focus on voice queries transcribed via several
proprietary commercial ASR systems. These queries come from users making
internet, or online service search queries. We first present an analysis
showing how different the language distribution coming from user voice queries
is from that in traditional text corpora used to train off-the-shelf ASR
systems. We then demonstrate that Mondegreen can achieve significant
improvements in increased user interaction by correcting user voice queries in
one of the largest search systems in Google. Finally, we see Mondegreen as
complementing existing highly-optimized production ASR systems, which may not
be frequently retrained and thus lag behind due to vocabulary drifts.
- Abstract(参考訳): ますます多くのオンライン検索クエリが音声から来るようになり、自動音声認識は関連する検索結果を提供する上で重要な要素となる。
自動音声認識(asr)によってもたらされた誤りは、ユーザに返される不適切な検索結果につながり、ユーザの不満を招く。
本稿では,システム制約やプライバシ,帯域幅(デバイス上で動作している一部のASRシステムなど)などにより,音声信号に依存することなくテキスト空間の音声クエリを補正する手法であるMondegreenを導入する。
いくつかの商用ASRシステムを通じて書き起こされた音声クエリに焦点を当てる。
これらのクエリは、インターネットやオンラインのサービス検索クエリを作るユーザから来ている。
まず,市販のasrシステムをトレーニングするために使用する従来のテキストコーパスと,ユーザの音声クエリから得られる言語分布の違いについて分析する。
次に,Google 最大の検索システムのひとつにおいて,ユーザ音声クエリの修正によって,Mondegreen がユーザインタラクションの大幅な向上を実現することを示す。
最後に、Mondegreen は既存の高度に最適化された生産型 ASR システムを補完するものとみなす。
関連論文リスト
- Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。
精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。
その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-07-31T08:00:41Z) - Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。
ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。
音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文 参考訳(メタデータ) (2024-06-26T07:39:20Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering [76.4510005602893]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文 参考訳(メタデータ) (2023-07-21T09:30:46Z) - Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文 参考訳(メタデータ) (2022-11-17T13:15:58Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。