論文の概要: Mondegreen: A Post-Processing Solution to Speech Recognition Error
Correction for Voice Search Queries
- arxiv url: http://arxiv.org/abs/2105.09930v1
- Date: Thu, 20 May 2021 17:45:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-21 13:41:49.373418
- Title: Mondegreen: A Post-Processing Solution to Speech Recognition Error
Correction for Voice Search Queries
- Title(参考訳): Mondegreen:音声検索クエリの音声認識誤り訂正のための後処理ソリューション
- Authors: Sukhdeep S. Sodhi, Ellie Ka-In Chio, Ambarish Jash, Santiago
Onta\~n\'on, Ajit Apte, Ankit Kumar, Ayooluwakunmi Jeje, Dima Kuzmin, Harry
Fung, Heng-Tze Cheng, Jon Effrat, Tarush Bali, Nitin Jindal, Pei Cao,
Sarvjeet Singh, Senqiang Zhou, Tameen Khan, Amol Wankhede, Moustafa Alzantot,
Allen Wu, Tushar Chandra
- Abstract要約: 音声信号に依存することなくテキスト空間における音声クエリを補正する手法であるMondegreenを導入する。
本稿では,従来のテキストコーパスにおいて,ユーザ音声クエリから得られる言語分布との違いについて分析する。
次に,Google 最大の検索システムのひとつにおいて,ユーザ音声クエリの修正により,Mondegreen がユーザインタラクションの大幅な向上を実現できることを実証した。
- 参考スコア(独自算出の注目度): 2.2962622992492143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As more and more online search queries come from voice, automatic speech
recognition becomes a key component to deliver relevant search results. Errors
introduced by automatic speech recognition (ASR) lead to irrelevant search
results returned to the user, thus causing user dissatisfaction. In this paper,
we introduce an approach, Mondegreen, to correct voice queries in text space
without depending on audio signals, which may not always be available due to
system constraints or privacy or bandwidth (for example, some ASR systems run
on-device) considerations. We focus on voice queries transcribed via several
proprietary commercial ASR systems. These queries come from users making
internet, or online service search queries. We first present an analysis
showing how different the language distribution coming from user voice queries
is from that in traditional text corpora used to train off-the-shelf ASR
systems. We then demonstrate that Mondegreen can achieve significant
improvements in increased user interaction by correcting user voice queries in
one of the largest search systems in Google. Finally, we see Mondegreen as
complementing existing highly-optimized production ASR systems, which may not
be frequently retrained and thus lag behind due to vocabulary drifts.
- Abstract(参考訳): ますます多くのオンライン検索クエリが音声から来るようになり、自動音声認識は関連する検索結果を提供する上で重要な要素となる。
自動音声認識(asr)によってもたらされた誤りは、ユーザに返される不適切な検索結果につながり、ユーザの不満を招く。
本稿では,システム制約やプライバシ,帯域幅(デバイス上で動作している一部のASRシステムなど)などにより,音声信号に依存することなくテキスト空間の音声クエリを補正する手法であるMondegreenを導入する。
いくつかの商用ASRシステムを通じて書き起こされた音声クエリに焦点を当てる。
これらのクエリは、インターネットやオンラインのサービス検索クエリを作るユーザから来ている。
まず,市販のasrシステムをトレーニングするために使用する従来のテキストコーパスと,ユーザの音声クエリから得られる言語分布の違いについて分析する。
次に,Google 最大の検索システムのひとつにおいて,ユーザ音声クエリの修正によって,Mondegreen がユーザインタラクションの大幅な向上を実現することを示す。
最後に、Mondegreen は既存の高度に最適化された生産型 ASR システムを補完するものとみなす。
関連論文リスト
- SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken
Question Answering [79.7437609151244]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - Topic Identification For Spontaneous Speech: Enriching Audio Features
With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。
テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。
フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文 参考訳(メタデータ) (2023-07-21T09:30:46Z) - Speech Aware Dialog System Technology Challenge (DSTC11) [12.841429336655736]
タスク指向ダイアログモデリングのほとんどの研究は、テキスト入力に基づいている。
TTS-Verbatim: テキスト入力をTTSシステムを用いて音声波形に変換し, (b) ヒューマン・ヴァーバティム: ユーザ入力を動詞入力, (c) ヒューマン・パラフレーズ化: ユーザ入力をパラフレーズ化した。
論文 参考訳(メタデータ) (2022-12-16T20:30:33Z) - Hey ASR System! Why Aren't You More Inclusive? Automatic Speech
Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A
Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。
また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文 参考訳(メタデータ) (2022-11-17T13:15:58Z) - Evaluation of Automated Speech Recognition Systems for Conversational
Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。
我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文 参考訳(メタデータ) (2022-11-05T04:35:40Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z) - ASR data augmentation in low-resource settings using cross-lingual
multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。
対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文 参考訳(メタデータ) (2022-03-29T11:55:30Z) - Streaming Multi-talker Speech Recognition with Joint Speaker
Identification [77.46617674133556]
SURITは、音声認識と話者識別の両方のバックボーンとして、リカレントニューラルネットワークトランスデューサ(RNN-T)を採用しています。
Librispeechから派生したマルチストーカーデータセットであるLibrispeechデータセットに関するアイデアを検証し、奨励的な結果を提示した。
論文 参考訳(メタデータ) (2021-04-05T18:37:33Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Multi-talker ASR for an unknown number of sources: Joint training of
source counting, separation and ASR [91.87500543591945]
能動話者の未知数に対するエンドツーエンドマルチストーカー自動音声認識システムを開発した。
実験の結果,精度,音源分離,音声認識において有望な性能を示した。
我々のシステムは、トレーニング中に見たよりも多くの話者によく当てはまる。
論文 参考訳(メタデータ) (2020-06-04T11:25:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。