Fugu-MT 論文翻訳(概要): Mondegreen: A Post-Processing Solution to Speech Recognition Error Correction for Voice Search Queries

論文の概要: Mondegreen: A Post-Processing Solution to Speech Recognition Error Correction for Voice Search Queries

arxiv url: http://arxiv.org/abs/2105.09930v1
Date: Thu, 20 May 2021 17:45:46 GMT
ステータス: 翻訳完了
システム内更新日: 2021-05-21 13:41:49.373418
Title: Mondegreen: A Post-Processing Solution to Speech Recognition Error Correction for Voice Search Queries
Title（参考訳）: Mondegreen:音声検索クエリの音声認識誤り訂正のための後処理ソリューション
Authors: Sukhdeep S. Sodhi, Ellie Ka-In Chio, Ambarish Jash, Santiago Onta\~n\'on, Ajit Apte, Ankit Kumar, Ayooluwakunmi Jeje, Dima Kuzmin, Harry Fung, Heng-Tze Cheng, Jon Effrat, Tarush Bali, Nitin Jindal, Pei Cao, Sarvjeet Singh, Senqiang Zhou, Tameen Khan, Amol Wankhede, Moustafa Alzantot, Allen Wu, Tushar Chandra
Abstract要約: 音声信号に依存することなくテキスト空間における音声クエリを補正する手法であるMondegreenを導入する。本稿では,従来のテキストコーパスにおいて,ユーザ音声クエリから得られる言語分布との違いについて分析する。次に,Google 最大の検索システムのひとつにおいて,ユーザ音声クエリの修正により,Mondegreen がユーザインタラクションの大幅な向上を実現できることを実証した。
参考スコア（独自算出の注目度）: 2.2962622992492143
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: As more and more online search queries come from voice, automatic speech recognition becomes a key component to deliver relevant search results. Errors introduced by automatic speech recognition (ASR) lead to irrelevant search results returned to the user, thus causing user dissatisfaction. In this paper, we introduce an approach, Mondegreen, to correct voice queries in text space without depending on audio signals, which may not always be available due to system constraints or privacy or bandwidth (for example, some ASR systems run on-device) considerations. We focus on voice queries transcribed via several proprietary commercial ASR systems. These queries come from users making internet, or online service search queries. We first present an analysis showing how different the language distribution coming from user voice queries is from that in traditional text corpora used to train off-the-shelf ASR systems. We then demonstrate that Mondegreen can achieve significant improvements in increased user interaction by correcting user voice queries in one of the largest search systems in Google. Finally, we see Mondegreen as complementing existing highly-optimized production ASR systems, which may not be frequently retrained and thus lag behind due to vocabulary drifts.
Abstract（参考訳）: ますます多くのオンライン検索クエリが音声から来るようになり、自動音声認識は関連する検索結果を提供する上で重要な要素となる。自動音声認識(asr)によってもたらされた誤りは、ユーザに返される不適切な検索結果につながり、ユーザの不満を招く。本稿では,システム制約やプライバシ,帯域幅(デバイス上で動作している一部のASRシステムなど)などにより,音声信号に依存することなくテキスト空間の音声クエリを補正する手法であるMondegreenを導入する。いくつかの商用ASRシステムを通じて書き起こされた音声クエリに焦点を当てる。これらのクエリは、インターネットやオンラインのサービス検索クエリを作るユーザから来ている。まず,市販のasrシステムをトレーニングするために使用する従来のテキストコーパスと,ユーザの音声クエリから得られる言語分布の違いについて分析する。次に,Google 最大の検索システムのひとつにおいて,ユーザ音声クエリの修正によって,Mondegreen がユーザインタラクションの大幅な向上を実現することを示す。最後に、Mondegreen は既存の高度に最適化された生産型 ASR システムを補完するものとみなす。

関連論文リスト

Stream RAG: Instant and Accurate Spoken Dialogue Systems with Streaming Tool Usage [66.67531241554546]
従来のASR-LLM-TTSパイプラインに代わる強力な対話システムとして、エンドツーエンドの音声対話システムが登場している。本稿では,音声入力システムに直接ツールの使用を拡張するための最初のアプローチを紹介する。提案するStreaming Retrieval-Augmented Generation (Streaming RAG) は,ユーザ音声と並行してツールクエリを予測することにより,ユーザ知覚のレイテンシを低減する新しいフレームワークである。
論文参考訳（メタデータ） (2025-10-02T14:18:20Z)
Phonetically-Augmented Discriminative Rescoring for Voice Search Error Correction [7.787275515915814]
近年の映画タイトルは、E2E ASRシステムのトレーニングデータでは十分に表現されていない。本稿では,ASRモデルの出力に基づいて音声検索を行う音声補正システムを提案する。本手法は,人気映画のベンチマークにおいて,単語誤り率を4.4～7.6%向上させる。
論文参考訳（メタデータ） (2025-06-06T14:25:18Z)
Speech Retrieval-Augmented Generation without Automatic Speech Recognition [4.731446054087683]
SpeechRAGは、音声データに対するオープンクエスト応答のために設計された新しいフレームワークである。提案手法は,事前学習した音声エンコーダを,凍結した大言語モデルに入力した音声アダプタに微調整する。テキストと音声の埋め込み空間を整列させることで、音声検索者はテキストベースのクエリから音声を直接検索する。
論文参考訳（メタデータ） (2024-12-21T06:16:04Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Towards interfacing large language models with ASR systems using confidence measures and prompting [54.39667883394458]
本研究では,大言語モデル(LLM)を用いたASRテキストのポストホック修正について検討する。精度の高い転写文に誤りを導入することを避けるため,信頼度に基づくフィルタリング手法を提案する。その結果,競争力の低いASRシステムの性能が向上することが示唆された。
論文参考訳（メタデータ） (2024-07-31T08:00:41Z)
Automatic Speech Recognition for Hindi [0.6292138336765964]
この研究は、Webアプリケーションの開発と音声認識のためのWebインターフェースの設計に関するものだった。ウェブアプリケーションは、大量のオーディオファイルとその転写を管理し、ASR転写の人間の修正を容易にする。音声認識用Webインターフェースは、Webアプリを実行するデバイスから16kHzのモノオーディオを記録し、音声アクティビティ検出(VAD)を行い、音声認識エンジンに音声を送信する。
論文参考訳（メタデータ） (2024-06-26T07:39:20Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken Question Answering [76.4510005602893]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文参考訳（メタデータ） (2024-01-24T14:08:38Z)
Topic Identification For Spontaneous Speech: Enriching Audio Features With Embedded Linguistic Information [10.698093106994804]
音声からの従来の話題識別ソリューションは、音声認識システム(ASR)に依存して書き起こしを生成する。テキストと音声を共同で活用する,音声のみとハイブリッド技術の比較を行った。フィンランドの自然発話で評価されたモデルは、純粋な音声ベースのソリューションが、ASRコンポーネントが利用できない場合に実行可能な選択肢であることを示している。
論文参考訳（メタデータ） (2023-07-21T09:30:46Z)
Hey ASR System! Why Aren't You More Inclusive? Automatic Speech Recognition Systems' Bias and Proposed Bias Mitigation Techniques. A Literature Review [0.0]
我々は、ASRの性別、人種、病気、障害者に対する偏見に対処する研究を提案する。また、よりアクセシブルで包括的なASR技術を設計するための技術についても論じる。
論文参考訳（メタデータ） (2022-11-17T13:15:58Z)
Evaluation of Automated Speech Recognition Systems for Conversational Speech: A Linguistic Perspective [0.0]
我々は言語的な視点を採り、フランス語をフランス語のホモフォンの曖昧化に向けたケーススタディとして捉えている。我々の貢献は、現在最先端のASRシステムを再現する条件下で、人間の音声の転写精度についてより深い知見を提供することである。
論文参考訳（メタデータ） (2022-11-05T04:35:40Z)
ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文参考訳（メタデータ） (2022-10-24T15:58:48Z)
On the Impact of Speech Recognition Errors in Passage Retrieval for Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文参考訳（メタデータ） (2022-09-26T18:29:36Z)
ASR data augmentation in low-resource settings using cross-lingual multi-speaker TTS and cross-lingual voice conversion [49.617722668505834]
提案手法は,モデル学習中に1つの話者のみを用いて音声合成と音声変換を行い,ASRシステムの改善を可能にする。対象言語における1つの実話者のみを用いてデータ拡張法を用いて、有望なASRトレーニング結果を得ることが可能である。
論文参考訳（メタデータ） (2022-03-29T11:55:30Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。