論文の概要: High-precision Voice Search Query Correction via Retrievable Speech-text
Embedings
- arxiv url: http://arxiv.org/abs/2401.04235v1
- Date: Mon, 8 Jan 2024 20:59:56 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-10 18:21:09.509107
- Title: High-precision Voice Search Query Correction via Retrievable Speech-text
Embedings
- Title(参考訳): 検索可能な音声テキスト埋め込みによる高精度音声検索クエリの補正
- Authors: Christopher Li, Gary Wang, Kyle Kastner, Heng Su, Allen Chen, Andrew
Rosenberg, Zhehuai Chen, Zelin Wu, Leonid Velikovich, Pat Rondon, Diamantino
Caseiro, Petar Aleksic
- Abstract要約: 音声認識システムは、ノイズの多い音声、十分なトレーニングデータがないなど、様々な理由で、リコールに苦しむことがある。
従来の研究では、仮説テキストの潜在的、文脈に関連のある選択肢の巨大なデータベースから書き直し候補を検索することで、リコールを改善することができた。
一般発話においてWERを増大させることなく,文章が候補集合に現れる発話に対して,相対単語誤り率(WER)を6%削減することを示す。
- 参考スコア(独自算出の注目度): 13.4015768521113
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Automatic speech recognition (ASR) systems can suffer from poor recall for
various reasons, such as noisy audio, lack of sufficient training data, etc.
Previous work has shown that recall can be improved by retrieving rewrite
candidates from a large database of likely, contextually-relevant alternatives
to the hypothesis text using nearest-neighbors search over embeddings of the
ASR hypothesis text to correct and candidate corrections.
However, ASR-hypothesis-based retrieval can yield poor precision if the
textual hypotheses are too phonetically dissimilar to the transcript truth. In
this paper, we eliminate the hypothesis-audio mismatch problem by querying the
correction database directly using embeddings derived from the utterance audio;
the embeddings of the utterance audio and candidate corrections are produced by
multimodal speech-text embedding networks trained to place the embedding of the
audio of an utterance and the embedding of its corresponding textual transcript
close together.
After locating an appropriate correction candidate using nearest-neighbor
search, we score the candidate with its speech-text embedding distance before
adding the candidate to the original n-best list.
We show a relative word error rate (WER) reduction of 6% on utterances whose
transcripts appear in the candidate set, without increasing WER on general
utterances.
- Abstract(参考訳): 自動音声認識(asr)システムは、ノイズオーディオや十分なトレーニングデータの欠如など、さまざまな理由でリコールが不十分な場合がある。
以前の研究は、asr仮説テキストの埋め込みを探索し、修正と修正候補を探索することで、仮説テキストの、おそらくコンテキスト的に関連する、大きなデータベースからリライト候補を検索することで、リコールを改善することができることを示した。
しかし、ASR-hypothesisに基づく検索は、テキスト仮説が転写真理と音声的に相違しすぎる場合、精度が劣る可能性がある。
本稿では、発話音声から直接埋め込みを用いて修正データベースをクエリすることで、仮説音声のミスマッチ問題を解消し、発話音声の埋め込みとそれに対応するテキストテキストの埋め込みを近接させるように訓練されたマルチモーダル音声テキスト埋め込みネットワークにより、発話音声と候補訂正の埋め込みを生成する。
最寄りの探索を用いて適切な修正候補を探索した後, 候補をn-bestリストに追加する前に, 音声テキストの埋め込み距離で評価する。
一般発話においてWERを増大させることなく,文章が候補集合に現れる発話に対して,相対単語誤り率(WER)を6%削減することを示す。
関連論文リスト
- HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Looking and Listening: Audio Guided Text Recognition [62.98768236858089]
野生におけるテキスト認識は、コンピュータビジョンにおける長年の問題である。
近年の研究では、視覚と言語処理がシーンテキスト認識に有効であることが示唆されている。
しかし、既存のアプローチでは、追加、削除、置換といった編集エラーの解決が依然として大きな課題である。
本稿では,メルスペクトル列予測のためのシンプルで効果的な確率的オーディオデコーダであるAudioOCRを提案する。
論文 参考訳(メタデータ) (2023-06-06T08:08:18Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - On the Impact of Speech Recognition Errors in Passage Retrieval for
Spoken Question Answering [13.013751306590303]
合成ASR雑音に対する語彙・高密度レトリバーのロバスト性について検討した。
我々は,人間の声による質問を含む新しいデータセットを作成し,その書き起こしを用いて,合成ASRノイズの代わりに自然なASRノイズを扱う場合に,検索性能がさらに劣化することを示す。
論文 参考訳(メタデータ) (2022-09-26T18:29:36Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Integrated Semantic and Phonetic Post-correction for Chinese Speech
Recognition [1.2914521751805657]
提案手法は,中国語ASRの誤り率を軽減するために,誤りとその置換候補間の文脈的表現と音声情報を総合的に活用する手法である。
実世界の音声認識実験の結果,提案手法はベースラインモデルよりも明らかに低いことがわかった。
論文 参考訳(メタデータ) (2021-11-16T11:55:27Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Personalized Keyphrase Detection using Speaker and Environment
Information [24.766475943042202]
単語からなるフレーズを大きな語彙から正確に検出するために、簡単にカスタマイズできるストリーミングキーフレーズ検出システムを紹介します。
本システムは,エンドツーエンドで訓練された自動音声認識(ASR)モデルと,テキスト非依存話者検証モデルを用いて実装される。
論文 参考訳(メタデータ) (2021-04-28T18:50:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。