論文の概要: Phonetically-Augmented Discriminative Rescoring for Voice Search Error Correction
- arxiv url: http://arxiv.org/abs/2506.06117v1
- Date: Fri, 06 Jun 2025 14:25:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-09 17:28:43.510528
- Title: Phonetically-Augmented Discriminative Rescoring for Voice Search Error Correction
- Title(参考訳): 音声強調による音声検索誤り訂正
- Authors: Christophe Van Gysel, Maggie Wu, Lyan Verwimp, Caglar Tirkaz, Marco Bertola, Zhihong Lei, Youssef Oualil,
- Abstract要約: 近年の映画タイトルは、E2E ASRシステムのトレーニングデータでは十分に表現されていない。
本稿では,ASRモデルの出力に基づいて音声検索を行う音声補正システムを提案する。
本手法は,人気映画のベンチマークにおいて,単語誤り率を4.4~7.6%向上させる。
- 参考スコア(独自算出の注目度): 7.787275515915814
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) Automatic Speech Recognition (ASR) models are trained using paired audio-text samples that are expensive to obtain, since high-quality ground-truth data requires human annotators. Voice search applications, such as digital media players, leverage ASR to allow users to search by voice as opposed to an on-screen keyboard. However, recent or infrequent movie titles may not be sufficiently represented in the E2E ASR system's training data, and hence, may suffer poor recognition. In this paper, we propose a phonetic correction system that consists of (a) a phonetic search based on the ASR model's output that generates phonetic alternatives that may not be considered by the E2E system, and (b) a rescorer component that combines the ASR model recognition and the phonetic alternatives, and select a final system output. We find that our approach improves word error rate between 4.4 and 7.6% relative on benchmarks of popular movie titles over a series of competitive baselines.
- Abstract(参考訳): E2E(End-to-end)自動音声認識(ASR)モデルは、高品質な地上データを必要とするため、高コストのペア音声テキストサンプルを用いて訓練される。
デジタルメディアプレーヤーのような音声検索アプリケーションは、ASRを利用してユーザーが画面上のキーボードではなく音声で検索できるようにする。
しかし、近年の映画タイトルは、E2E ASRシステムのトレーニングデータでは十分に表現されていないため、認識が不十分である可能性がある。
本稿では, 音韻補正システムを提案する。
(a)E2Eシステムでは考慮されない音素代替語を生成するASRモデルの出力に基づく音声検索、及び
b) ASRモデル認識と音声代替品を組み合わせて最終システム出力を選択するリスコラコンポーネント。
提案手法は, 人気映画のベンチマークにおいて, 単語誤り率を4.4~7.6%向上させる。
関連論文リスト
- Listening and Seeing Again: Generative Error Correction for Audio-Visual Speech Recognition [39.206005299985605]
「我々はAVSRのための新しいGERパラダイム、AVGERを提案し、それを聴いて再び見るという概念に従っている。」
AVGERは、現在の主流のAVSRシステムと比較して、ワードエラー率(WER)を24%削減できる。
論文 参考訳(メタデータ) (2025-01-03T10:51:14Z) - High-precision Voice Search Query Correction via Retrievable Speech-text
Embedings [13.4015768521113]
音声認識システムは、ノイズの多い音声、十分なトレーニングデータがないなど、様々な理由で、リコールに苦しむことがある。
従来の研究では、仮説テキストの潜在的、文脈に関連のある選択肢の巨大なデータベースから書き直し候補を検索することで、リコールを改善することができた。
一般発話においてWERを増大させることなく,文章が候補集合に現れる発話に対して,相対単語誤り率(WER)を6%削減することを示す。
論文 参考訳(メタデータ) (2024-01-08T20:59:56Z) - Modality Confidence Aware Training for Robust End-to-End Spoken Language
Understanding [18.616202196061966]
近年,音声から意味的パースを生成する言語理解システム(SLU)が注目されている。
このアプローチでは,事前学習された音声認識モデル(ASR)から音声とテキストの表現を利用する単一モデルを用いる。
本稿では,ASR仮説のモーダリティ信頼度に基づいて,音声およびテキスト表現を融合させることにより,ASRエラーに対するロバスト性を高める新しいE2E SLUシステムを提案する。
論文 参考訳(メタデータ) (2023-07-22T17:47:31Z) - AV-data2vec: Self-supervised Learning of Audio-Visual Speech
Representations with Contextualized Target Representations [88.30635799280923]
AV-data2vecを導入し、文脈化表現の予測に基づいて音声・視覚表現を構築する。
LRS3の結果は、AV-data2vecが、同じ量のデータとモデルサイズで既存のメソッドを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-10T02:55:52Z) - ESB: A Benchmark For Multi-Domain End-to-End Speech Recognition [100.30565531246165]
音声認識システムはデータセット固有のチューニングを必要とする。
このチューニング要件は、他のデータセットやドメインへの一般化に失敗したシステムにつながる可能性がある。
本稿では,1つの自動音声認識システムの性能を評価するために,エンド・ツー・エンド音声ベンチマーク(ESB)を提案する。
論文 参考訳(メタデータ) (2022-10-24T15:58:48Z) - End-to-end contextual asr based on posterior distribution adaptation for
hybrid ctc/attention system [61.148549738631814]
エンドツーエンド(E2E)音声認識アーキテクチャは、従来の音声認識システムのすべてのコンポーネントを単一のモデルに組み立てる。
これはASRシステムを単純化するが、文脈的ASRの欠点を導入している: E2Eモデルは、頻繁な固有名詞を含む発話に対して、より悪い性能を持つ。
本稿では,文脈的単語認識能力を向上させるために,文脈バイアスアテンション(CBA)モジュールをアテンションベースエンコーダデコーダ(AED)モデルに追加することを提案する。
論文 参考訳(メタデータ) (2022-02-18T03:26:02Z) - FastCorrect 2: Fast Error Correction on Multiple Candidates for
Automatic Speech Recognition [92.12910821300034]
本稿では,複数のASR候補を入力として取り込んだ誤り訂正モデルFastCorrect 2を提案する。
FastCorrect 2は、カスケードされた再描画と修正パイプラインよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-09-29T13:48:03Z) - Mondegreen: A Post-Processing Solution to Speech Recognition Error
Correction for Voice Search Queries [2.2962622992492143]
音声信号に依存することなくテキスト空間における音声クエリを補正する手法であるMondegreenを導入する。
本稿では,従来のテキストコーパスにおいて,ユーザ音声クエリから得られる言語分布との違いについて分析する。
次に,Google 最大の検索システムのひとつにおいて,ユーザ音声クエリの修正により,Mondegreen がユーザインタラクションの大幅な向上を実現できることを実証した。
論文 参考訳(メタデータ) (2021-05-20T17:45:46Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - An End-to-End Mispronunciation Detection System for L2 English Speech
Leveraging Novel Anti-Phone Modeling [11.894724235336872]
誤認識検出診断(MDD)はコンピュータ支援発音訓練(CAPT)のコアコンポーネントである
本稿では,新しいエンドツーエンド自動音声認識(E2E-based ASR)アプローチでMDDを実行することを提案する。
特に,元のL2電話機を対応するアンチフォンセットで拡張し,誤発音検出と診断フィードバックの改善を目的としている。
論文 参考訳(メタデータ) (2020-05-25T07:27:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。