論文の概要: Personalization for BERT-based Discriminative Speech Recognition
Rescoring
- arxiv url: http://arxiv.org/abs/2307.06832v1
- Date: Thu, 13 Jul 2023 15:54:32 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-14 14:20:57.560458
- Title: Personalization for BERT-based Discriminative Speech Recognition
Rescoring
- Title(参考訳): BERTに基づく識別音声認識のパーソナライズ
- Authors: Jari Kolehmainen, Yile Gu, Aditya Gourav, Prashanth Gurunath
Shivakumar, Ankur Gandhe, Ariya Rastrow, Ivan Bulyko
- Abstract要約: 認識を改善するために、パーソナライズされたコンテンツを使用する新しい3つのアプローチ:ガゼッタ、プロンプト、および、クロスアテンションベースのエンコーダ-デコーダモデル。
パーソナライズされたエンティティを持つテストセットにおいて、これらのアプローチは、ニューラルネットワークのベースラインに対して、ワードエラー率を10%以上改善することを示す。
- 参考スコア(独自算出の注目度): 13.58828513686159
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recognition of personalized content remains a challenge in end-to-end speech
recognition. We explore three novel approaches that use personalized content in
a neural rescoring step to improve recognition: gazetteers, prompting, and a
cross-attention based encoder-decoder model. We use internal de-identified
en-US data from interactions with a virtual voice assistant supplemented with
personalized named entities to compare these approaches. On a test set with
personalized named entities, we show that each of these approaches improves
word error rate by over 10%, against a neural rescoring baseline. We also show
that on this test set, natural language prompts can improve word error rate by
7% without any training and with a marginal loss in generalization. Overall,
gazetteers were found to perform the best with a 10% improvement in word error
rate (WER), while also improving WER on a general test set by 1%.
- Abstract(参考訳): パーソナライズされたコンテンツの認識は、エンドツーエンドの音声認識において依然として課題である。
ニューラル・リコーディングのステップにおいて、パーソナライズされたコンテンツを使用して認識を改善する3つの新しいアプローチについて検討する。
これらのアプローチを比較するために、パーソナライズされた名前付きエンティティを補足した仮想音声アシスタントとのインタラクションから、内部非識別のen-usデータを使用する。
パーソナライズされたエンティティを持つテストセットにおいて、これらのアプローチは、ニューラルネットワークのベースラインに対して、ワードエラー率を10%以上改善することを示す。
また、このテストセットでは、自然言語のプロンプトが、学習や一般化の限界損失を伴わずに、単語誤り率を7%向上させることができることを示す。
全体では,単語誤り率(wer)が10%向上し,一般テストでは1%向上した。
関連論文リスト
- Semi-Supervised Cognitive State Classification from Speech with Multi-View Pseudo-Labeling [21.82879779173242]
ラベル付きデータの欠如は、音声分類タスクにおいて共通の課題である。
そこで我々は,新しい多視点擬似ラベル手法を導入したセミスーパーバイザードラーニング(SSL)フレームワークを提案する。
感情認識と認知症検出タスクにおけるSSLフレームワークの評価を行った。
論文 参考訳(メタデータ) (2024-09-25T13:51:19Z) - InterBiasing: Boost Unseen Word Recognition through Biasing Intermediate Predictions [5.50485371072671]
本手法は,ラベルの修正による中間CTC予測に代えて,誤認識対象キーワードの認識精度を向上させる。
日本語を用いた実験により,未知語に対するF1スコアの改善が得られた。
論文 参考訳(メタデータ) (2024-06-21T06:25:10Z) - Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - SememeASR: Boosting Performance of End-to-End Speech Recognition against
Domain and Long-Tailed Data Shift with Sememe Semantic Knowledge [58.979490858061745]
セメムに基づくセマンティック知識情報を音声認識に導入する。
実験の結果,セム情報により音声認識の有効性が向上することが示された。
さらに,本実験により,セメム知識が長期データ認識を改善することが確認された。
論文 参考訳(メタデータ) (2023-09-04T08:35:05Z) - SpellMapper: A non-autoregressive neural spellchecker for ASR
customization with candidate retrieval based on n-gram mappings [76.87664008338317]
文脈スペル補正モデルは、音声認識を改善するために浅い融合に代わるものである。
ミススペルn-gramマッピングに基づく候補探索のための新しいアルゴリズムを提案する。
Spoken Wikipediaの実験では、ベースラインのASRシステムに比べて21.4%のワードエラー率の改善が見られた。
論文 参考訳(メタデータ) (2023-06-04T10:00:12Z) - A New Benchmark of Aphasia Speech Recognition and Detection Based on
E-Branchformer and Multi-task Learning [29.916793641951507]
本稿では,最新の音声認識技術を用いた失語症音声認識のための新しいベンチマークを提案する。
CTC/Attentionアーキテクチャに基づく2つのマルチタスク学習手法を導入し、両方のタスクを同時に実行する。
当システムでは,中等度失語症患者に対して,最先端の話者レベル検出精度(97.3%)と相対的なWER低下率(1%)を達成している。
論文 参考訳(メタデータ) (2023-05-19T15:10:36Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Personalization Strategies for End-to-End Speech Recognition Systems [12.993241217354322]
第1と第2パスのリコーリング戦略を併用して,パーソナライズされた単語の認識を改善する方法を示す。
このようなアプローチは,一般のユースケースにおいて最小限の分解で,最大16%のパーソナライズされたコンテンツ認識を改善できることを示す。
また, オラクルWERを最適化した第1パス浅部融合と併用して, 新規な第2パス脱バイアス法についても述べる。
論文 参考訳(メタデータ) (2021-02-15T18:36:13Z) - UniSpeech: Unified Speech Representation Learning with Labeled and
Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。
公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文 参考訳(メタデータ) (2021-01-19T12:53:43Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。