論文の概要: Self-consistent context aware conformer transducer for speech
recognition
- arxiv url: http://arxiv.org/abs/2402.06592v1
- Date: Fri, 9 Feb 2024 18:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 15:50:50.469438
- Title: Self-consistent context aware conformer transducer for speech
recognition
- Title(参考訳): 音声認識のための自己整合型コンフォメータトランスデューサ
- Authors: Konstantin Kolokolov, Pavel Pekichev, Karthik Raghunathan
- Abstract要約: 本研究では,コンバータトランスデューサをベースとした新しいニューラルネットワークアーキテクチャを提案する。
本手法は,通常の単語の単語誤り率を損なうことなく,非一般的な単語を認識する精度を向上させる。
- 参考スコア(独自算出の注目度): 0.0675253870287079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel neural network architecture based on conformer transducer
that adds contextual information flow to the ASR systems. Our method improves
the accuracy of recognizing uncommon words while not harming the word error
rate of regular words. We explore the uncommon words accuracy improvement when
we use the new model and/or shallow fusion with context language model. We
found that combination of both provides cumulative gain in uncommon words
recognition accuracy.
- Abstract(参考訳): 本稿では,文脈情報フローをasrシステムに付加するコンフォーメータトランスデューサに基づくニューラルネットワークアーキテクチャを提案する。
本手法は、通常の単語の単語誤り率を損なうことなく、まれな単語を認識できる精度を向上させる。
我々は,新しいモデルや文脈言語モデルとの浅い融合を用いた場合の単語精度の向上について検討する。
その結果, 単語認識精度は, 両者の組み合わせが累積的に向上することがわかった。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [64.03177537617113]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - ed-cec: improving rare word recognition using asr postprocessing based
on error detection and context-aware error correction [30.486396813844195]
本稿では,誤り検出と文脈認識誤り訂正により,稀な単語の認識を改善することに焦点を当てた新しいASRポストプロセッシング手法を提案する。
5つのデータセットにまたがる実験結果から,提案手法は従来の手法に比べて単語誤り率(WER)が有意に低いことを示す。
論文 参考訳(メタデータ) (2023-10-08T11:40:30Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Robust Acoustic and Semantic Contextual Biasing in Neural Transducers
for Speech Recognition [14.744220870243932]
そこで本稿では,文脈バイアスを改善するために,軽量な文字表現を用いて微粒な発音特徴を符号化することを提案する。
さらに、事前学習されたニューラルネットワークモデル(NLM)をベースとしたエンコーダを統合し、発話の意味的文脈を符号化する。
Librispeechデータセット上のConformer Transducerモデルを用いた実験では、異なるバイアスリストサイズに対するWERの相対的な改善が4.62%から9.26%である。
論文 参考訳(メタデータ) (2023-05-09T08:51:44Z) - Improving Contextual Recognition of Rare Words with an Alternate
Spelling Prediction Model [0.0]
Earnings21データセットに付随するコンテキストバイアスリストをリリースします。
2つの異なる復号アルゴリズムに適用した浅層融合文脈偏差の計算結果を示す。
稀な単語のリコールを34.7%改善するスペル予測モデルを提案する。
論文 参考訳(メタデータ) (2022-09-02T19:30:16Z) - Short-Term Word-Learning in a Dynamically Changing Environment [63.025297637716534]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識するためのメカニズムを用いて、エンドツーエンドのASRシステムを補完する方法を示す。
誤報がわずかに増加しただけで, 単語の検出速度が大幅に向上した。
論文 参考訳(メタデータ) (2022-03-29T10:05:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Instant One-Shot Word-Learning for Context-Specific Neural
Sequence-to-Sequence Speech Recognition [62.997667081978825]
本稿では、単語/フレーズメモリと、このメモリにアクセスして単語やフレーズを正しく認識する機構を備えたエンドツーエンドのASRシステムを提案する。
本稿では,この機構により,これまで認識できなかった単語の85%以上を認識できることを示す。
論文 参考訳(メタデータ) (2021-07-05T21:08:34Z) - MASKER: Masked Keyword Regularization for Reliable Text Classification [73.90326322794803]
文脈に基づく予測を容易にする微調整手法であるマスク付きキーワード正規化(MASKER)を提案する。
maskerはモデルを規則化し、他の単語からキーワードを再構築し、十分な文脈なしに低信頼の予測を行う。
分類精度を低下させることなくOOD検出とクロスドメインの一般化を改善したMASKERを提案する。
論文 参考訳(メタデータ) (2020-12-17T04:54:16Z) - Fast and Robust Unsupervised Contextual Biasing for Speech Recognition [16.557586847398778]
明示的な文脈言語モデルを必要としない代替手法を提案する。
学習コーパスからシステム語彙の各単語に対するバイアススコアを導出する。
関連するコンテキストが利用できる場合,認識精度が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-05-04T17:29:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。