論文の概要: Self-consistent context aware conformer transducer for speech
recognition
- arxiv url: http://arxiv.org/abs/2402.06592v1
- Date: Fri, 9 Feb 2024 18:12:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-12 15:50:50.469438
- Title: Self-consistent context aware conformer transducer for speech
recognition
- Title(参考訳): 音声認識のための自己整合型コンフォメータトランスデューサ
- Authors: Konstantin Kolokolov, Pavel Pekichev, Karthik Raghunathan
- Abstract要約: 本研究では,コンバータトランスデューサをベースとした新しいニューラルネットワークアーキテクチャを提案する。
本手法は,通常の単語の単語誤り率を損なうことなく,非一般的な単語を認識する精度を向上させる。
- 参考スコア(独自算出の注目度): 0.0675253870287079
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose a novel neural network architecture based on conformer transducer
that adds contextual information flow to the ASR systems. Our method improves
the accuracy of recognizing uncommon words while not harming the word error
rate of regular words. We explore the uncommon words accuracy improvement when
we use the new model and/or shallow fusion with context language model. We
found that combination of both provides cumulative gain in uncommon words
recognition accuracy.
- Abstract(参考訳): 本稿では,文脈情報フローをasrシステムに付加するコンフォーメータトランスデューサに基づくニューラルネットワークアーキテクチャを提案する。
本手法は、通常の単語の単語誤り率を損なうことなく、まれな単語を認識できる精度を向上させる。
我々は,新しいモデルや文脈言語モデルとの浅い融合を用いた場合の単語精度の向上について検討する。
その結果, 単語認識精度は, 両者の組み合わせが累積的に向上することがわかった。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - The neural dynamics of auditory word recognition and integration [21.582292050622456]
本稿では,この知覚過程をベイズ決定理論で定式化する単語認識の計算モデルを提案する。
我々は,このモデルを用いて,架空の物語を受動的に聴いた被験者が記録した頭皮脳波信号を説明する。
このモデルは、単語が素早く認識できるかどうかに応じて、単語の異なるニューラル処理を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T18:06:32Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Word-level confidence estimation for RNN transducers [7.12355127219356]
本稿では、リカレント・ネットワーク・トランスデューサ(RNN-T)を用いた音声認識(ASR)システムに適した軽量神経信頼モデルを提案する。
他の既存手法と比較して,本モデルは, (a) 認識された単語に関連付けられた時間情報を用いて計算複雑性を低減し, (b) サブワードと単語列をマッピングするためのシンプルでエレガントなトリックを利用する。
論文 参考訳(メタデータ) (2021-09-28T18:38:00Z) - Position-Invariant Truecasing with a Word-and-Character Hierarchical
Recurrent Neural Network [10.425277173548212]
本稿では,高速で高精度でコンパクトな2階層型単語と文字に基づくリカレントニューラルネットワークモデルを提案する。
また,文中のトークンの位置を無視しながら,真偽化の問題にも対処する。
論文 参考訳(メタデータ) (2021-08-26T17:54:35Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。