論文の概要: Self-consistent context aware conformer transducer for speech recognition
- arxiv url: http://arxiv.org/abs/2402.06592v2
- Date: Thu, 03 Oct 2024 22:05:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-07 15:06:38.208070
- Title: Self-consistent context aware conformer transducer for speech recognition
- Title(参考訳): 音声認識のための自己一致型文脈認識コンバータ変換器
- Authors: Konstantin Kolokolov, Pavel Pekichev, Karthik Raghunathan,
- Abstract要約: ニューラルネットワークアーキテクチャにおいて、再帰的なデータフローを順応的に処理する新しいニューラルネットワークモジュールを導入する。
本手法は, 単語誤り率に悪影響を及ぼすことなく, 稀な単語の認識精度を向上させる。
その結果,両手法の組み合わせにより,まれな単語を最大4.5倍の精度で検出できることが判明した。
- 参考スコア(独自算出の注目度): 0.06008132390640294
- License:
- Abstract: We introduce a novel neural network module that adeptly handles recursive data flow in neural network architectures. At its core, this module employs a self-consistent approach where a set of recursive equations is solved iteratively, halting when the difference between two consecutive iterations falls below a defined threshold. Leveraging this mechanism, we construct a new neural network architecture, an extension of the conformer transducer, which enriches automatic speech recognition systems with a stream of contextual information. Our method notably improves the accuracy of recognizing rare words without adversely affecting the word error rate for common vocabulary. We investigate the improvement in accuracy for these uncommon words using our novel model, both independently and in conjunction with shallow fusion with a context language model. Our findings reveal that the combination of both approaches can improve the accuracy of detecting rare words by as much as 4.5 times. Our proposed self-consistent recursive methodology is versatile and adaptable, compatible with many recently developed encoders, and has the potential to drive model improvements in speech recognition and beyond.
- Abstract(参考訳): ニューラルネットワークアーキテクチャにおいて、再帰的なデータフローを順応的に処理する新しいニューラルネットワークモジュールを導入する。
このモジュールの中核は、再帰方程式の集合を反復的に解き、連続する2つの反復の差が定義しきい値を下回ると停止する自己一貫性のアプローチである。
このメカニズムを活用することで、コンバータ変換器の拡張であるニューラルネットワークアーキテクチャを構築し、文脈情報の流れで音声認識システムを強化します。
本手法は, 単語誤り率に悪影響を及ぼすことなく, 稀な単語の認識精度を向上させる。
文脈言語モデルを用いた浅層融合モデルと独立・併用した新しいモデルを用いて,これらの不一般的な単語の精度向上について検討した。
その結果,両手法を組み合わせることで,まれな単語を最大4.5倍の精度で検出できることが判明した。
提案する自己整合性再帰的手法は汎用的で適応性が高く,最近開発された多くのエンコーダと互換性があり,音声認識等のモデル改善を推進できる可能性がある。
関連論文リスト
- Continuously Learning New Words in Automatic Speech Recognition [56.972851337263755]
本稿では,新たな単語認識のための自己教師付き連続学習手法を提案する。
過去の研究から,メモリ拡張型自動音声認識モデルを用いた。
提案手法により,新たな単語の出現頻度が高くなると,新たな単語のパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2024-01-09T10:39:17Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - The neural dynamics of auditory word recognition and integration [21.582292050622456]
本稿では,この知覚過程をベイズ決定理論で定式化する単語認識の計算モデルを提案する。
我々は,このモデルを用いて,架空の物語を受動的に聴いた被験者が記録した頭皮脳波信号を説明する。
このモデルは、単語が素早く認識できるかどうかに応じて、単語の異なるニューラル処理を明らかにする。
論文 参考訳(メタデータ) (2023-05-22T18:06:32Z) - Surrogate Gradient Spiking Neural Networks as Encoders for Large
Vocabulary Continuous Speech Recognition [91.39701446828144]
スパイクニューラルネットワークは, 代理勾配法を用いて, 通常のリカレントニューラルネットワークのように訓練可能であることを示す。
彼らは音声コマンド認識タスクについて有望な結果を示した。
繰り返し発生する非スパイキングとは対照的に、ゲートを使わずに爆発する勾配問題に対して堅牢性を示す。
論文 参考訳(メタデータ) (2022-12-01T12:36:26Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Word-level confidence estimation for RNN transducers [7.12355127219356]
本稿では、リカレント・ネットワーク・トランスデューサ(RNN-T)を用いた音声認識(ASR)システムに適した軽量神経信頼モデルを提案する。
他の既存手法と比較して,本モデルは, (a) 認識された単語に関連付けられた時間情報を用いて計算複雑性を低減し, (b) サブワードと単語列をマッピングするためのシンプルでエレガントなトリックを利用する。
論文 参考訳(メタデータ) (2021-09-28T18:38:00Z) - Position-Invariant Truecasing with a Word-and-Character Hierarchical
Recurrent Neural Network [10.425277173548212]
本稿では,高速で高精度でコンパクトな2階層型単語と文字に基づくリカレントニューラルネットワークモデルを提案する。
また,文中のトークンの位置を無視しながら,真偽化の問題にも対処する。
論文 参考訳(メタデータ) (2021-08-26T17:54:35Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Mechanisms for Handling Nested Dependencies in Neural-Network Language
Models and Humans [75.15855405318855]
我々は,「深層学習」手法で訓練された現代人工ニューラルネットワークが,人間の文処理の中心的な側面を模倣するかどうかを検討した。
ネットワークは、大きなコーパスで次の単語を予測するためにのみ訓練されたが、分析の結果、局所的および長距離の構文合意をうまく処理する特別なユニットが出現した。
我々は,複数の名詞の単数/複数状態における体系的な変化を伴う文中の数一致の違反を人間が検出する行動実験において,モデルの予測を検証した。
論文 参考訳(メタデータ) (2020-06-19T12:00:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。