論文の概要: Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition
- arxiv url: http://arxiv.org/abs/2010.16368v4
- Date: Tue, 20 Apr 2021 13:05:56 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 17:02:22.720940
- Title: Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition
- Title(参考訳): 大語彙音声認識のための音素ベースニューラルトランスデューサ
- Authors: Wei Zhou and Simon Berger and Ralf Schl\"uter and Hermann Ney
- Abstract要約: 本稿では,音素に基づくニューラルトランスデューサモデリングのための,シンプルで斬新で競争力のあるアプローチを提案する。
1つの音の文脈サイズは、最高の演奏に十分であることを示す。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
- 参考スコア(独自算出の注目度): 41.92991390542083
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To join the advantages of classical and end-to-end approaches for speech
recognition, we present a simple, novel and competitive approach for
phoneme-based neural transducer modeling. Different alignment label topologies
are compared and word-end-based phoneme label augmentation is proposed to
improve performance. Utilizing the local dependency of phonemes, we adopt a
simplified neural network structure and a straightforward integration with the
external word-level language model to preserve the consistency of seq-to-seq
modeling. We also present a simple, stable and efficient training procedure
using frame-wise cross-entropy loss. A phonetic context size of one is shown to
be sufficient for the best performance. A simplified scheduled sampling
approach is applied for further improvement and different decoding approaches
are briefly compared. The overall performance of our best model is comparable
to state-of-the-art (SOTA) results for the TED-LIUM Release 2 and Switchboard
corpora.
- Abstract(参考訳): 本稿では,音素に基づくニューラルトランスデューサモデリングにおいて,従来型およびエンドツーエンドの音声認識手法の利点を活かし,シンプルで斬新で競争力のある手法を提案する。
異なるアライメントラベルトポロジを比較し, 語末に基づく音素ラベル拡張を提案し, 性能向上を図る。
音素の局所的依存を利用して,ニューラルネットワーク構造を単純化し,外部単語レベルの言語モデルと直接統合することで,seq-to-seqモデリングの一貫性を維持する。
また,フレームワイドクロスエントロピー損失を用いた簡易かつ安定かつ効率的なトレーニング手法を提案する。
音素のコンテキストサイズは、最高のパフォーマンスに十分であることが示される。
簡略化されたサンプリング手法を改良に応用し、異なる復号法を簡潔に比較する。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
関連論文リスト
- Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - Cross-modal Audio-visual Co-learning for Text-independent Speaker
Verification [55.624946113550195]
本稿では,モーダルな発話協調学習パラダイムを提案する。
モーダル変換相関を学習するために、2つのクロスモーダルブースターを導入する。
LRSLip3, GridLip, LomGridLip, VoxLip を用いた実験の結果,提案手法は平均相対性能を60%, 20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-02-22T10:06:37Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Context-Dependent Acoustic Modeling without Explicit Phone Clustering [45.07737874541304]
音素に基づく大語彙自動音声認識の音響モデリングは,音素文脈を利用する。
本研究では,ハイブリッドディープニューラルネットワーク(DNN/HMM)の直接音声コンテキストモデリングについて述べる。
中心音素状態とその左右の文脈の結合確率の異なる分解を行うことにより、異なる成分からなる分解ネットワークを得る。
論文 参考訳(メタデータ) (2020-05-15T14:45:32Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z) - Phoneme Boundary Detection using Learnable Segmental Features [31.203969460341817]
音素境界検出は様々な音声処理アプリケーションにおいて重要な第一歩となる。
本稿では,音素境界検出タスクのセグメント表現を学習するために,パラメータ化された構造的損失関数と結合したニューラルアーキテクチャを提案する。
論文 参考訳(メタデータ) (2020-02-11T14:03:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。