論文の概要: Context-Dependent Acoustic Modeling without Explicit Phone Clustering
- arxiv url: http://arxiv.org/abs/2005.07578v2
- Date: Wed, 7 Apr 2021 12:32:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-02 23:44:32.440672
- Title: Context-Dependent Acoustic Modeling without Explicit Phone Clustering
- Title(参考訳): 明示的電話クラスタリングを伴わない文脈依存音響モデル
- Authors: Tina Raissi, Eugen Beck, Ralf Schl\"uter, Hermann Ney
- Abstract要約: 音素に基づく大語彙自動音声認識の音響モデリングは,音素文脈を利用する。
本研究では,ハイブリッドディープニューラルネットワーク(DNN/HMM)の直接音声コンテキストモデリングについて述べる。
中心音素状態とその左右の文脈の結合確率の異なる分解を行うことにより、異なる成分からなる分解ネットワークを得る。
- 参考スコア(独自算出の注目度): 45.07737874541304
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Phoneme-based acoustic modeling of large vocabulary automatic speech
recognition takes advantage of phoneme context. The large number of
context-dependent (CD) phonemes and their highly varying statistics require
tying or smoothing to enable robust training. Usually, classification and
regression trees are used for phonetic clustering, which is standard in hidden
Markov model (HMM)-based systems. However, this solution introduces a secondary
training objective and does not allow for end-to-end training. In this work, we
address a direct phonetic context modeling for the hybrid deep neural network
(DNN)/HMM, that does not build on any phone clustering algorithm for the
determination of the HMM state inventory. By performing different
decompositions of the joint probability of the center phoneme state and its
left and right contexts, we obtain a factorized network consisting of different
components, trained jointly. Moreover, the representation of the phonetic
context for the network relies on phoneme embeddings. The recognition accuracy
of our proposed models on the Switchboard task is comparable and outperforms
slightly the hybrid model using the standard state-tying decision trees.
- Abstract(参考訳): 音素に基づく大語彙自動音声認識の音響モデリングは,音素文脈を利用する。
多くの文脈依存(cd)音素とその高度に変化する統計は、堅牢なトレーニングを可能にするために結合または平滑化を必要とする。
通常、分類と回帰木は、隠れマルコフモデル(HMM)ベースのシステムで標準的な音声クラスタリングに使用される。
しかし、このソリューションは二次的なトレーニング目標を導入し、エンドツーエンドのトレーニングを許可しない。
本研究では,HMM状態インベントリを決定するためのクラスタリングアルゴリズムを一切構築しないハイブリッドディープニューラルネットワーク(DNN)/HMMの直接音声コンテキストモデリングについて述べる。
中心音素状態とその左右の文脈の結合確率の異なる分解を行うことにより、異なる成分からなる因子化ネットワークを得る。
さらに、ネットワークにおける音韻文脈の表現は、音素埋め込みに依存する。
スイッチボードタスクにおける提案モデルの認識精度は同等であり,標準状態型決定木を用いたハイブリッドモデルよりも若干優れている。
関連論文リスト
- The OCON model: an old but green solution for distributable supervised classification for acoustic monitoring in smart cities [0.28675177318965045]
本稿では,音声認識領域における母音音素分類と話者認識について述べる。
われわれのケーススタディでは、ASRモデルは独自のセンシングと稲妻システムで動作し、都市部における大気汚染の監視に利用されている。
情報グリッド探索手法を用いて,疑似ニューラルアーキテクチャ探索とハイパースチューニング実験の組み合わせを形式化し,現在最も複雑なアーキテクチャに匹敵する分類精度を実現する。
論文 参考訳(メタデータ) (2024-10-05T09:47:54Z) - Improved Contextual Recognition In Automatic Speech Recognition Systems
By Semantic Lattice Rescoring [4.819085609772069]
本稿では,意味的格子処理によるASRシステム内における文脈認識の高度化のための新しい手法を提案する。
提案手法は,隠れマルコフモデルとガウス混合モデル(HMM-GMM)とディープニューラルネットワーク(DNN)モデルを用いて,精度を向上する。
本稿では,実験分析によるLibriSpeechデータセット上でのフレームワークの有効性を示す。
論文 参考訳(メタデータ) (2023-10-14T23:16:05Z) - Continual Learning for On-Device Speech Recognition using Disentangled
Conformers [54.32320258055716]
本稿では,LibriVoxオーディオブックから派生した話者固有領域適応のための連続学習ベンチマークを提案する。
本稿では,DistangledCLと呼ばれる計算効率のよい連続学習アルゴリズムを提案する。
実験の結果, DisConformer モデルは一般的な ASR のベースラインよりも有意に優れていた。
論文 参考訳(メタデータ) (2022-12-02T18:58:51Z) - Bridging Speech and Textual Pre-trained Models with Unsupervised ASR [70.61449720963235]
この研究は、音声とテキストによる事前学習モデルを結ぶ、シンプルで効率的な教師なしのパラダイムを提案する。
教師なし自動音声認識(ASR)は、音声自己教師モデルから表現を改善することができることを示す。
特に、音声による質問応答では、挑戦的なNMSQAベンチマークよりも最先端の結果に到達しています。
論文 参考訳(メタデータ) (2022-11-06T04:50:37Z) - A Correspondence Variational Autoencoder for Unsupervised Acoustic Word
Embeddings [50.524054820564395]
そこで本稿では,変数分割音声セグメントを固定次元表現にマッピングするための教師なしモデルを提案する。
結果として得られる音響単語の埋め込みは、低リソース言語とゼロリソース言語のための検索、発見、インデックスシステムの基礎を形成することができる。
論文 参考訳(メタデータ) (2020-12-03T19:24:42Z) - Phoneme Based Neural Transducer for Large Vocabulary Speech Recognition [41.92991390542083]
本稿では,音素に基づくニューラルトランスデューサモデリングのための,シンプルで斬新で競争力のあるアプローチを提案する。
1つの音の文脈サイズは、最高の演奏に十分であることを示す。
我々の最高のモデル全体の性能はTED-Lium Release 2 と Switchboard corpora の State-of-the-art (SOTA) 結果に匹敵する。
論文 参考訳(メタデータ) (2020-10-30T16:53:29Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - AutoSpeech: Neural Architecture Search for Speaker Recognition [108.69505815793028]
本稿では,AutoSpeech という名称の話者認識タスクに対して,最初のニューラルアーキテクチャ探索アプローチを提案する。
提案アルゴリズムはまず,ニューラルネットワークの最適操作の組み合わせを特定し,その後,複数回重ねてCNNモデルを導出する。
得られたCNNアーキテクチャは,モデル複雑性を低減しつつ,VGG-M,ResNet-18,ResNet-34のバックボーンに基づく現在の話者認識システムよりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-05-07T02:53:47Z) - Statistical Context-Dependent Units Boundary Correction for Corpus-based
Unit-Selection Text-to-Speech [1.4337588659482519]
本稿では, 分割の精度を向上させるために, 単位選択テキスト音声(TTS)システムに適用するための, 話者適応のための革新的な手法を提案する。
従来の話者適応手法とは違って,言語分析手法を応用した文脈依存特性のみの利用を目標としている。
論文 参考訳(メタデータ) (2020-03-05T12:42:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。