論文の概要: Filter-based Discriminative Autoencoders for Children Speech Recognition
- arxiv url: http://arxiv.org/abs/2204.00164v1
- Date: Fri, 1 Apr 2022 02:18:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-05 00:07:52.073454
- Title: Filter-based Discriminative Autoencoders for Children Speech Recognition
- Title(参考訳): 子ども音声認識のためのフィルタベース判別オートエンコーダ
- Authors: Chiang-Lin Tai, Hung-Shin Lee, Yu Tsao, Hsin-Min Wang
- Abstract要約: 音響モデルのためのフィルタに基づく識別オートエンコーダを提案する。
訓練段階では、デコーダは補助情報とエンコーダによって抽出された音素埋め込みを用いる。
このフレームワークは、より正確なセノン(三声-状態)スコアを得るために、音素の埋め込みをより高めることができる。
- 参考スコア(独自算出の注目度): 25.279902171523233
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Children speech recognition is indispensable but challenging due to the
diversity of children's speech. In this paper, we propose a filter-based
discriminative autoencoder for acoustic modeling. To filter out the influence
of various speaker types and pitches, auxiliary information of the speaker and
pitch features is input into the encoder together with the acoustic features to
generate phonetic embeddings. In the training phase, the decoder uses the
auxiliary information and the phonetic embedding extracted by the encoder to
reconstruct the input acoustic features. The autoencoder is trained by
simultaneously minimizing the ASR loss and feature reconstruction error. The
framework can make the phonetic embedding purer, resulting in more accurate
senone (triphone-state) scores. Evaluated on the test set of the CMU Kids
corpus, our system achieves a 7.8% relative WER reduction compared to the
baseline system. In the domain adaptation experiment, our system also
outperforms the baseline system on the British-accent PF-STAR task.
- Abstract(参考訳): 子どもの音声認識は不可欠だが、子供の発話の多様性のために困難である。
本稿では,音響モデルのためのフィルタベース判別オートエンコーダを提案する。
様々な話者の種類やピッチの影響を除去するために、音響的特徴とともにエンコーダに話者やピッチの特徴の補助情報を入力し、音声的埋め込みを生成する。
訓練段階では、デコーダは補助情報とエンコーダによって抽出された音素埋め込みを用いて入力音響特徴を再構成する。
オートエンコーダは、ASR損失と特徴再構成誤差を同時に最小化して訓練される。
このフレームワークは音韻埋め込みを純粋にし、結果としてより正確なセノン(triphone-state)スコアが得られる。
CMUキッズコーパスのテストセットに基づいて,本システムはベースラインシステムと比較して7.8%のWER削減を実現している。
また,ドメイン適応実験において,本システムは,英知PF-STARタスクのベースラインシステムよりも優れていた。
関連論文リスト
- Codec-ASR: Training Performant Automatic Speech Recognition Systems with Discrete Speech Representations [16.577870835480585]
本稿では、離散符号を用いたASRシステム構築に関する総合的な分析を行う。
本稿では,量子化スキームや時間領域,スペクトル特徴符号化などの異なる手法について検討する。
同様のビットレートでEncodecを上回るパイプラインを導入する。
論文 参考訳(メタデータ) (2024-07-03T20:51:41Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - DiariST: Streaming Speech Translation with Speaker Diarization [53.595990270899414]
本稿では,最初のストリーミングSTとSDソリューションであるDiariSTを提案する。
ニューラルトランスデューサベースのストリーミングSTシステム上に構築され、トークンレベルのシリアライズされた出力トレーニングとtベクタを統合している。
重なり合う音声のストリーミング推論を行いながら,Whisperに基づくオフラインシステムと比較して強いSTとSD能力を実現する。
論文 参考訳(メタデータ) (2023-09-14T19:33:27Z) - End-to-End Binaural Speech Synthesis [71.1869877389535]
本稿では,低ビットレート音声システムと強力なデコーダを組み合わせたエンドツーエンド音声合成システムを提案する。
実感的な聴覚シーンを作るために必要な環境効果を捉える上で, 対人的損失がもたらす効果を実証する。
論文 参考訳(メタデータ) (2022-07-08T05:18:36Z) - Enhancing Zero-Shot Many to Many Voice Conversion with Self-Attention
VAE [8.144263449781967]
変分自動エンコーダ(VAE)は、音声の発声を話者識別と言語内容の潜伏埋め込みに分解する有効なニューラルネットワークアーキテクチャである。
本研究では,VAEのデコーダの適切な位置から,変換音声を生成する際に,非局所情報を組み込む自己アテンション層を付加した。
論文 参考訳(メタデータ) (2022-03-30T03:52:42Z) - On the Impact of Word Error Rate on Acoustic-Linguistic Speech Emotion
Recognition: An Update for the Deep Learning Era [0.0]
3つの現代のASRシステムを適用することで、元のスピーチから転写文を作成します。
音響音声機能の抽出と学習には、openSMILE、openXBoW、DeepSpectrum、auDeepを利用します。
IEMOCAPのスピーカーに依存しない開発およびテストパーティションで、最先端の非重み付き平均リコール値73.6,%$と73.8,%$を達成します。
論文 参考訳(メタデータ) (2021-04-20T17:10:01Z) - Improving Accent Conversion with Reference Encoder and End-To-End
Text-To-Speech [23.30022534796909]
アクセント変換(AC)は、話者の声の音色を維持しながら、非ネイティブ話者のアクセントをネイティブアクセントに変換する。
本稿では,アクセント変換の適用性の向上と品質向上のためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-05-19T08:09:58Z) - Multi-task self-supervised learning for Robust Speech Recognition [75.11748484288229]
本稿では,雑音および残響環境下での頑健な音声認識のためのPASE+を提案する。
我々は、様々なランダムな乱れで入力信号を汚染するオンライン音声歪みモジュールを用いる。
次に,再帰型ネットワークと畳み込み型ネットワークを効率よく組み合わせて,短時間および長期の音声力学をよりよく学習する改良型エンコーダを提案する。
論文 参考訳(メタデータ) (2020-01-25T00:24:45Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。