論文の概要: Voice Quality and Pitch Features in Transformer-Based Speech Recognition
- arxiv url: http://arxiv.org/abs/2112.11391v1
- Date: Tue, 21 Dec 2021 17:49:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-22 14:41:18.600371
- Title: Voice Quality and Pitch Features in Transformer-Based Speech Recognition
- Title(参考訳): 変圧器に基づく音声認識における音声品質とピッチ特性
- Authors: Guillermo C\'ambara, Jordi Luque, Mireia Farr\'us
- Abstract要約: 本研究では,トランスフォーマーに基づくASRモデルに対して,音声品質とピッチ特徴を完全かつ個別に取り入れることの効果について検討した。
We found mean Word Error Rate relative reductions to up 5.6% with the LibriSpeech benchmark。
- 参考スコア(独自算出の注目度): 3.921076451326107
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Jitter and shimmer measurements have shown to be carriers of voice quality
and prosodic information which enhance the performance of tasks like speaker
recognition, diarization or automatic speech recognition (ASR). However, such
features have been seldom used in the context of neural-based ASR, where
spectral features often prevail. In this work, we study the effects of
incorporating voice quality and pitch features altogether and separately to a
Transformer-based ASR model, with the intuition that the attention mechanisms
might exploit latent prosodic traits. For doing so, we propose separated
convolutional front-ends for prosodic and spectral features, showing that this
architectural choice yields better results than simple concatenation of such
pitch and voice quality features to mel-spectrogram filterbanks. Furthermore,
we find mean Word Error Rate relative reductions of up to 5.6% with the
LibriSpeech benchmark. Such findings motivate further research on the
application of prosody knowledge for increasing the robustness of
Transformer-based ASR.
- Abstract(参考訳): ジッターとシマーの測定は、話者認識、ダイアリゼーション、自動音声認識(ASR)といったタスクの性能を高める音声品質と韻律情報のキャリアであることが示されている。
しかし、これらの特徴は、しばしばスペクトル特徴が普及する神経ベースのASRの文脈ではほとんど使われていない。
本研究では,音声品質とピッチ特性をトランスフォーマティブ型asrモデルと別々に統合することで,注意機構が潜在性韻律的特徴を生かす可能性があることを直観的に検討する。
そこで本研究では,韻律的特徴とスペクトル的特徴の分離された畳み込みフロントエンドを提案し,このアーキテクチャ選択はメル・スペクトログラムフィルタバンクへのピッチと音声品質の単純な結合よりもよい結果をもたらすことを示す。
さらに,librispeechベンチマークでは平均単語誤り率の相対的低下が最大5.6%であった。
これらの知見は、トランスフォーマーベースのASRの堅牢性を高めるための韻律知識の応用に関するさらなる研究を動機付けている。
関連論文リスト
- Speculative Speech Recognition by Audio-Prefixed Low-Rank Adaptation of Language Models [21.85677682584916]
投機的音声認識(SSR)
本稿では、RNN-Transducer-based ASRシステムと音声処理言語モデル(LM)を組み合わせたSSRモデルを提案する。
論文 参考訳(メタデータ) (2024-07-05T16:52:55Z) - Exploring the Integration of Speech Separation and Recognition with
Self-Supervised Learning Representation [83.36685075570232]
本研究は,ASRフロントエンドとしての残響・雑音・残響シナリオにおける音声分離に関する洞察に富んだ研究である。
我々は,マルチチャネル分離法,マスクベースのビームフォーミング,複雑なスペクトルマッピング,およびASRバックエンドモデルで使用する最良の特徴について検討する。
TF-GridNetベースの複素スペクトルマッピングとWavLMベースのSSLRを併用することで、残響WHAMRテストセットにおいて2.5%のワードエラー率が得られる。
論文 参考訳(メタデータ) (2023-07-23T05:39:39Z) - Audio-Visual Speech Enhancement with Score-Based Generative Models [22.559617939136505]
本稿では,スコアベース生成モデルを利用した音声・視覚音声強調システムを提案する。
我々は,リップリーディングを微調整した自己超視的学習モデルから得られる音声-視覚的埋め込みを利用する。
実験により,提案した音声・視覚音声強調システムにより,音声の質が向上することが確認された。
論文 参考訳(メタデータ) (2023-06-02T10:43:42Z) - PAAPLoss: A Phonetic-Aligned Acoustic Parameter Loss for Speech
Enhancement [41.872384434583466]
知覚品質の違いを形式化する学習目標を提案する。
微分不可能な時間的音響パラメータを同定する。
時系列値を正確に予測できるニューラルネットワーク推定器を開発した。
論文 参考訳(メタデータ) (2023-02-16T05:17:06Z) - Similarity and Content-based Phonetic Self Attention for Speech
Recognition [16.206467862132012]
提案する音韻自己注意(phSA)は2種類の音韻的注意から成り立っている。
原点製品のどの部分が2つの異なる注意パターンと関連しているかを特定し、簡単な修正によって各部分を改善する。
音素分類と音声認識実験により,低層化において,SA を phSA に置き換えることにより,遅延やパラメータサイズを増大させることなく,音声認識性能が向上することが示された。
論文 参考訳(メタデータ) (2022-03-19T05:35:26Z) - Advanced Long-context End-to-end Speech Recognition Using
Context-expanded Transformers [56.56220390953412]
コンフォーメータアーキテクチャを導入することで、精度をさらに向上させ、以前の作業を拡張します。
拡張トランスフォーマーは、最先端のエンドツーエンドのASR性能を提供する。
論文 参考訳(メタデータ) (2021-04-19T16:18:00Z) - High Fidelity Speech Regeneration with Application to Speech Enhancement [96.34618212590301]
本稿では,24khz音声をリアルタイムに生成できる音声のwav-to-wav生成モデルを提案する。
音声変換法に着想を得て,音源の同一性を保ちながら音声特性を増強する訓練を行った。
論文 参考訳(メタデータ) (2021-01-31T10:54:27Z) - Gated Recurrent Fusion with Joint Training Framework for Robust
End-to-End Speech Recognition [64.9317368575585]
本稿では,ロバスト・エンド・ツー・エンドASRのためのジョイント・トレーニング・フレームワークを用いたゲート・リカレント・フュージョン(GRF)法を提案する。
GRFアルゴリズムはノイズと拡張された特徴を動的に組み合わせるために使用される。
提案手法は従来の関節強化・変圧器法に比べて10.04%の相対的文字誤り率(CER)低減を実現する。
論文 参考訳(メタデータ) (2020-11-09T08:52:05Z) - Any-to-Many Voice Conversion with Location-Relative Sequence-to-Sequence
Modeling [61.351967629600594]
本稿では,非並列音声変換手法である非並列音声変換法(seq2seq)を提案する。
本手法では,ボトルネック特徴抽出器(BNE)とセック2セック合成モジュールを組み合わせる。
主観的および主観的評価は,提案手法が自然性と話者類似性の両方において優れた音声変換性能を有することを示す。
論文 参考訳(メタデータ) (2020-09-06T13:01:06Z) - Weak-Attention Suppression For Transformer Based Speech Recognition [33.30436927415777]
Weak-Attention Suppression (WAS) を提案する。
We demonstrate that WAS leads to consistent Word Error Rate (WER) improve over strong transformer baselines。
論文 参考訳(メタデータ) (2020-05-18T23:49:40Z) - Audio Impairment Recognition Using a Correlation-Based Feature
Representation [85.08880949780894]
本稿では,特徴対の相関に基づく手作り特徴の新しい表現を提案する。
実験段階において,コンパクトな特徴次元と計算速度の向上の観点から,優れた性能を示す。
論文 参考訳(メタデータ) (2020-03-22T13:34:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。