論文の概要: Convolutional Speech Recognition with Pitch and Voice Quality Features
- arxiv url: http://arxiv.org/abs/2009.01309v2
- Date: Tue, 10 Nov 2020 11:37:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-22 19:02:06.216444
- Title: Convolutional Speech Recognition with Pitch and Voice Quality Features
- Title(参考訳): ピッチと音声品質を考慮した畳み込み音声認識
- Authors: Guillermo C\'ambara, Jordi Luque and Mireia Farr\'us
- Abstract要約: 音声認識のための最先端CNNモデルに対して,ジッタやシマなどのピッチや音質特性を付加する効果について検討した。
一般に公開されているスパニッシュ・コモン・ボイスとLibriSpeech 100hデータセットに対して、最大7%と3%の相対的なWERポイントの改善を示す。
我々は、Facebookのwav2letter音声認識フレームワークにピッチと音声品質機能を追加しました。
- 参考スコア(独自算出の注目度): 2.7759072740347017
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The effects of adding pitch and voice quality features such as jitter and
shimmer to a state-of-the-art CNN model for Automatic Speech Recognition are
studied in this work. Pitch features have been previously used for improving
classical HMM and DNN baselines, while jitter and shimmer parameters have
proven to be useful for tasks like speaker or emotion recognition. Up to our
knowledge, this is the first work combining such pitch and voice quality
features with modern convolutional architectures, showing improvements up to 7%
and 3% relative WER points, for the publicly available Spanish Common Voice and
LibriSpeech 100h datasets, respectively. Particularly, our work combines these
features with mel-frequency spectral coefficients (MFSCs) to train a
convolutional architecture with Gated Linear Units (Conv GLUs). Such models
have shown to yield small word error rates, while being very suitable for
parallel processing for online streaming recognition use cases. We have added
pitch and voice quality functionality to Facebook's wav2letter speech
recognition framework, and we provide with such code and recipes to the
community, to carry on with further experiments. Besides, to the best of our
knowledge, our Spanish Common Voice recipe is the first public Spanish recipe
for wav2letter.
- Abstract(参考訳): 本研究は、自動音声認識のための最先端cnnモデルに、ピッチやjitterやshimmerなどの音声品質特性を加えることによる効果について検討した。
ピッチ機能は従来、古典的なhmmやdnnベースラインの改善に用いられてきたが、jitterやshimmerパラメータは話者や感情認識といったタスクに有用であることが証明されている。
私たちの知る限り、このようなピッチと音声品質の機能を現代的な畳み込みアーキテクチャと組み合わせた最初の作品であり、それぞれ公開のスペイン語共通音声データセットとLibriSpeech 100hデータセットに対して、7%と3%の相対的なWERポイントが改善されている。
特に,これらの特徴をメル周波数スペクトル係数(MFSC)と組み合わせて,Gated Linear Units(Conv GLUs)を用いた畳み込み構造を学習する。
このようなモデルは少ない単語誤り率を示し、オンラインストリーミング認識のユースケースでは並列処理に非常に適している。
我々は、facebookのwav2letter音声認識フレームワークにピッチと音声品質機能を追加し、さらに実験を続けるために、そのようなコードとレシピをコミュニティに提供する。
さらに、私たちの知る限りでは、スペイン語の共通音声レシピはwav2letterの最初の公開スペイン語レシピです。
関連論文リスト
- Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech [0.0]
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき音声が存在しないことが明らかである。
これらの特徴を捉えるために1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
論文 参考訳(メタデータ) (2024-08-25T07:17:11Z) - Non-autoregressive real-time Accent Conversion model with voice cloning [0.0]
我々は音声クローンを用いたリアルタイムアクセント変換のための非自己回帰モデルを開発した。
このモデルは入力L2音声に基づいて最小レイテンシでネイティブなL1音声を生成する。
このモデルは、話者の声の音色、性別、アクセントをリアルタイムで保存し、クローンし、変更することができる。
論文 参考訳(メタデータ) (2024-05-21T19:07:26Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - Voxtlm: unified decoder-only models for consolidating speech
recognition/synthesis and speech/text continuation tasks [61.3055230762097]
音声認識,音声合成,テキスト生成,音声継続の4つのタスクを実行できるデコーダのみの言語モデルであるVoxtLMを提案する。
VoxtLMは、テキスト語彙を自己教師付き音声特徴から独立した音声トークンと統合し、マルチタスク学習を可能にするために特別なトークンを使用する。
論文 参考訳(メタデータ) (2023-09-14T03:13:18Z) - Disentangled Feature Learning for Real-Time Neural Speech Coding [24.751813940000993]
本稿では,視覚的なエンドツーエンド学習の代わりに,リアルタイムなニューラル音声符号化のための非絡み合った特徴を学習することを提案する。
学習された不整合特徴は、現代の自己教師付き音声表現学習モデルを用いて、任意の音声変換において同等の性能を示す。
論文 参考訳(メタデータ) (2022-11-22T02:50:12Z) - LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders [53.30016986953206]
雑音の多い音声・視覚音声からのメルスペクトルをトランスフォーマーベースアーキテクチャにより予測する2段階のアプローチであるLA-VocEを提案する。
我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。
論文 参考訳(メタデータ) (2022-11-20T15:27:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - Voice Quality and Pitch Features in Transformer-Based Speech Recognition [3.921076451326107]
本研究では,トランスフォーマーに基づくASRモデルに対して,音声品質とピッチ特徴を完全かつ個別に取り入れることの効果について検討した。
We found mean Word Error Rate relative reductions to up 5.6% with the LibriSpeech benchmark。
論文 参考訳(メタデータ) (2021-12-21T17:49:06Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - End-to-end Audio-visual Speech Recognition with Conformers [65.30276363777514]
ResNet-18とConvolution-augmented Transformer(Conformer)に基づくハイブリッドCTC/Attentionモデルを提案する。
特に、オーディオおよびビジュアルエンコーダは、生のピクセルとオーディオ波形から直接特徴を抽出することを学びます。
提案手法は, 音声のみ, 視覚のみ, および視聴覚実験において, 最先端の性能を高めることを実証する。
論文 参考訳(メタデータ) (2021-02-12T18:00:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。