論文の概要: End-to-end Whispered Speech Recognition with Frequency-weighted
Approaches and Pseudo Whisper Pre-training
- arxiv url: http://arxiv.org/abs/2005.01972v2
- Date: Sun, 8 Nov 2020 06:22:36 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-06 14:25:35.620664
- Title: End-to-end Whispered Speech Recognition with Frequency-weighted
Approaches and Pseudo Whisper Pre-training
- Title(参考訳): 周波数重み付きアプローチと擬似Whisper事前学習によるエンドツーエンドWhisper音声認識
- Authors: Heng-Jui Chang, Alexander H. Liu, Hung-yi Lee, Lin-shan Lee
- Abstract要約: 発声音声のエンド・ツー・エンド(E2E)認識に対するいくつかのアプローチを提案する。
我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対的な削減を実現した。
正規または擬似発声音声で事前訓練された優れたE2Eモデルがある限り、比較的小さな発声音声は、合理的に優れたE2E発声音声認識器を得るのに十分である。
- 参考スコア(独自算出の注目度): 130.56878980058966
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whispering is an important mode of human speech, but no end-to-end
recognition results for it were reported yet, probably due to the scarcity of
available whispered speech data. In this paper, we present several approaches
for end-to-end (E2E) recognition of whispered speech considering the special
characteristics of whispered speech and the scarcity of data. This includes a
frequency-weighted SpecAugment policy and a frequency-divided CNN feature
extractor for better capturing the high-frequency structures of whispered
speech, and a layer-wise transfer learning approach to pre-train a model with
normal or normal-to-whispered converted speech then fine-tune it with whispered
speech to bridge the gap between whispered and normal speech. We achieve an
overall relative reduction of 19.8% in PER and 44.4% in CER on a relatively
small whispered TIMIT corpus. The results indicate as long as we have a good
E2E model pre-trained on normal or pseudo-whispered speech, a relatively small
set of whispered speech may suffice to obtain a reasonably good E2E whispered
speech recognizer.
- Abstract(参考訳): ささやきは人間の発話の重要なモードであるが、それに対するエンドツーエンドの認識結果はまだ報告されていない。
本稿では,ささやき音声の特殊特性とデータ不足を考慮した音声のエンド・ツー・エンド(e2e)認識手法について述べる。
これには、発声音声の高周波構造をよりよく捉えるために、周波数重み付けのスペック素片ポリシーと周波数分割cnn特徴抽出器と、通常または正常に発声された変換音声でモデルを事前学習し、それをささやき音声で微調整して、ささやき声と正常音声のギャップを橋渡しする層間伝達学習アプローチが含まれる。
我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対減少を実現した。
その結果、正常または擬似発声音声で事前訓練された良質なE2Eモデルが存在する限り、比較的小さな発声音声群は、合理的に優れたE2E発声音声認識器を得るのに十分であることが示された。
関連論文リスト
- Quartered Spectral Envelope and 1D-CNN-based Classification of Normally Phonated and Whispered Speech [0.0]
フーリエ変換のスペクトル包絡には, 正常音声におけるピッチとピッチの高調波の存在と, ささやき音声が存在しないことが明らかである。
これらの特徴を捉えるために1次元畳み込みニューラルネットワーク(1D-CNN)を提案する。
このシステムは、wTIMITデータセットでトレーニングされテストされたときに99.31%、CHAINSデータセットで100%の精度が得られる。
論文 参考訳(メタデータ) (2024-08-25T07:17:11Z) - Towards Improving NAM-to-Speech Synthesis Intelligibility using Self-Supervised Speech Models [24.943609458024596]
そこで本研究では,音声変換タスクにおける非可聴型Murmur(NAM)の信頼性を向上するための新しい手法を提案する。
本手法は, 音声合成の自己超越と音声合成に頼っている。
本手法は,Mel-Cepstral Distortion(MCD)測定値の29.08%の改善により,現在のSOTA(State-of-the-art)を上回った。
論文 参考訳(メタデータ) (2024-07-26T06:44:01Z) - Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。
そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文 参考訳(メタデータ) (2023-02-24T22:38:54Z) - ESSumm: Extractive Speech Summarization from Untranscribed Meeting [7.309214379395552]
本稿では,音声から音声への直接要約のための新しいアーキテクチャであるESSummを提案する。
市販の自己教師型畳み込みニューラルネットワークを利用して、生音声から深層音声の特徴を抽出する。
提案手法は,目的の要約長でキー情報をキャプチャする音声セグメントの最適シーケンスを自動的に予測する。
論文 参考訳(メタデータ) (2022-09-14T20:13:15Z) - Revisiting End-to-End Speech-to-Text Translation From Scratch [48.203394370942505]
E2E (End-to-end speech-to-text translation) はしばしば、音声認識やテキスト翻訳タスクを通じて、そのエンコーダおよび/またはデコーダをソース転写を用いて事前訓練することに依存する。
本稿では,音声翻訳対だけで訓練したE2E STの品質をどの程度改善できるかを考察する。
論文 参考訳(メタデータ) (2022-06-09T15:39:19Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Audio-Visual Speech Codecs: Rethinking Audio-Visual Speech Enhancement
by Re-Synthesis [67.73554826428762]
本稿では,AR/VRにおける高忠実度通信のための新しい音声・視覚音声強調フレームワークを提案する。
提案手法は音声・視覚音声の手がかりを利用してニューラル音声のコードを生成することで,ノイズ信号からクリーンでリアルな音声を効率的に合成する。
論文 参考訳(メタデータ) (2022-03-31T17:57:10Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - Injecting Text in Self-Supervised Speech Pretraining [33.676479965610774]
我々は,2つの異なるモーダル(音声とテキスト)から事前学習中の表現を共同学習することを提案する。
tts4pretrainは自己スーパービジョンにおけるコントラスト学習のパワーを補完する。
We demonstrate Word Error Rate (WER) reductions of 10% relative on the well-benchmarked, Librispeech task。
論文 参考訳(メタデータ) (2021-08-27T11:36:40Z) - Learning Explicit Prosody Models and Deep Speaker Embeddings for
Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。
韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。
変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文 参考訳(メタデータ) (2020-11-03T13:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。