論文の概要: PhasePerturbation: Speech Data Augmentation via Phase Perturbation for
Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2312.08571v1
- Date: Wed, 13 Dec 2023 23:46:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-16 00:34:53.685978
- Title: PhasePerturbation: Speech Data Augmentation via Phase Perturbation for
Automatic Speech Recognition
- Title(参考訳): phaseperturbation: phase perturbationによる自動音声認識のための音声データ拡張
- Authors: Chengxi Lei, Satwinder Singh, Feng Hou, Xiaoyun Jia, Ruili Wang
- Abstract要約: 本稿では、位相摂動と呼ばれる新しい音声データ拡張手法を提案する。
位相摂動は音声の位相スペクトル上で動的に動作する。
- 参考スコア(独自算出の注目度): 22.322528334591134
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Most of the current speech data augmentation methods operate on either the
raw waveform or the amplitude spectrum of speech. In this paper, we propose a
novel speech data augmentation method called PhasePerturbation that operates
dynamically on the phase spectrum of speech. Instead of statically rotating a
phase by a constant degree, PhasePerturbation utilizes three dynamic phase
spectrum operations, i.e., a randomization operation, a frequency masking
operation, and a temporal masking operation, to enhance the diversity of speech
data. We conduct experiments on wav2vec2.0 pre-trained ASR models by
fine-tuning them with the PhasePerturbation augmented TIMIT corpus. The
experimental results demonstrate 10.9\% relative reduction in the word error
rate (WER) compared with the baseline model fine-tuned without any augmentation
operation. Furthermore, the proposed method achieves additional improvements
(12.9\% and 15.9\%) in WER by complementing the Vocal Tract Length Perturbation
(VTLP) and the SpecAug, which are both amplitude spectrum-based augmentation
methods. The results highlight the capability of PhasePerturbation to improve
the current amplitude spectrum-based augmentation methods.
- Abstract(参考訳): 現在の音声データ拡張手法のほとんどは、音声の生波形または振幅スペクトルのいずれかで動作する。
本稿では,音声の位相スペクトル上で動的に動作する位相摂動と呼ばれる新しい音声データ拡張法を提案する。
位相を一定度静的に回転させる代わりに、位相摂動は3つの動的位相スペクトル演算、すなわちランダム化演算、周波数マスキング演算、時間マスキング演算を利用して、音声データの多様性を高める。
我々は、段階摂動拡張TIMITコーパスを用いて、wav2vec2.0事前訓練されたASRモデルについて実験を行った。
実験の結果, 単語誤り率 (wer) が10.9\%低下し, 補足操作を伴わずに微調整されたベースラインモデルと比較した。
さらに、振幅スペクトルに基づく拡張法である声道長摂動(vtlp)とspecaugを補完することにより、werのさらなる改善(12.9\%および15.9\%)を実現する。
その結果,現在の振幅スペクトルに基づく増幅法を改善するための位相摂動の能力を強調した。
関連論文リスト
- Stage-Wise and Prior-Aware Neural Speech Phase Prediction [28.422370098313788]
本稿では,SP-NSPP(Stage-wise and Prior-Aware Neural Speech Phase Prediction)モデルを提案する。
初期事前構成段階では、振幅スペクトルから粗い前相スペクトルを予め予測する。
その後の精細化段階は、振幅スペクトルを前相に条件付き精製された高品質の位相スペクトルに変換する。
論文 参考訳(メタデータ) (2024-10-07T12:45:20Z) - GLDiTalker: Speech-Driven 3D Facial Animation with Graph Latent Diffusion Transformer [26.567649613966974]
本稿では,Graph Latent Diffusion Transformerを用いた音声駆動型3次元顔アニメーションモデルGLDiTalkerを紹介する。
GLDiTalkerの背景にある中核的な考え方は、遅延量子化された空間時間空間における信号の拡散によって、オーディオ・メッシュなモダリティの不整合を解消できるということである。
論文 参考訳(メタデータ) (2024-08-03T17:18:26Z) - High-Fidelity Speech Synthesis with Minimal Supervision: All Using
Diffusion Models [56.00939852727501]
最小教師付き音声合成は、2種類の離散音声表現を組み合わせることでTSを分離する。
非自己回帰フレームワークは、制御可能性を高め、持続拡散モデルは、多様化された韻律表現を可能にする。
論文 参考訳(メタデータ) (2023-09-27T09:27:03Z) - M3ST: Mix at Three Levels for Speech Translation [66.71994367650461]
本稿では,M3ST法を3段階に分けて提案し,拡張学習コーパスの多様性を高める。
ファインチューニングの第1段階では、単語レベル、文レベル、フレームレベルを含む3段階のトレーニングコーパスを混合し、モデル全体を混合データで微調整する。
MuST-C音声翻訳ベンチマークと分析実験により、M3STは現在の強いベースラインより優れ、平均的なBLEU29.9の8方向の最先端の結果が得られることが示された。
論文 参考訳(メタデータ) (2022-12-07T14:22:00Z) - MAST: Multiscale Audio Spectrogram Transformers [53.06337011259031]
音声分類のためのマルチスケール音声スペクトログラム変換器(MAST)について,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に適用した。
実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。
論文 参考訳(メタデータ) (2022-11-02T23:34:12Z) - Speech Enhancement with Perceptually-motivated Optimization and Dual
Transformations [5.4878772986187565]
本稿では、PT-FSEと呼ばれる、知覚的モチベーションのある最適化と二重変換を備えたサブバンドベース音声強調システムを提案する。
提案モデルでは背骨よりも大幅に改善されているが,SOTAよりも27%小さく,現状よりも優れていた。
ベンチマークデータセットの平均NB-PESQは3.57であり,これまでに報告された最高の音声強調結果を提供する。
論文 参考訳(メタデータ) (2022-09-24T02:33:40Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - A Study on Speech Enhancement Based on Diffusion Probabilistic Model [63.38586161802788]
雑音信号からクリーンな音声信号を復元することを目的とした拡散確率モデルに基づく音声強調モデル(DiffuSE)を提案する。
実験結果から、DiffuSEは、標準化されたVoice Bankコーパスタスクにおいて、関連する音声生成モデルに匹敵する性能が得られることがわかった。
論文 参考訳(メタデータ) (2021-07-25T19:23:18Z) - Maximum Voiced Frequency Estimation: Exploiting Amplitude and Phase
Spectra [22.675699190161417]
本稿では,振幅スペクトルと位相スペクトルの両方を利用したMVF推定手法を提案する。
位相は、音声信号の調和性に関する関連情報を伝達し、振幅スペクトルから得られる特徴と共同で使用できることが示されている。
提案手法は2つの最先端手法と比較し,主観的評価と主観的評価の両方において優れた性能を示す。
論文 参考訳(メタデータ) (2020-05-31T13:40:46Z) - Transforming Spectrum and Prosody for Emotional Voice Conversion with
Non-Parallel Training Data [91.92456020841438]
多くの研究は、実生活では実用的ではない異なる感情パターン間の並列音声データを必要とする。
非並列トレーニングデータから最適な擬似ペアを見つけるために,CycleGANネットワークを提案する。
また、連続ウェーブレット変換(CWT)を用いてF0を10時間スケールに分解し、異なる時間分解における音声韻律を記述する。
論文 参考訳(メタデータ) (2020-02-01T12:36:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。