論文の概要: ImportantAug: a data augmentation agent for speech
- arxiv url: http://arxiv.org/abs/2112.07156v1
- Date: Tue, 14 Dec 2021 04:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-15 16:47:51.726041
- Title: ImportantAug: a data augmentation agent for speech
- Title(参考訳): importantAug: 音声のためのデータ拡張エージェント
- Authors: Viet Anh Trinh (1), Hassan Salami Kavaki (1), Michael I Mandel (1 and
2) ((1) CUNY Graduate Center, (2) Brooklyn College)
- Abstract要約: 本稿では,音声認識モデルのためのトレーニングデータの拡張手法であるPanalyAugを紹介する。
各発話の重要性は、追加するノイズの量を最大化するためにトレーニングされたデータ拡張エージェントによって予測される。
- 参考スコア(独自算出の注目度): 10.453223310129408
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce ImportantAug, a technique to augment training data for speech
classification and recognition models by adding noise to unimportant regions of
the speech and not to important regions. Importance is predicted for each
utterance by a data augmentation agent that is trained to maximize the amount
of noise it adds while minimizing its impact on recognition performance. The
effectiveness of our method is illustrated on version two of the Google Speech
Commands (GSC) dataset. On the standard GSC test set, it achieves a 23.3%
relative error rate reduction compared to conventional noise augmentation which
applies noise to speech without regard to where it might be most effective. It
also provides a 25.4% error rate reduction compared to a baseline without data
augmentation. Additionally, the proposed ImportantAug outperforms the
conventional noise augmentation and the baseline on two test sets with
additional noise added.
- Abstract(参考訳): 本研究は,音声の非重要領域にノイズを付加することにより,音声分類と認識モデルの訓練データを強化する手法である importantaugを提案する。
音声認識性能への影響を最小限に抑えつつ、追加するノイズの量を最大化するように訓練されたデータ拡張エージェントによって、発話毎に重要度が予測される。
本手法の有効性を,Google Speech Commands (GSC) データセットのバージョン2に示す。
標準GSCテストセットでは、最も有効な場所に関係なく音声に雑音を付与する従来の雑音増強と比較して、23.3%の相対誤差率の低減を実現している。
また、データ拡張のないベースラインに比べて25.4%のエラー率削減を提供する。
さらに,提案手法は,従来の雑音増減とベースラインを2つのテストセットで上回り,追加ノイズを付加した。
関連論文リスト
- SpeechBlender: Speech Augmentation Framework for Mispronunciation Data
Generation [11.91301106502376]
SpeechBlenderは、誤発音エラーを生成するためのきめ細かいデータ拡張パイプラインである。
提案手法は, ASR 依存型誤発音検出モデルにおいて, Speechocean762 を用いて最先端の結果を得る。
論文 参考訳(メタデータ) (2022-11-02T07:13:30Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Improving Noise Robustness of Contrastive Speech Representation Learning
with Speech Reconstruction [109.44933866397123]
実環境における音声認識システムの実現には,雑音の堅牢性が不可欠である。
雑音認識のための自己教師型フレームワークにより学習したノイズロスト表現を用いる。
ラベル付きデータのわずか16%で報告された最高の教師付きアプローチに匹敵するパフォーマンスを実現した。
論文 参考訳(メタデータ) (2021-10-28T20:39:02Z) - Interactive Feature Fusion for End-to-End Noise-Robust Speech
Recognition [25.84784710031567]
本稿では,ノイズロバスト音声認識のための対話型特徴融合ネットワーク(IFF-Net)を提案する。
実験の結果,提案手法は最良基準値に対して絶対単語誤り率(WER)を4.1%削減できることがわかった。
さらに分析した結果,提案したIFF-Netは,過度に抑圧された拡張機能において欠落した情報を補うことができることがわかった。
論文 参考訳(メタデータ) (2021-10-11T13:40:07Z) - Wav2vec-Switch: Contrastive Learning from Original-noisy Speech Pairs
for Robust Speech Recognition [52.71604809100364]
音声の文脈化表現に雑音のロバスト性をエンコードするwav2vec-Switchを提案する。
具体的には、オリジナルノイズの多い音声ペアを同時にwav2vec 2.0ネットワークに供給する。
既存のコントラスト学習タスクに加えて、原音声と雑音音声の量子化表現を追加の予測対象に切り替える。
論文 参考訳(メタデータ) (2021-10-11T00:08:48Z) - MixSpeech: Data Augmentation for Low-resource Automatic Speech
Recognition [54.84624870942339]
MixSpeechは、自動音声認識(ASR)のためのミックスアップに基づくシンプルで効果的なデータ拡張方法です。
mixspeechをlas(listen, attend, spell)とtransformerを含む2つのポピュラーなエンドツーエンド音声認識モデルに適用した。
実験の結果,MixSpeechはデータ拡張のないベースラインモデルよりも精度が高いことがわかった。
論文 参考訳(メタデータ) (2021-02-25T03:40:43Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Data Augmenting Contrastive Learning of Speech Representations in the
Time Domain [92.50459322938528]
時間領域データ拡張ライブラリであるWavAugmentを紹介します。
また, ピッチ修正, 付加音, 残響の組合せによってCPCの性能が著しく向上することが判明した。
また、時間領域データの増大は、下流の限られた超音素分類タスクを12~15%の確率で改善することを示した。
論文 参考訳(メタデータ) (2020-07-02T09:59:51Z) - Robust Speaker Recognition Using Speech Enhancement And Attention Model [37.33388614967888]
音声強調と話者認識を個別に処理する代わりに、ディープニューラルネットワークを用いた共同最適化により、2つのモジュールを1つのフレームワークに統合する。
雑音に対するロバスト性を高めるため、時間と周波数領域のコンテキスト情報から得られた話者関連特徴を強調するために、多段階アテンション機構を用いる。
その結果,音声強調モデルと多段階アテンションモデルを用いた提案手法は,実験のほとんどの音響条件下では使用しない2つの強いベースラインよりも優れていることがわかった。
論文 参考訳(メタデータ) (2020-01-14T20:03:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。