論文の概要: Advancing Stuttering Detection via Data Augmentation, Class-Balanced
Loss and Multi-Contextual Deep Learning
- arxiv url: http://arxiv.org/abs/2302.11343v1
- Date: Tue, 21 Feb 2023 14:03:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 15:13:09.694465
- Title: Advancing Stuttering Detection via Data Augmentation, Class-Balanced
Loss and Multi-Contextual Deep Learning
- Title(参考訳): データ拡張、クラスバランス損失、多言語深層学習によるストラテリング検出の進歩
- Authors: Shakeel A. Sheikh, Md Sahidullah, Fabrice Hirsch, Slim Ouni
- Abstract要約: スタッタリング(英: Stuttering)は、制御されていない発話とコアの振る舞いを特徴とする、神経発達の音声障害である。
本稿では,データ不足に対処する多分岐学習方式におけるデータ拡張の有効性について検討する。
さらに,発声音声の異なる文脈を利用するマルチコンテキスト(MC)のStutterNetを提案する。
- 参考スコア(独自算出の注目度): 7.42741711946564
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Stuttering is a neuro-developmental speech impairment characterized by
uncontrolled utterances (interjections) and core behaviors (blocks,
repetitions, and prolongations), and is caused by the failure of speech
sensorimotors. Due to its complex nature, stuttering detection (SD) is a
difficult task. If detected at an early stage, it could facilitate speech
therapists to observe and rectify the speech patterns of persons who stutter
(PWS). The stuttered speech of PWS is usually available in limited amounts and
is highly imbalanced. To this end, we address the class imbalance problem in
the SD domain via a multibranching (MB) scheme and by weighting the
contribution of classes in the overall loss function, resulting in a huge
improvement in stuttering classes on the SEP-28k dataset over the baseline
(StutterNet). To tackle data scarcity, we investigate the effectiveness of data
augmentation on top of a multi-branched training scheme. The augmented training
outperforms the MB StutterNet (clean) by a relative margin of 4.18% in macro
F1-score (F1). In addition, we propose a multi-contextual (MC) StutterNet,
which exploits different contexts of the stuttered speech, resulting in an
overall improvement of 4.48% in F 1 over the single context based MB
StutterNet. Finally, we have shown that applying data augmentation in the
cross-corpora scenario can improve the overall SD performance by a relative
margin of 13.23% in F1 over the clean training.
- Abstract(参考訳): 発声は、制御されていない発話(対話)と核となる行動(ブロック、反復、伸長)によって特徴づけられ、言語感覚士の失敗によって引き起こされる神経発達性の言語障害である。
複雑な性質のため、stuttering detection (sd) は難しい課題である。
早期に検出された場合、音声療法士は発声者(pws)の発話パターンを観察し、修正することができる。
PWSの散らばった音声は通常、限られた量で利用でき、非常に不均衡である。
この目的のために、マルチブランチ(MB)スキームを用いてSD領域のクラス不均衡問題に対処し、全体の損失関数におけるクラスの寄与を重み付けすることで、ベースライン上のSEP-28kデータセット上のスタブリングクラスを大幅に改善する(StutterNet)。
データ不足に対処するため,マルチブランチ学習方式上でのデータ拡張の有効性を検討する。
強化トレーニングはMB StutterNet(クリーン)を4.18%のマクロF1スコア(F1)で上回る。
さらに, マルチコンテキスト(MC) StutterNetを提案する。これは, 発声の異なる文脈を利用して, 単一のコンテキストベースMB StutterNetに対してF1の4.48%の改善を実現する。
最後に、クロスコーパスシナリオにデータ拡張を適用することで、クリーントレーニングよりもF1の13.23%の差で全体的なSD性能が向上することを示した。
関連論文リスト
- MMSD-Net: Towards Multi-modal Stuttering Detection [9.257985820122999]
MMSD-Netは、スタブリング検出のための最初のマルチモーダルニューラルネットワークフレームワークである。
我々のモデルでは、既存の最先端ユニモーダルアプローチよりもF1スコアが2-17%向上している。
論文 参考訳(メタデータ) (2024-07-16T08:26:59Z) - Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。
本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。
結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文 参考訳(メタデータ) (2024-06-14T16:56:40Z) - Automatically measuring speech fluency in people with aphasia: first
achievements using read-speech data [55.84746218227712]
本研究の目的は,言語習得の分野で開発された信号処理algorithmの関連性を評価することである。
論文 参考訳(メタデータ) (2023-08-09T07:51:40Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - An Experimental Study on Private Aggregation of Teacher Ensemble
Learning for End-to-End Speech Recognition [51.232523987916636]
差分プライバシー(DP)は、プライバシーデータにノイズのある歪みを課すことで、深層モデルのトレーニングに使用されるユーザー情報を保護するための1つのデータ保護手段である。
本研究では、PATE学習を動的パターン、すなわち音声を扱うように拡張し、音響データの漏洩を避けるために、ASRに関する最初の実験を行う。
論文 参考訳(メタデータ) (2022-10-11T16:55:54Z) - Overlapping Word Removal is All You Need: Revisiting Data Imbalance in
Hope Speech Detection [2.8341970739919433]
ホープ音声検出のための焦点損失、データ拡張、前処理戦略を導入する。
焦点損失の導入はクラス不均衡の影響を緩和し、F1-マクロ全体の0.11の改善を図っている。
また,前処理による単語の重複除去は単純ではあるがF1-Macroを0.28改善することを示した。
論文 参考訳(メタデータ) (2022-04-12T02:38:54Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Improved Robustness to Disfluencies in RNN-Transducer Based Speech
Recognition [1.8702587873591643]
RNN-T ASRの発話障害に対する堅牢性向上を目的としたデータ選択と準備選択を検討する。
学習に不均一性のある少量のデータを含むと、不均一性や混乱を伴うテストの認識精度が向上することを示す。
論文 参考訳(メタデータ) (2020-12-11T11:47:13Z) - Continuous Speech Separation with Conformer [60.938212082732775]
分離システムでは、リカレントニューラルネットワークの代わりにトランスとコンバータを用いる。
我々は,自己注意に基づく方法でグローバルな情報を取得することが,音声分離に不可欠であると信じている。
論文 参考訳(メタデータ) (2020-08-13T09:36:05Z) - Deep F-measure Maximization for End-to-End Speech Understanding [52.36496114728355]
本稿では,F測度に対する微分可能な近似法を提案し,標準バックプロパゲーションを用いてネットワークをトレーニングする。
我々は、アダルト、コミュニティ、犯罪の2つの標準フェアネスデータセットの実験を行い、ATISデータセットの音声・インテリジェンス検出と音声・COCOデータセットの音声・イメージ概念分類を行った。
これらの4つのタスクのすべてにおいて、F測定は、クロスエントロピー損失関数で訓練されたモデルと比較して、最大8%の絶対的な絶対的な改善を含む、マイクロF1スコアの改善をもたらす。
論文 参考訳(メタデータ) (2020-08-08T03:02:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。