論文の概要: Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment
- arxiv url: http://arxiv.org/abs/2406.05784v1
- Date: Sun, 9 Jun 2024 13:42:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 18:07:23.189512
- Title: Optimizing Multi-Stuttered Speech Classification: Leveraging Whisper's Encoder for Efficient Parameter Reduction in Automated Assessment
- Title(参考訳): 多段階音声分類の最適化:自動評価における効率的なパラメータ削減のためのウィスパーエンコーダの活用
- Authors: Huma Ameer, Seemab Latif, Rabia Latif,
- Abstract要約: 本研究は, 発声音声における不一致の同定における最後のエンコーダ層の役割を明らかにするものである。
これは、様々な方言や言語に適応できるモデルに、計算的に効率的なアプローチをもたらした。
- 参考スコア(独自算出の注目度): 0.16385815610837165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The automated classification of stuttered speech has significant implications for timely assessments providing assistance to speech language pathologists. Despite notable advancements in the field, the cases in which multiple disfluencies occur in speech require attention. We have taken a progressive approach to fill this gap by classifying multi-stuttered speech more efficiently. The problem has been addressed by firstly curating a dataset of multi-stuttered disfluencies from SEP-28k audio clips. Secondly, employing Whisper, a state-of-the-art speech recognition model has been leveraged by using its encoder and taking the problem as multi-label classification. Thirdly, using a 6 encoder layer Whisper and experimenting with various layer freezing strategies, a computationally efficient configuration of the model was identified. The proposed configuration achieved micro, macro, and weighted F1- scores of 0.88, 0.85, and 0.87, correspondingly on an external test dataset i.e. Fluency-Bank. In addition, through layer freezing strategies, we were able to achieve the aforementioned results by fine-tuning a single encoder layer, consequently, reducing the model's trainable parameters from 20.27 million to 3.29 million. This research study unveils the contribution of the last encoder layer in the identification of disfluencies in stuttered speech. Consequently, it has led to a computationally efficient approach which makes the model more adaptable for various dialects and languages.
- Abstract(参考訳): 発声音声の自動分類は、言語病理学者に支援を提供するタイムリーアセスメントに重要な意味を持つ。
この分野の顕著な進歩にもかかわらず、発話中に複数の不一致が発生した場合、注意が必要である。
我々は、このギャップを埋めるために、より効率的にマルチスタッタ音声を分類することで、進歩的なアプローチをとってきた。
この問題は、まずSEP-28kオーディオクリップからマルチスタッタ分散のデータセットをキュレートすることで解決されている。
第二に、最先端の音声認識モデルであるWhisperを用いて、エンコーダを用いて問題をマルチラベル分類する。
第3に、6エンコーダ層Whisperを用いて様々な層凍結戦略を実験し、そのモデルの計算効率の良い構成を同定した。
提案した構成はマイクロ、マクロ、重み付けされたF1スコアの0.88、0.85、0.87を外部テストデータセット、すなわちFluency-Bankで達成した。
さらに、層の凍結戦略を通じて、上記の結果を達成するために、単一のエンコーダ層を微調整し、モデルのトレーニング可能なパラメータを2027万から329万に減らした。
本研究では,最後のエンコーダ層が発声音声における不一致の同定に寄与していることを明らかにする。
その結果、様々な方言や言語に適応しやすくする計算効率のよいアプローチが導かれた。
関連論文リスト
- Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Triple-Encoders: Representations That Fire Together, Wire Together [51.15206713482718]
コントラスト学習(Contrastive Learning)は、バイエンコーダを介して発話間の相対距離を埋め込み空間に符号化する表現学習法である。
本研究では,これら独立に符号化された発話から分散発話混合物を効率よく計算する三重エンコーダを提案する。
トリプルエンコーダはバイエンコーダよりも大幅に改善され、シングルベクトル表現モデルよりもゼロショットの一般化が向上することがわかった。
論文 参考訳(メタデータ) (2024-02-19T18:06:02Z) - Whisper in Focus: Enhancing Stuttered Speech Classification with Encoder
Layer Optimization [0.16385815610837165]
本研究は, 発声音声における不規則型の分類におけるWhisperの能力を明らかにするものである。
SEP28-kベンチマークデータセットの品質向上、分類のためのWhisperの探索、効率的なエンコーダ層凍結戦略の導入である。
論文 参考訳(メタデータ) (2023-11-09T08:32:49Z) - Detecting Speech Abnormalities with a Perceiver-based Sequence
Classifier that Leverages a Universal Speech Model [4.503292461488901]
いくつかの神経疾患の音声反射異常を検出するPerceiver-based sequenceを提案する。
このシーケンスとUniversal Speech Model (USM)を組み合わせ、1200万時間に及ぶ多様な音声録音をトレーニング(教師なし)する。
我々のモデルは標準変圧器 (80.9%) および知覚器 (81.8%) モデルより優れ、平均精度は83.1%である。
論文 参考訳(メタデータ) (2023-10-16T21:07:12Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - Speaker Embedding-aware Neural Diarization for Flexible Number of
Speakers with Textual Information [55.75018546938499]
本稿では,話者埋め込み認識型ニューラルダイアリゼーション(SEND)手法を提案する。
本手法は,ターゲット話者の音声活動検出よりも低いダイアリゼーション誤差率を実現する。
論文 参考訳(メタデータ) (2021-11-28T12:51:04Z) - Integrating end-to-end neural and clustering-based diarization: Getting
the best of both worlds [71.36164750147827]
クラスタリングに基づくアプローチでは、xベクトルのような話者埋め込みをクラスタリングすることで、話者ラベルを音声領域に割り当てる。
EEND(End-to-end Neural Diarization)は、ニューラルネットワークを使用してダイアリゼーションラベルを直接予測する。
重なり合う音声と、任意の数の話者を含む長い録音のために、単純だが効果的なハイブリッドダイアリゼーションフレームワークを提案する。
論文 参考訳(メタデータ) (2020-10-26T06:33:02Z) - Low-Latency Sequence-to-Sequence Speech Recognition and Translation by
Partial Hypothesis Selection [15.525314212209562]
チャンクベースインクリメンタル推論のための3つの遅延低減手法を提案する。
提案手法は低遅延音声翻訳にも適用可能であることを示す。
論文 参考訳(メタデータ) (2020-05-22T13:42:54Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。