論文の概要: Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale
Speech Recognition
- arxiv url: http://arxiv.org/abs/2402.18923v1
- Date: Thu, 29 Feb 2024 07:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:43:09.832738
- Title: Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale
Speech Recognition
- Title(参考訳): 大規模音声認識による不適切なポーズ検出
- Authors: Jeehyun Lee, Yerin Choi, Tae-Jin Song, Myoung-Wan Koo
- Abstract要約: 不適切な停止は重度評価や言語療法において重要な指標である。
変形性音声における不適切なポーズ検出のための大規模音声認識モデルを提案する。
本実験により, 変形性関節症音声における不適切なポーズを, ベースラインよりもよく検出できることが示唆された。
- 参考スコア(独自算出の注目度): 2.7309692684728617
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dysarthria, a common issue among stroke patients, severely impacts speech
intelligibility. Inappropriate pauses are crucial indicators in severity
assessment and speech-language therapy. We propose to extend a large-scale
speech recognition model for inappropriate pause detection in dysarthric
speech. To this end, we propose task design, labeling strategy, and a speech
recognition model with an inappropriate pause prediction layer. First, we treat
pause detection as speech recognition, using an automatic speech recognition
(ASR) model to convert speech into text with pause tags. According to the newly
designed task, we label pause locations at the text level and their
appropriateness. We collaborate with speech-language pathologists to establish
labeling criteria, ensuring high-quality annotated data. Finally, we extend the
ASR model with an inappropriate pause prediction layer for end-to-end
inappropriate pause detection. Moreover, we propose a task-tailored metric for
evaluating inappropriate pause detection independent of ASR performance. Our
experiments show that the proposed method better detects inappropriate pauses
in dysarthric speech than baselines. (Inappropriate Pause Error Rate: 14.47%)
- Abstract(参考訳): 脳卒中患者の共通の問題であるDysarthriaは、音声の明瞭さに深刻な影響を及ぼす。
不適切な停止は重度評価や言語療法において重要な指標である。
本稿では,不適切なポーズ検出のための大規模音声認識モデルの拡張を提案する。
そこで本研究では,不適切な停止予測層を有するタスク設計,ラベル付け戦略,音声認識モデルを提案する。
まず,自動音声認識(asr)モデルを用いてポーズ検出を音声認識として扱い,ポーズタグ付きテキストに変換する。
新たに設計されたタスクによると、テキストレベルにおける停止位置とその適切さをラベル付けする。
言語病理学者と協働してラベル付け基準を定め,高品質な注釈データを確保する。
最後に、終端不適切な停止検出のための不適切な停止予測層を用いて、ASRモデルを拡張する。
さらに,asr性能によらず不適切な停止検出を評価するためのタスク調整指標を提案する。
提案手法は,ベースラインよりも不適切なポーズを検出できることを示す。
(不適切なポーズエラー率:14.47%)
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - STAB: Speech Tokenizer Assessment Benchmark [57.45234921100835]
音声を離散トークンとして表現することは、音声をテキストによく似たフォーマットに変換するためのフレームワークを提供する。
Speech Tokenizer Assessment Benchmark(STAB)は,音声トークンを包括的に評価するシステム評価フレームワークである。
我々はSTABのメトリクスを評価し、これを音声タスクやトークン化ツールの選択の範囲でダウンストリームタスクのパフォーマンスと相関付けする。
論文 参考訳(メタデータ) (2024-09-04T02:20:59Z) - Infusing Acoustic Pause Context into Text-Based Dementia Assessment [7.8642589679025034]
本研究は, 認知障害のない被験者の認知状態, 軽度認知障害, およびアルツハイマー認知症を, 臨床的評価に基づいて区別するために, 言語モデルにおける停止強調文字の使用について検討した。
この性能は、ドイツ語の言語頻度テストと画像記述テストの実験を通じて評価され、異なる音声生成コンテキストにおけるモデルの有効性を比較した。
論文 参考訳(メタデータ) (2024-08-27T16:44:41Z) - Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。
本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。
音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文 参考訳(メタデータ) (2024-06-12T16:30:58Z) - End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。
従来の自動音声認識システムは句読点を生成しない。
本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-07-07T08:58:01Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Towards Interpretability of Speech Pause in Dementia Detection using
Adversarial Learning [4.19159477763309]
発声停止は認知症検出に有効なバイオマーカーである。
近年のディープラーニングモデルは、高精度な認知症検出を実現するために、音声停止を利用した。
対人学習を用いた認知症感受性停止の位置と長さについて検討する。
論文 参考訳(メタデータ) (2021-11-14T21:26:18Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。