論文の概要: Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale
Speech Recognition
- arxiv url: http://arxiv.org/abs/2402.18923v1
- Date: Thu, 29 Feb 2024 07:29:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:43:09.832738
- Title: Inappropriate Pause Detection In Dysarthric Speech Using Large-Scale
Speech Recognition
- Title(参考訳): 大規模音声認識による不適切なポーズ検出
- Authors: Jeehyun Lee, Yerin Choi, Tae-Jin Song, Myoung-Wan Koo
- Abstract要約: 不適切な停止は重度評価や言語療法において重要な指標である。
変形性音声における不適切なポーズ検出のための大規模音声認識モデルを提案する。
本実験により, 変形性関節症音声における不適切なポーズを, ベースラインよりもよく検出できることが示唆された。
- 参考スコア(独自算出の注目度): 2.7309692684728617
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Dysarthria, a common issue among stroke patients, severely impacts speech
intelligibility. Inappropriate pauses are crucial indicators in severity
assessment and speech-language therapy. We propose to extend a large-scale
speech recognition model for inappropriate pause detection in dysarthric
speech. To this end, we propose task design, labeling strategy, and a speech
recognition model with an inappropriate pause prediction layer. First, we treat
pause detection as speech recognition, using an automatic speech recognition
(ASR) model to convert speech into text with pause tags. According to the newly
designed task, we label pause locations at the text level and their
appropriateness. We collaborate with speech-language pathologists to establish
labeling criteria, ensuring high-quality annotated data. Finally, we extend the
ASR model with an inappropriate pause prediction layer for end-to-end
inappropriate pause detection. Moreover, we propose a task-tailored metric for
evaluating inappropriate pause detection independent of ASR performance. Our
experiments show that the proposed method better detects inappropriate pauses
in dysarthric speech than baselines. (Inappropriate Pause Error Rate: 14.47%)
- Abstract(参考訳): 脳卒中患者の共通の問題であるDysarthriaは、音声の明瞭さに深刻な影響を及ぼす。
不適切な停止は重度評価や言語療法において重要な指標である。
本稿では,不適切なポーズ検出のための大規模音声認識モデルの拡張を提案する。
そこで本研究では,不適切な停止予測層を有するタスク設計,ラベル付け戦略,音声認識モデルを提案する。
まず,自動音声認識(asr)モデルを用いてポーズ検出を音声認識として扱い,ポーズタグ付きテキストに変換する。
新たに設計されたタスクによると、テキストレベルにおける停止位置とその適切さをラベル付けする。
言語病理学者と協働してラベル付け基準を定め,高品質な注釈データを確保する。
最後に、終端不適切な停止検出のための不適切な停止予測層を用いて、ASRモデルを拡張する。
さらに,asr性能によらず不適切な停止検出を評価するためのタスク調整指標を提案する。
提案手法は,ベースラインよりも不適切なポーズを検出できることを示す。
(不適切なポーズエラー率:14.47%)
関連論文リスト
- SpeechDPR: End-to-End Spoken Passage Retrieval for Open-Domain Spoken
Question Answering [79.7437609151244]
SQA(Spken Question Answering)は、機械がユーザの質問に応答するために必要である。
本稿では、最初のエンドツーエンドフレームワークであるSpeechDPR(SpeechDPR)を提案する。
教師なしASR (UASR) と高密度テキスト検索器 (TDR) のカスケードモデルから知識を抽出して文レベルの意味表現を学習する
論文 参考訳(メタデータ) (2024-01-24T14:08:38Z) - Learning Speech Representation From Contrastive Token-Acoustic
Pretraining [57.08426714676043]
本研究では、2つのエンコーダを用いて音素と音声を複数モーダル空間に導入するCTAP(Contrastive Token-Acoustic Pretraining)を提案する。
提案したCTAPモデルは、210k音声と音素ペアで訓練され、最小教師付きTS、VC、ASRを実現する。
論文 参考訳(メタデータ) (2023-09-01T12:35:43Z) - Streaming Punctuation: A Novel Punctuation Technique Leveraging
Bidirectional Context for Continuous Speech Recognition [0.8670827427401333]
本稿では,動的デコードウィンドウを用いたASR出力の句読点や再句読点に対するストリーミング手法を提案する。
新しいシステムは過剰なセグメンテーションの問題に取り組み、セグメンテーションF0.5スコアを13.9%改善した。
論文 参考訳(メタデータ) (2023-01-10T07:07:20Z) - Turn-Taking Prediction for Natural Conversational Speech [40.189938418201656]
一般的な会話的発話は、ターンテイクを伴う複数のクエリを含むことが多い。
障害としては、思考の一時停止、ためらうこと、単語の延長、ポーズの充満、繰り返し句などがある。
本稿では,エンド・ツー・エンド(E2E)音声認識器上に構築されたターンテイク予測器を提案する。
論文 参考訳(メタデータ) (2022-08-29T01:09:23Z) - The Conversational Short-phrase Speaker Diarization (CSSD) Task:
Dataset, Evaluation Metric and Baselines [63.86406909879314]
本稿では,会話短文話者ダイアリゼーション(CSSD)タスクについて述べる。
トレーニングとテストのデータセット、評価基準、ベースラインで構成されている。
距離の面では,発話レベルでのSD精度を算出する新しい対話型DER (CDER) 評価指標を設計する。
論文 参考訳(メタデータ) (2022-08-17T03:26:23Z) - End-to-end Speech-to-Punctuated-Text Recognition [23.44236710364419]
句読点は、音声認識結果の可読性にとって重要である。
従来の自動音声認識システムは句読点を生成しない。
本稿では,音声を入力とし,句読解テキストを出力するエンドツーエンドモデルを提案する。
論文 参考訳(メタデータ) (2022-07-07T08:58:01Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Towards Interpretability of Speech Pause in Dementia Detection using
Adversarial Learning [4.19159477763309]
発声停止は認知症検出に有効なバイオマーカーである。
近年のディープラーニングモデルは、高精度な認知症検出を実現するために、音声停止を利用した。
対人学習を用いた認知症感受性停止の位置と長さについて検討する。
論文 参考訳(メタデータ) (2021-11-14T21:26:18Z) - Direct speech-to-speech translation with discrete units [64.19830539866072]
本稿では、中間テキスト生成に頼ることなく、ある言語から別の言語に音声を変換する直接音声音声翻訳(S2ST)モデルを提案する。
そこで本稿では,ラベルなし音声コーパスから学習した自己教師付き離散表現の予測を提案する。
対象のテキスト書き起こしが利用可能となると、同一の推論パスで2つのモード出力(音声とテキスト)を同時に生成できる、共同音声認識とテキストトレーニングを備えたマルチタスク学習フレームワークを設計する。
論文 参考訳(メタデータ) (2021-07-12T17:40:43Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - End-to-End Speech Recognition and Disfluency Removal [15.910282983166024]
本稿では,エンド・ツー・エンド音声認識とディフルエンシ除去の課題について検討する。
エンド・ツー・エンドのモデルでは、フロート・トランスクリプトを直接生成できることが示されている。
統合型ASRモデルと非フルエンシモデルの評価に使用できる2つの新しい指標を提案する。
論文 参考訳(メタデータ) (2020-09-22T03:11:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。