論文の概要: WhisperD: Dementia Speech Recognition and Filler Word Detection with Whisper
- arxiv url: http://arxiv.org/abs/2505.21551v1
- Date: Sun, 25 May 2025 21:48:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-29 17:35:50.15375
- Title: WhisperD: Dementia Speech Recognition and Filler Word Detection with Whisper
- Title(参考訳): WhisperD:Whisperによる認知症音声認識とFiller語検出
- Authors: Emmanuel Akinrintoyo, Nadine Abdelhalim, Nicole Salomons,
- Abstract要約: 認知症(PwD)の人は、しばしば不規則な発話パターンと不一致を示すため、Whisperは正しく認知症を転写することができない。
我々はWhisperを、オープンソースの認知症音声データセット(DementiaBank)と社内データセットで微調整し、単語エラー率(WER)を改善する。
- 参考スコア(独自算出の注目度): 0.9831489366502302
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Whisper fails to correctly transcribe dementia speech because persons with dementia (PwDs) often exhibit irregular speech patterns and disfluencies such as pauses, repetitions, and fragmented sentences. It was trained on standard speech and may have had little or no exposure to dementia-affected speech. However, correct transcription is vital for dementia speech for cost-effective diagnosis and the development of assistive technology. In this work, we fine-tune Whisper with the open-source dementia speech dataset (DementiaBank) and our in-house dataset to improve its word error rate (WER). The fine-tuning also includes filler words to ascertain the filler inclusion rate (FIR) and F1 score. The fine-tuned models significantly outperformed the off-the-shelf models. The medium-sized model achieved a WER of 0.24, outperforming previous work. Similarly, there was a notable generalisability to unseen data and speech patterns.
- Abstract(参考訳): 認知症(PwD)の人は、しばしば不規則な発話パターンや、停止、反復、断片化文などの不一致を示すため、Whisperは正しく認知症を転写することができない。
標準音声で訓練され,認知症に影響を及ぼした音声への露出がほとんどあるいは全くなかった可能性がある。
しかし、コスト効率の良い診断と補助技術の発達のための認知症音声には正しい転写が不可欠である。
本研究では,オープンソースの認知症音声データセット(DementiaBank)と社内データセットを用いてWhisperを微調整し,単語エラー率(WER)を改善する。
また、フィラー包含率(FIR)とF1スコアを判定するフィラー語を含む。
微調整されたモデルでは、市販モデルよりも大幅に性能が向上した。
中型モデルはWER0.24を達成し、以前の性能を上回った。
同様に、見当たらないデータや音声パターンには顕著な一般化性があった。
関連論文リスト
- Dementia Detection using Multi-modal Methods on Audio Data [1.5517328698216646]
本稿では,患者の音声記録を用いて認知症の発症を予測するために開発されたモデルについて述べる。
音声ファイルからWhisperモデルを用いて書き起こしを生成し,RoBERTa回帰モデルを用いてMMSEスコアを生成するASRベースのモデルを開発した。
RMSEスコアは2.6911で、ベースラインよりも約10%低い。
論文 参考訳(メタデータ) (2024-12-31T14:26:54Z) - Empowering Dysarthric Speech: Leveraging Advanced LLMs for Accurate Speech Correction and Multimodal Emotion Analysis [0.0]
本稿では, 変形性関節症を認識・翻訳するための新しいアプローチを提案する。
我々は、高精度な音声補正とマルチモーダル感情分析に先進的な大規模言語モデルを活用する。
我々の枠組みは、意図した文を歪んだ音声から高精度に再構成しながら、幸福、悲しみ、中立、驚き、怒り、恐怖などの感情を識別する。
論文 参考訳(メタデータ) (2024-10-13T20:54:44Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Exploring Multimodal Approaches for Alzheimer's Disease Detection Using
Patient Speech Transcript and Audio Data [10.782153332144533]
アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症の一種であり、患者の健康に深刻な影響を及ぼす。
本研究では,DmentiaBank Pittデータベースから患者の音声と転写データを用いたAD検出法について検討した。
論文 参考訳(メタデータ) (2023-07-05T12:40:11Z) - Adversarial Training For Low-Resource Disfluency Correction [50.51901599433536]
ディフルエンシ補正(DC)のための逆学習型シーケンスタグ付けモデルを提案する。
提案手法の利点は,3つのインド語でDCに対して評価することで,合成された非流動データに大きく依存することを示す。
また,本手法は,音声障害によって導入されたASR文字の破面的不一致の除去にも有効である。
論文 参考訳(メタデータ) (2023-06-10T08:58:53Z) - KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset
of Stuttering [58.91587609873915]
この研究で紹介されるKassel State of Fluency (KSoF)は、治療ベースのデータセットで、5500以上の散在するPWSのクリップを含んでいる。
オーディオは、Institut der Kasseler Stottertherapieのセラピーセッション中に録音された。
論文 参考訳(メタデータ) (2022-03-10T14:17:07Z) - Speaker Identity Preservation in Dysarthric Speech Reconstruction by
Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。
話者識別に最適化された話者エンコーダ (SE) について検討した。
我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文 参考訳(メタデータ) (2022-02-18T08:59:36Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Data augmentation using prosody and false starts to recognize non-native
children's speech [12.911954427107977]
本稿では,AaltoASRによるInterSPEECH 2020共有音声認識タスクのための音声認識システムについて述べる。
本研究の課題は, 年齢の異なる子どもから, 限られた発話量で非母国語を識別することである。
論文 参考訳(メタデータ) (2020-08-29T05:32:32Z) - Comparing Natural Language Processing Techniques for Alzheimer's
Dementia Prediction in Spontaneous Speech [1.2805268849262246]
アルツハイマー認知症(英語: Alzheimer's Dementia、AD)は、認知機能に影響を与える不治の、不安定で進行性の神経変性疾患である。
自発音声タスクによるアルツハイマー認知は、ADの分類と予測のために、音響的に前処理とバランスの取れたデータセットを提供する。
論文 参考訳(メタデータ) (2020-06-12T17:51:16Z) - End-to-end Whispered Speech Recognition with Frequency-weighted
Approaches and Pseudo Whisper Pre-training [130.56878980058966]
発声音声のエンド・ツー・エンド(E2E)認識に対するいくつかのアプローチを提案する。
我々は,比較的小型のTIMITコーパスを用いて,PER19.8%,CER44.4%の相対的な削減を実現した。
正規または擬似発声音声で事前訓練された優れたE2Eモデルがある限り、比較的小さな発声音声は、合理的に優れたE2E発声音声認識器を得るのに十分である。
論文 参考訳(メタデータ) (2020-05-05T07:08:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。