Fugu-MT 論文翻訳(概要): Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO

論文の概要: Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO

arxiv url: http://arxiv.org/abs/2411.00980v2
Date: Fri, 08 Nov 2024 00:36:10 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.531128
Title: Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO
Title（参考訳）: e-Health 設定におけるDysarthric Speaker のための AAC ソフトウェアの拡張:TORGO を用いた評価
Authors: Macarious Hui, Jinda Zhang, Aanchan Mohan,
Abstract要約: 脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
参考スコア（独自算出の注目度）: 0.13108652488669734
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Individuals with cerebral palsy (CP) and amyotrophic lateral sclerosis (ALS) frequently face challenges with articulation, leading to dysarthria and resulting in atypical speech patterns. In healthcare settings, communication breakdowns reduce the quality of care. While building an augmentative and alternative communication (AAC) tool to enable fluid communication we found that state-of-the-art (SOTA) automatic speech recognition (ASR) technology like Whisper and Wav2vec2.0 marginalizes atypical speakers largely due to the lack of training data. Our work looks to leverage SOTA ASR followed by domain specific error-correction. English dysarthric ASR performance is often evaluated on the TORGO dataset. Prompt-overlap is a well-known issue with this dataset where phrases overlap between training and test speakers. Our work proposes an algorithm to break this prompt-overlap. After reducing prompt-overlap, results with SOTA ASR models produce extremely high word error rates for speakers with mild and severe dysarthria. Furthermore, to improve ASR, our work looks at the impact of n-gram language models and large-language model (LLM) based multi-modal generative error-correction algorithms like Whispering-LLaMA for a second pass ASR. Our work highlights how much more needs to be done to improve ASR for atypical speakers to enable equitable healthcare access both in-person and in e-health settings.
Abstract（参考訳）: 脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。医療の分野では、コミュニケーションの破綻はケアの質を低下させる。流体通信を実現するためにAAC(Augmentative and alternative communication)ツールを構築しながら、WhisperやWav2vec2.0のような最先端の自動音声認識(SOTA)技術が、トレーニングデータの欠如により非定型話者を疎外することがわかった。我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。イングランドの外科的ASRパフォーマンスはTORGOデータセットで評価されることが多い。 Prompt-overlapはこのデータセットでよく知られた問題で、トレーニングとテストスピーカーの間にフレーズが重なり合う。我々の研究は、このプロンプトオーバーラップを壊すアルゴリズムを提案する。即時オーバーラップを減らした後、SOTA ASRモデルによる結果は、軽度かつ重度な変形を伴う話者に対して非常に高い単語誤り率をもたらす。さらに、ASRを改善するために、我々はn-gram言語モデルと大文字モデル(LLM)に基づく多モード生成誤り訂正アルゴリズム(Whispering-LLaMA for a second pass ASR)の影響について検討した。我々の研究は、非定型話者のASRを改善するために、対面とeヘルスの両方で公平な医療アクセスを可能にするために、どれだけ多くのことを行う必要があるかを強調している。

関連論文リスト

Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition [8.838919369202525]
先天性障害による音声障害は,音声認識システムにおいて大きな課題となる。 Whisperのような最先端のASRモデルは、トレーニングデータの可用性の制限と高い音響可変性のために、まだ非ノルマ的音声に苦慮している。本研究では,データ効率のよい微調整のためのベイジアン低ランク適応に基づく新しいASRパーソナライズ手法を提案する。
論文参考訳（メタデータ） (2025-09-23T13:44:58Z)
Unsupervised Rhythm and Voice Conversion to Improve ASR on Dysarthric Speech [17.105048387175817]
変形性関節症に対する音声変換法について検討し,ASRの性能改善について検討した。音節に基づくリズムモデリング手法を導入することにより、リズム・アンド・ボイス(RnV)変換フレームワークを拡張した。 Torgoコーパスの実験により,LF-MMIが単語誤り率の大幅な低減を実現していることが明らかになった。
論文参考訳（メタデータ） (2025-06-02T12:57:36Z)
Towards Inclusive ASR: Investigating Voice Conversion for Dysarthric Speech Recognition in Low-Resource Languages [49.31519786009296]
音声変換モデルを英語の変形音声(UASpeech)に微調整し、話者特性と韻律歪みの両方を符号化する。次に、健康な非英語音声(FLEURS)を非英語の変形性音声に変換する。生成されたデータは、MMS(Massively Multilingually Speech)と呼ばれる多言語ASRモデルの微調整に使用される。
論文参考訳（メタデータ） (2025-05-20T20:03:45Z)
Unsupervised Rhythm and Voice Conversion of Dysarthric to Healthy Speech for ASR [18.701864254184308]
自己教師付き音声表現に基づくリズムと音声の変換手法を組み合わせることで、典型的な音声に変形をマッピングする。提案したリズム変換は, より重篤な変形症例を有するトーゴコーパスの話者のパフォーマンスを特に向上させることが判明した。
論文参考訳（メタデータ） (2025-01-17T15:39:21Z)
Self-supervised ASR Models and Features For Dysarthric and Elderly Speech Recognition [71.87998918300806]
本稿では,TDNNとConformer ASRシステムにSSLプリトレーニングモデルとその機能を統合するアプローチについて検討する。ドメイン適応型HuBERT、wav2vec2-conformer、マルチ言語型XLSRモデルを統合することで構築されたTDNNシステムは、スタンドアロンの微調整型SSL事前訓練モデルより一貫して優れている。 DementiaBank Pitt の高齢者音声認識出力を用いて,アルツハイマー病の検出精度の向上も行った。
論文参考訳（メタデータ） (2024-07-03T08:33:39Z)
Inclusive ASR for Disfluent Speech: Cascaded Large-Scale Self-Supervised Learning with Targeted Fine-Tuning and Data Augmentation [0.0]
進歩への重要な障壁は、大きな注釈付き不適切な音声データセットの不足である。本稿では,標準音声における自己教師型学習を応用した包括的ASR設計手法を提案する。結果から,比較的小さなラベル付きデータセットによる微調整wav2vec 2.0とデータ拡張による単語誤り率の低減効果が示唆された。
論文参考訳（メタデータ） (2024-06-14T16:56:40Z)
UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。 NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文参考訳（メタデータ） (2024-01-26T06:08:47Z)
Exploiting Cross-domain And Cross-Lingual Ultrasound Tongue Imaging Features For Elderly And Dysarthric Speech Recognition [55.25565305101314]
調音機能は音響信号歪みに不変であり、音声認識システムにうまく組み込まれている。本稿では,A2Aモデルにおける24時間TaLコーパスの並列音声・超音波舌画像(UTI)データを利用したクロスドメインおよびクロスランガルA2Aインバージョン手法を提案する。生成した調音機能を組み込んだ3つのタスクの実験は、ベースラインのTDNNとコンフォーマーASRシステムより一貫して優れていた。
論文参考訳（メタデータ） (2022-06-15T07:20:28Z)
Personalized Adversarial Data Augmentation for Dysarthric and Elderly Speech Recognition [30.885165674448352]
本稿では,高齢者および変形性音声認識のための新しい話者依存型(GAN)に基づくデータ拡張手法を提案する。 GANベースのデータ拡張アプローチは、ベースライン速度摂動法を最大0.91%、絶対値3.0%で一貫して上回っている。 LHUCベースの話者適応を適用した後、一貫性のある性能改善が維持される。
論文参考訳（メタデータ） (2022-05-13T04:29:49Z)
Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。話者識別に最適化された話者エンコーダ (SE) について検討した。我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文参考訳（メタデータ） (2022-02-18T08:59:36Z)
An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。 ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文参考訳（メタデータ） (2021-03-25T05:15:43Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Robust Prediction of Punctuation and Truecasing for Medical ASR [18.08508027663331]
本稿では,句読点と実測点の予測のための条件付き共同モデリングフレームワークを提案する。また,医療領域データを用いた微調整型マスキング言語モデルによるドメイン・タスク特化手法を提案する。
論文参考訳（メタデータ） (2020-07-04T07:15:13Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。