論文の概要: Wearable intelligent throat enables natural speech in stroke patients with dysarthria
- arxiv url: http://arxiv.org/abs/2411.18266v2
- Date: Thu, 28 Nov 2024 08:57:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 11:38:08.911652
- Title: Wearable intelligent throat enables natural speech in stroke patients with dysarthria
- Title(参考訳): 難治性インテリジェント喉頭は変形性脳卒中患者の自然な発話を可能にする
- Authors: Chenyu Tang, Shuo Gao, Cong Li, Wentian Yi, Yuxuan Jin, Xiaoxue Zhai, Sixuan Lei, Hongbei Meng, Zibo Zhang, Muzi Xu, Shengbo Wang, Xuhang Chen, Chenxi Wang, Hongyun Yang, Ningli Wang, Wenyu Wang, Jin Cao, Xiaodong Feng, Peter Smielewski, Yu Pan, Wenhui Song, Martin Birchall, Luigi G. Occhipinti,
- Abstract要約: ウェアラブル型サイレント音声システムは, 音声障害患者のコミュニケーション回復に有意な可能性を秘めている。
喉の筋肉振動と頸動脈パルス信号センサを統合したAI駆動型インテリジェント喉(IT)システムを提案する。
変形性脳症の脳卒中患者5名を対象に、ITのLLMエージェントはトークンエラーをインテリジェントに修正し、文レベルの感情的および論理的一貫性を充実させた。
- 参考スコア(独自算出の注目度): 18.380855184550775
- License:
- Abstract: Wearable silent speech systems hold significant potential for restoring communication in patients with speech impairments. However, seamless, coherent speech remains elusive, and clinical efficacy is still unproven. Here, we present an AI-driven intelligent throat (IT) system that integrates throat muscle vibrations and carotid pulse signal sensors with large language model (LLM) processing to enable fluent, emotionally expressive communication. The system utilizes ultrasensitive textile strain sensors to capture high-quality signals from the neck area and supports token-level processing for real-time, continuous speech decoding, enabling seamless, delay-free communication. In tests with five stroke patients with dysarthria, IT's LLM agents intelligently corrected token errors and enriched sentence-level emotional and logical coherence, achieving low error rates (4.2% word error rate, 2.9% sentence error rate) and a 55% increase in user satisfaction. This work establishes a portable, intuitive communication platform for patients with dysarthria with the potential to be applied broadly across different neurological conditions and in multi-language support systems.
- Abstract(参考訳): ウェアラブル型サイレント音声システムは, 音声障害患者のコミュニケーション回復に有意な可能性を秘めている。
しかし、シームレスでコヒーレントなスピーチはいまだ解明されておらず、臨床効果はいまだに証明されていない。
本稿では,喉頭筋振動と頸動脈パルス信号センサを大言語モデル(LLM)処理と統合したAI駆動型インテリジェント喉頭システムについて述べる。
このシステムは、超高感度の繊維ひずみセンサを使用して、首領域から高品質な信号を捕捉し、トークンレベルの処理をリアルタイムかつ連続的な音声復号処理にサポートし、シームレスで遅延のない通信を可能にする。
変形性脳症の5つの脳卒中患者のテストでは、ITのLLMエージェントはトークンエラーをインテリジェントに修正し、文章レベルの感情的および論理的一貫性を高め、低いエラー率(単語エラー率4.2%、文エラー率2.9%)を達成し、ユーザの満足度を55%向上させた。
この研究は、さまざまな神経疾患や多言語サポートシステムにおいて広範囲に応用できる可能性を持つ変形性関節症患者のための、ポータブルで直感的なコミュニケーションプラットフォームを確立する。
関連論文リスト
- Geometry of orofacial neuromuscular signals: speech articulation decoding using surface electromyography [0.0]
何百万人もの個人が、神経筋疾患、脳卒中、外傷、頭頸部がん手術により、知能的に話す能力を失っている。
非侵襲的表面筋電図(sEMG)は、これらの個人における音声出力の回復を約束している。
目標は、音声を静かに生成するときに複数の音場からsEMG信号を収集し、その信号をデコードして、流動的で自然なコミュニケーションを可能にすることである。
論文 参考訳(メタデータ) (2024-11-04T20:31:22Z) - Developing vocal system impaired patient-aimed voice quality assessment approach using ASR representation-included multiple features [0.4681310436826459]
本稿では,音声認識と自己教師型学習表現の利用について紹介する。
実験ではPVQDデータセットのチェックを行い、英語における様々な声道系の損傷の原因をカバーし、パーキンソン病の患者に焦点を当てた日本語データセットを作成した。
PVQDの結果, PCCでは0.8, MSEでは0.5と顕著な相関がみられた。
論文 参考訳(メタデータ) (2024-08-22T10:22:53Z) - Selfsupervised learning for pathological speech detection [0.0]
音声生成は、様々な神経変性疾患による影響と破壊を受けやすい。
これらの障害は、異常な発声パターンと不正確な調音を特徴とする病的発声を引き起こす。
ニューロタイプ話者とは異なり、言語障害や障害のある患者は、AlexaやSiriなど、さまざまなバーチャルアシスタントにアクセスできない。
論文 参考訳(メタデータ) (2024-05-16T07:12:47Z) - UNIT-DSR: Dysarthric Speech Reconstruction System Using Speech Unit
Normalization [60.43992089087448]
変形性音声再構成システムは、変形性音声を正常な音声に変換することを目的としている。
本稿では,HuBERTのドメイン適応能力を活用して学習効率を向上させるユニットDSRシステムを提案する。
NEDアプローチと比較すると、ユニットDSRシステムは音声単位正規化器とユニットHiFi-GANボコーダのみで構成されている。
論文 参考訳(メタデータ) (2024-01-26T06:08:47Z) - Decoding speech perception from non-invasive brain recordings [48.46819575538446]
非侵襲的な記録から知覚音声の自己教師付き表現をデコードするために、コントラスト学習で訓練されたモデルを導入する。
我々のモデルでは、3秒のMEG信号から、1,000以上の異なる可能性から最大41%の精度で対応する音声セグメントを識別できる。
論文 参考訳(メタデータ) (2022-08-25T10:01:43Z) - Synthesizing Dysarthric Speech Using Multi-talker TTS for Dysarthric
Speech Recognition [4.637732011720613]
Dysarthria は運動性発声障害であり、しばしば発声能力の低下を特徴とする。
頑健な変形性障害に対処するためには,十分な訓練音声が必要である。
テキスト音声合成の最近の進歩は、データ拡張に合成を利用する可能性を示している。
論文 参考訳(メタデータ) (2022-01-27T15:22:09Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - A Preliminary Study of a Two-Stage Paradigm for Preserving Speaker
Identity in Dysarthric Voice Conversion [50.040466658605524]
変形性音声変換(DVC)における話者同一性維持のための新しいパラダイムを提案する。
変形性音声の質は統計VCによって大幅に改善される。
しかし, 変形性関節症患者の通常の発話は, ほとんど収集できないため, 過去の研究は患者の個性を取り戻すことはできなかった。
論文 参考訳(メタデータ) (2021-06-02T18:41:03Z) - Automatic Speaker Independent Dysarthric Speech Intelligibility
Assessment System [28.01689694536572]
構音障害(dysarthria)は、個人が発声において重要な役割を果たす筋肉を制御する能力を妨げる状態である。
唇、声帯、舌、横隔膜の動きを補助する筋肉の微細な制御の喪失は、異常な発声をもたらす。
個人が話す音声の知性を分析して、構音のレベルを評価することができる。
論文 参考訳(メタデータ) (2021-03-10T16:15:32Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。