論文の概要: SpikeVox: Towards Energy-Efficient Speech Therapy Framework with Spike-driven Generative Language Models
- arxiv url: http://arxiv.org/abs/2510.15566v1
- Date: Fri, 17 Oct 2025 11:54:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.607493
- Title: SpikeVox: Towards Energy-Efficient Speech Therapy Framework with Spike-driven Generative Language Models
- Title(参考訳): SpikeVox:スパイク駆動生成言語モデルを用いたエネルギー効率の良い音声治療フレームワーク
- Authors: Rachmad Vidya Wicaksana Putra, Aadithyan Rajesh Nair, Muhammad Shafique,
- Abstract要約: SpikeVoxは、エネルギー効率の良い音声治療ソリューションを実現するための新しいフレームワークである。
SpikeVoxは音声認識モジュールを使用して、高精度な音声からテキストへの変換を行う。
また、治療のための適切なエクササイズを生成し、フィードバックとして正しい発音に関するガイダンスを提供する。
- 参考スコア(独自算出の注目度): 3.1061484260786014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech disorders can significantly affect the patients capability to communicate, learn, and socialize. However, existing speech therapy solutions (e.g., therapist or tools) are still limited and costly, hence such solutions remain inadequate for serving millions of patients worldwide. To address this, state-of-the-art methods employ neural network (NN) algorithms to help accurately detecting speech disorders. However, these methods do not provide therapy recommendation as feedback, hence providing partial solution for patients. Moreover, these methods incur high energy consumption due to their complex and resource-intensive NN processing, hence hindering their deployments on low-power/energy platforms (e.g., smartphones). Toward this, we propose SpikeVox, a novel framework for enabling energy-efficient speech therapy solutions through spike-driven generative language model. Specifically, SpikeVox employs a speech recognition module to perform highly accurate speech-to-text conversion; leverages a spike-driven generative language model to efficiently perform pattern analysis for speech disorder detection and generates suitable exercises for therapy; provides guidance on correct pronunciation as feedback; as well as utilizes the REST API to enable seamless interaction for users. Experimental results demonstrate that SpikeVox achieves 88% confidence level on average in speech disorder recognition, while providing a complete feedback for therapy exercises. Therefore, SpikeVox provides a comprehensive framework for energy-efficient speech therapy solutions, and potentially addresses the significant global speech therapy access gap.
- Abstract(参考訳): 言語障害は、患者がコミュニケーションし、学習し、社交する能力に大きな影響を及ぼす可能性がある。
しかし、既存の音声治療ソリューション(例えば、セラピストや道具)は依然として限定的でコストがかかるため、世界中で何百万人もの患者を治療するには不十分である。
これを解決するために、最先端の手法はニューラルネットワーク(NN)アルゴリズムを使用して、音声障害を正確に検出する。
しかし、これらの方法は、フィードバックとしてセラピーレコメンデーションを提供していないため、患者に部分的な解決策を提供する。
さらに,これらの手法は複雑かつ資源集約的なNN処理によって高エネルギー消費を招き,低消費電力・高エネルギープラットフォーム(スマートフォンなど)への展開を妨げている。
そこで本研究では,スパイク駆動生成言語モデルによるエネルギー効率向上のための新しいフレームワークであるSpikeVoxを提案する。
具体的には、音声認識モジュールを使用して、高精度な音声からテキストへの変換を行う。スパイク駆動生成言語モデルを使用して、音声障害検出のためのパターン分析を効率的に実行し、治療のための適切なエクササイズを生成するとともに、フィードバックとして正しい発音に関するガイダンスを提供する。
実験結果から、SpikeVoxは平均88%の信頼度を音声認識において達成し、治療演習の完全なフィードバックを提供することが示された。
そのため、SpikeVoxは、エネルギー効率の良い音声治療ソリューションのための包括的なフレームワークを提供し、重要なグローバルな音声治療アクセスギャップに対処する可能性がある。
関連論文リスト
- Variational Low-Rank Adaptation for Personalized Impaired Speech Recognition [8.838919369202525]
先天性障害による音声障害は,音声認識システムにおいて大きな課題となる。
Whisperのような最先端のASRモデルは、トレーニングデータの可用性の制限と高い音響可変性のために、まだ非ノルマ的音声に苦慮している。
本研究では,データ効率のよい微調整のためのベイジアン低ランク適応に基づく新しいASRパーソナライズ手法を提案する。
論文 参考訳(メタデータ) (2025-09-23T13:44:58Z) - Adapting Foundation Speech Recognition Models to Impaired Speech: A Semantic Re-chaining Approach for Personalization of German Speech [0.562479170374811]
脳性麻痺や遺伝性障害などの症状による音声障害は、自動音声認識システムに重大な課題をもたらす。
本稿では,ASRモデルをパーソナライズする実用的で軽量なパイプラインを提案し,単語の選択を形式化し,セマンティック・コヒーレンスによる音声障害者データセットを充実させる。
提案手法は,非典型的音声パターンを持つ個人に対するコミュニケーション障壁を低減する可能性を示した。
論文 参考訳(メタデータ) (2025-06-23T15:30:50Z) - Improved Intelligibility of Dysarthric Speech using Conditional Flow Matching [0.0]
失語症(Dysarthria)は、言語機能障害の1つ。
これにより、頑健な顎関節-正則音声変換技術の開発が必要とされる。
論文 参考訳(メタデータ) (2025-06-19T08:24:17Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset
of Stuttering [58.91587609873915]
この研究で紹介されるKassel State of Fluency (KSoF)は、治療ベースのデータセットで、5500以上の散在するPWSのクリップを含んでいる。
オーディオは、Institut der Kasseler Stottertherapieのセラピーセッション中に録音された。
論文 参考訳(メタデータ) (2022-03-10T14:17:07Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - STAN: A stuttering therapy analysis helper [59.37911277681339]
発声は、繰り返し、音、音節または単語の延長、発話中のブロックによって識別される複雑な音声障害である。
本稿では, 言語療法士を支援するシステムSTANについて紹介する。
論文 参考訳(メタデータ) (2021-06-15T13:48:12Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Stutter Diagnosis and Therapy System Based on Deep Learning [2.3581263491506097]
スタッタリング(stammering)は、音声の連続性を破るコミュニケーション障害である。
本稿では,MFCC音声特徴に対するGated Recurrent CNNを用いたスタッター診断エージェントの実装と,SVMを用いた治療勧告エージェントの実装に焦点を当てた。
論文 参考訳(メタデータ) (2020-07-13T10:24:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。