論文の概要: Stuttering Speech Disfluency Prediction using Explainable Attribution
Vectors of Facial Muscle Movements
- arxiv url: http://arxiv.org/abs/2010.01231v1
- Date: Fri, 2 Oct 2020 23:45:41 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-12 02:27:56.520597
- Title: Stuttering Speech Disfluency Prediction using Explainable Attribution
Vectors of Facial Muscle Movements
- Title(参考訳): 顔面筋運動の説明可能な帰属ベクトルを用いた発声音声の拡散予測
- Authors: Arun Das, Jeffrey Mock, Henry Chacon, Farzan Irani, Edward Golob,
Peyman Najafirad
- Abstract要約: 発声などの発声障害は、不随意反復、延長、音節や音節のブロックによって、通常の発声を阻害する。
近年,音声発声時の呼吸速度,音声等からAIアルゴリズムを用いて発声を自動的に検出する手法が研究されている。
非侵襲的にキャプチャ可能な、AWSの音声前の顔活動には、今後の発声を流音または発声のいずれかとして正確に分類するための十分な情報が含まれている、という仮説を立てています。
- 参考スコア(独自算出の注目度): 2.6540572249827514
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech disorders such as stuttering disrupt the normal fluency of speech by
involuntary repetitions, prolongations and blocking of sounds and syllables. In
addition to these disruptions to speech fluency, most adults who stutter (AWS)
also experience numerous observable secondary behaviors before, during, and
after a stuttering moment, often involving the facial muscles. Recent studies
have explored automatic detection of stuttering using Artificial Intelligence
(AI) based algorithm from respiratory rate, audio, etc. during speech
utterance. However, most methods require controlled environments and/or
invasive wearable sensors, and are unable explain why a decision (fluent vs
stuttered) was made. We hypothesize that pre-speech facial activity in AWS,
which can be captured non-invasively, contains enough information to accurately
classify the upcoming utterance as either fluent or stuttered. Towards this
end, this paper proposes a novel explainable AI (XAI) assisted convolutional
neural network (CNN) classifier to predict near future stuttering by learning
temporal facial muscle movement patterns of AWS and explains the important
facial muscles and actions involved. Statistical analyses reveal significantly
high prevalence of cheek muscles (p<0.005) and lip muscles (p<0.005) to predict
stuttering and shows a behavior conducive of arousal and anticipation to speak.
The temporal study of these upper and lower facial muscles may facilitate early
detection of stuttering, promote automated assessment of stuttering and have
application in behavioral therapies by providing automatic non-invasive
feedback in realtime.
- Abstract(参考訳): 発声などの発声障害は、不随意反復、延長、音節や音節のブロックによって、通常の発声を阻害する。
発声の混乱に加え、ほとんどの成人(AWS)は、しばしば顔の筋肉にかかわる、乱暴な瞬間の前、中、そして後、多くの観察可能な二次的行動を経験する。
近年,音声発声時の呼吸速度,音声等からAIアルゴリズムを用いて発声を自動的に検出する手法が研究されている。
しかし、ほとんどの方法は制御された環境や侵略的なウェアラブルセンサーを必要としており、なぜ決定が下されたのかは説明できない。
非侵襲的にキャプチャ可能な、AWSの音声前の顔活動には、今後の発声を流音または発声のいずれかとして正確に分類するための十分な情報が含まれている、という仮説を立てています。
そこで本研究では,aws の側頭筋運動パターンを学習することにより,近い将来の発話を予測できる新しい説明可能なai (xai) 支援畳み込みニューラルネットワーク (cnn) 分類法を提案する。
統計的にみると, 頬筋 (p<0.005) と口唇筋 (p<0.005) の有意な頻度で発声を予測でき, 発声と発声を予知する行動がみられた。
これらの上下顎顔面筋の時間的研究は、突撃の早期発見を促進し、突撃の自動評価を促進し、リアルタイムに非侵襲的な自動フィードバックを提供することで行動療法に応用することができる。
関連論文リスト
- Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。
我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。
その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文 参考訳(メタデータ) (2024-09-30T06:29:58Z) - Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Stutter-TTS: Controlled Synthesis and Improved Recognition of Stuttered
Speech [20.2646788350211]
スタタリング(英: Stuttering)とは、音声の自然な流れが、音節、単語、フレーズのブロック、反復、延長によって中断される言語障害である。
本稿では,多種多様な発声音声を合成できるエンドツーエンドのニューラルテキスト・音声モデルであるStutter-TTSについて述べる。
論文 参考訳(メタデータ) (2022-11-04T23:45:31Z) - TranSpeech: Speech-to-Speech Translation With Bilateral Perturbation [61.564874831498145]
TranSpeechは、両側摂動を伴う音声から音声への翻訳モデルである。
我々は,非自己回帰S2ST手法を構築し,繰り返しマスキングを行い,単位選択を予測する。
TranSpeechは推論遅延を大幅に改善し、自動回帰技術よりも最大21.4倍のスピードアップを実現している。
論文 参考訳(メタデータ) (2022-05-25T06:34:14Z) - Detecting Dysfluencies in Stuttering Therapy Using wav2vec 2.0 [0.22940141855172028]
英語コーパスのスタブリング分類のための微調整wav2vec 2.0は、汎用的特徴の有効性を高める。
本稿では、Fluencybankとドイツのセラピー中心のKassel State of Fluencyデータセットについて評価する。
論文 参考訳(メタデータ) (2022-04-07T13:02:12Z) - KSoF: The Kassel State of Fluency Dataset -- A Therapy Centered Dataset
of Stuttering [58.91587609873915]
この研究で紹介されるKassel State of Fluency (KSoF)は、治療ベースのデータセットで、5500以上の散在するPWSのクリップを含んでいる。
オーディオは、Institut der Kasseler Stottertherapieのセラピーセッション中に録音された。
論文 参考訳(メタデータ) (2022-03-10T14:17:07Z) - Multi-view Temporal Alignment for Non-parallel Articulatory-to-Acoustic
Speech Synthesis [59.623780036359655]
A2A(Articulatory-to-Aoustic)合成は、音声刺激器のキャプチャされた動きから可聴音声の生成を指します。
この手法には、病気や怪我のためにもはや話せない人々への口頭コミュニケーションの回復など、多くの応用がある。
本稿では,多視点学習の理論に基づく問題解決法を提案する。
論文 参考訳(メタデータ) (2020-12-30T15:09:02Z) - Silent Speech Interfaces for Speech Restoration: A Review [59.68902463890532]
サイレント音声インタフェース (SSI) の研究は、重度音声障害の患者に対して、代替的で拡張的なコミュニケーション方法を提供することを目的としている。
SSIは、コミュニケーションを可能にするために、音声生成中に人体によって生成される非音響バイオシグナーに依存している。
現在、ほとんどのSSIは、健康なユーザーのために実験室でのみ検証されている。
論文 参考訳(メタデータ) (2020-09-04T11:05:50Z) - Towards Automated Assessment of Stuttering and Stuttering Therapy [0.22940141855172028]
発声は複雑な発声障害であり、繰り返し、音、音節または単語の延長、発話中のブロックによって識別できる。
発声重大度評価の一般的な方法は、発声中の3つの最長発声症状の平均である発声音節(%SS)、最近導入された発声効率スコア(SES)などがある。
本稿では,スタブリングの重症度を評価する新しい手法である音声制御指標(SCI)を提案する。
論文 参考訳(メタデータ) (2020-06-16T14:50:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。