論文の概要: Nonverbal Sound Detection for Disordered Speech
- arxiv url: http://arxiv.org/abs/2202.07750v1
- Date: Tue, 15 Feb 2022 22:02:58 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-17 15:32:28.819658
- Title: Nonverbal Sound Detection for Disordered Speech
- Title(参考訳): 不規則音声の非言語音検出
- Authors: Colin Lea, Zifang Huang, Dhruv Jain, Lauren Tooley, Zeinab Liaghat,
Shrinath Thelapurath, Leah Findlater, Jeffrey P. Bigham
- Abstract要約: 15個の非言語音を用いた音声事象検出に依拠する音声入力システムを提案する。
このシステムは、人の音声能力に関係なく動作し、既存の技術に完全にアクセスできるように設計されている。
- 参考スコア(独自算出の注目度): 24.636175845214822
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Voice assistants have become an essential tool for people with various
disabilities because they enable complex phone- or tablet-based interactions
without the need for fine-grained motor control, such as with touchscreens.
However, these systems are not tuned for the unique characteristics of
individuals with speech disorders, including many of those who have a
motor-speech disorder, are deaf or hard of hearing, have a severe stutter, or
are minimally verbal. We introduce an alternative voice-based input system
which relies on sound event detection using fifteen nonverbal mouth sounds like
"pop," "click," or "eh." This system was designed to work regardless of ones'
speech abilities and allows full access to existing technology. In this paper,
we describe the design of a dataset, model considerations for real-world
deployment, and efforts towards model personalization. Our fully-supervised
model achieves segment-level precision and recall of 88.6% and 88.4% on an
internal dataset of 710 adults, while achieving 0.31 false positives per hour
on aggressors such as speech. Five-shot personalization enables satisfactory
performance in 84.5% of cases where the generic model fails.
- Abstract(参考訳): 音声アシスタントは、タッチスクリーンのようなきめ細かいモーター制御を必要とせず、複雑な電話やタブレットベースのインタラクションを可能にするため、様々な障害を持つ人々にとって必須のツールになっている。
しかし、これらのシステムは、運動障害、難聴、難聴、重度の発声、最小の言語性など、言語障害を持つ個人の独特の特徴に合わせて調整されていない。
音声を用いた音声入力システムでは、「ポップ」や「クリック」や「eh」といった15の非言語音を用いた音声イベント検出が可能である。
このシステムは、人の音声能力に関係なく動作し、既存の技術に完全にアクセスできるように設計されている。
本稿では,データセットの設計,実世界展開のためのモデル考慮,モデルパーソナライゼーションへの取り組みについて述べる。
完全教師付きモデルは,成人710名の内部データセット上でセグメントレベルの精度と88.6%,88.4%のリコールを達成し,音声などの攻撃者では1時間あたり0.31偽陽性となった。
5ショットパーソナライゼーションは、ジェネリックモデルに失敗した場合の84.5%で満足できるパフォーマンスを実現する。
関連論文リスト
- Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。
本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文 参考訳(メタデータ) (2024-09-16T20:18:20Z) - Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。
少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。
フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文 参考訳(メタデータ) (2023-06-08T17:28:28Z) - Play it by Ear: Learning Skills amidst Occlusion through Audio-Visual
Imitation Learning [62.83590925557013]
我々は視覚と音声の入力から、部分的に観察された操作タスクのセットを学習する。
提案システムは,遠隔操作による実演とオンラインファインタニングを併用することで,これらの課題を学習する。
模擬課題の集合において、我々のシステムは音声を使うことの恩恵を受けており、オンライン介入を用いることで、オフライン模倣学習の成功率を20%向上できることがわかった。
論文 参考訳(メタデータ) (2022-05-30T04:52:58Z) - Self-Supervised Speech Representations Preserve Speech Characteristics
while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。
変換音声は、元の音声の1%以内に低い単語誤り率を保持する。
調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文 参考訳(メタデータ) (2022-04-04T17:48:01Z) - Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。
本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文 参考訳(メタデータ) (2022-01-15T13:02:40Z) - Investigation of Data Augmentation Techniques for Disordered Speech
Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。
正常な音声と無秩序な音声の両方が増強過程に利用された。
UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文 参考訳(メタデータ) (2022-01-14T17:09:22Z) - Personalized Automatic Speech Recognition Trained on Small Disordered
Speech Datasets [0.0]
言語障害の度合いや種類によって異なる195人を対象に、パーソナライズされたモデルを訓練した。
ホームオートメーションのシナリオでは、話者の79%が18~20分間のスピーチでターゲットWERに到達したが、3~4分間のスピーチでは、話者の63%がターゲットWERに到達した。
論文 参考訳(メタデータ) (2021-10-09T17:11:17Z) - Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。
既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文 参考訳(メタデータ) (2021-06-18T20:58:34Z) - On-Device Personalization of Automatic Speech Recognition Models for
Disordered Speech [9.698986579582236]
デバイス上でのASRパーソナライズには非常に少ない話者データを用いたアプローチを提案する。
提案手法は,発話障害のある話者100名を対象に試行し,話者ごとの発話が50人程度しか必要とせず,単語誤り率の中央値が71%向上していることを確認した。
論文 参考訳(メタデータ) (2021-06-18T17:48:08Z) - Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource
End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。
本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。
我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文 参考訳(メタデータ) (2021-03-12T10:10:13Z) - Speaker De-identification System using Autoencoders and Adversarial
Training [58.720142291102135]
本稿では,対人訓練とオートエンコーダに基づく話者識別システムを提案する。
実験結果から, 対向学習とオートエンコーダを組み合わせることで, 話者検証システムの誤り率が同等になることがわかった。
論文 参考訳(メタデータ) (2020-11-09T19:22:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。