Fugu-MT 論文翻訳(概要): Latent Phrase Matching for Dysarthric Speech

論文の概要: Latent Phrase Matching for Dysarthric Speech

arxiv url: http://arxiv.org/abs/2306.05446v1
Date: Thu, 8 Jun 2023 17:28:28 GMT
ステータス: 翻訳完了
システム内更新日: 2023-06-12 16:05:41.313309
Title: Latent Phrase Matching for Dysarthric Speech
Title（参考訳）: 変形性構音の潜在句マッチング
Authors: Colin Lea, Dianna Yee, Jaya Narain, Zifang Huang, Lauren Tooley, Jeffrey P. Bigham, Leah Findlater
Abstract要約: 多くの消費者音声認識システムは、音声障害者向けに調整されていない。少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
参考スコア（独自算出の注目度）: 23.23672790496787
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Many consumer speech recognition systems are not tuned for people with speech disabilities, resulting in poor recognition and user experience, especially for severe speech differences. Recent studies have emphasized interest in personalized speech models from people with atypical speech patterns. We propose a query-by-example-based personalized phrase recognition system that is trained using small amounts of speech, is language agnostic, does not assume a traditional pronunciation lexicon, and generalizes well across speech difference severities. On an internal dataset collected from 32 people with dysarthria, this approach works regardless of severity and shows a 60% improvement in recall relative to a commercial speech recognition system. On the public EasyCall dataset of dysarthric speech, our approach improves accuracy by 30.5%. Performance degrades as the number of phrases increases, but consistently outperforms ASR systems when trained with 50 unique phrases.
Abstract（参考訳）: 多くの消費者向け音声認識システムは、音声認識障害のある人向けに調整されていないため、音声認識とユーザエクスペリエンスが低下し、特に深刻な音声の相違が生じている。近年の研究では、非定型的な音声パターンを持つ人々からのパーソナライズされた音声モデルへの関心が強調されている。本稿では,クエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。これは少量の音声を用いて訓練され,言語に依存せず,従来の発音レキシコンを仮定しない。構音障害患者32名から収集した内部データセットでは, 本手法は重症度に関係なく動作し, 商用音声認識システムと比較してリコール率が60%向上することを示す。変形性音声の公的な EasyCall データセットでは,その精度を30.5%向上させる。フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。

関連論文リスト

Data-Driven Mispronunciation Pattern Discovery for Robust Speech Recognition [1.0323063834827417]
誤発音パターンを自動的に検出する2つのデータ駆動手法を提案する。非ネイティブな電話機をアテンションマップを使ってネイティブな電話機と整列させることで、ネイティブな英語データセットにおける音声認識の5.7%の改善を実現した。
論文参考訳（メタデータ） (2025-02-01T22:41:43Z)
Towards Unsupervised Speech Recognition Without Pronunciation Models [57.222729245842054]
ほとんどの言語では、音声認識システムを効果的に訓練するのに十分なペア音声とテキストデータがない。本稿では、教師なしASRシステムを開発するために、音素レキシコンへの依存を除去することを提案する。音声合成とテキスト・テキスト・マスクによるトークン埋込から教師なし音声認識が実現可能であることを実験的に実証した。
論文参考訳（メタデータ） (2024-06-12T16:30:58Z)
Self-Supervised Speech Representations Preserve Speech Characteristics while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。変換音声は、元の音声の1%以内に低い単語誤り率を保持する。調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文参考訳（メタデータ） (2022-04-04T17:48:01Z)
Cross-lingual Self-Supervised Speech Representations for Improved Dysarthric Speech Recognition [15.136348385992047]
本研究では, 変形性関節症に対するASRシステムの訓練機能として, Wav2Vec を用いた自己教師型音声表現の有用性について検討した。我々は、Wav2Vec、Hubert、および言語間XLSRモデルから抽出された特徴を持つ音響モデルを訓練する。結果から,大容量データに事前学習した音声表現は,単語誤り率(WER)を向上する可能性が示唆された。
論文参考訳（メタデータ） (2022-04-04T17:36:01Z)
Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。話者識別に最適化された話者エンコーダ (SE) について検討した。我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文参考訳（メタデータ） (2022-02-18T08:59:36Z)
Recent Progress in the CUHK Dysarthric Speech Recognition System [66.69024814159447]
障害音声は、現在のデータ集約型ディープニューラルネットワーク(DNN)に基づく自動音声認識技術に対して、幅広い課題を提示している。本稿では,香港の中国大学における音声認識システムの性能向上に向けた最近の研究成果について述べる。
論文参考訳（メタデータ） (2022-01-15T13:02:40Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
Personalized Automatic Speech Recognition Trained on Small Disordered Speech Datasets [0.0]
言語障害の度合いや種類によって異なる195人を対象に、パーソナライズされたモデルを訓練した。ホームオートメーションのシナリオでは、話者の79%が18～20分間のスピーチでターゲットWERに到達したが、3～4分間のスピーチでは、話者の63%がターゲットWERに到達した。
論文参考訳（メタデータ） (2021-10-09T17:11:17Z)
Comparing Supervised Models And Learned Speech Representations For Classifying Intelligibility Of Disordered Speech On Selected Phrases [11.3463024120429]
提案手法は,選択したフレーズに対して,混乱した音声の理解度を分類するために,異なる深層学習手法を開発し,比較する。各種自己申告障害を有する661人の話者から29の単語やフレーズを発話するサンプルを収集した。
論文参考訳（メタデータ） (2021-07-08T17:24:25Z)
Analysis and Tuning of a Voice Assistant System for Dysfluent Speech [7.233685721929227]
音声認識システムは、音や単語の繰り返し、音の伸長、可聴ブロックなどの非効率な音声によく当てはまらない。既存のハイブリッド音声認識システムにおける復号化パラメータを調整することにより、流速障害のある個人に対して、isWERを24%改善できることを示す。
論文参考訳（メタデータ） (2021-06-18T20:58:34Z)
Dynamic Acoustic Unit Augmentation With BPE-Dropout for Low-Resource End-to-End Speech Recognition [62.94773371761236]
我々は、OOVレートの高い低リソースセットアップで効果的なエンドツーエンドASRシステムを構築することを検討します。本稿では,BPE-dropout法に基づく動的音響ユニット拡張法を提案する。我々の単言語トルココンフォーマーは22.2%の文字誤り率(CER)と38.9%の単語誤り率(WER)の競争結果を確立した。
論文参考訳（メタデータ） (2021-03-12T10:10:13Z)
Learning Explicit Prosody Models and Deep Speaker Embeddings for Atypical Voice Conversion [60.808838088376675]
本稿では,明示的な韻律モデルと深層話者埋め込み学習を用いたVCシステムを提案する。韻律補正器は音素埋め込みを取り入れ、典型的な音素持続時間とピッチ値を推定する。変換モデルは、音素埋め込みと典型的な韻律特徴を入力として、変換された音声を生成する。
論文参考訳（メタデータ） (2020-11-03T13:08:53Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。