Fugu-MT 論文翻訳(概要): Personalized Automatic Speech Recognition Trained on Small Disordered Speech Datasets

論文の概要: Personalized Automatic Speech Recognition Trained on Small Disordered Speech Datasets

arxiv url: http://arxiv.org/abs/2110.04612v1
Date: Sat, 9 Oct 2021 17:11:17 GMT
ステータス: 翻訳完了
システム内更新日: 2021-10-16 22:13:07.147817
Title: Personalized Automatic Speech Recognition Trained on Small Disordered Speech Datasets
Title（参考訳）: 小障害音声データセットを用いた個人化自動音声認識
Authors: Jimmy Tobin and Katrin Tomanek
Abstract要約: 言語障害の度合いや種類によって異なる195人を対象に、パーソナライズされたモデルを訓練した。ホームオートメーションのシナリオでは、話者の79%が18～20分間のスピーチでターゲットWERに到達したが、3～4分間のスピーチでは、話者の63%がターゲットWERに到達した。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This study investigates the performance of personalized automatic speech recognition (ASR) for recognizing disordered speech using small amounts of per-speaker adaptation data. We trained personalized models for 195 individuals with different types and severities of speech impairment with training sets ranging in size from <1 minute to 18-20 minutes of speech data. Word error rate (WER) thresholds were selected to determine Success Percentage (the percentage of personalized models reaching the target WER) in different application scenarios. For the home automation scenario, 79% of speakers reached the target WER with 18-20 minutes of speech; but even with only 3-4 minutes of speech, 63% of speakers reached the target WER. Further evaluation found similar improvement on test sets with conversational and out-of-domain, unprompted phrases. Our results demonstrate that with only a few minutes of recordings, individuals with disordered speech could benefit from personalized ASR.
Abstract（参考訳）: 本研究では, 話者ごとの適応データを用いて, 個人別自動音声認識(ASR)の性能について検討した。 1分から18～20分程度の大きさの音声データを用いて、異なるタイプの音声障害の重症度を持つ195人のパーソナライズされたモデルを訓練した。異なるアプリケーションシナリオで成功率(ターゲットのwerに到達するパーソナライズされたモデルの割合)を決定するために、単語誤り率(wer)閾値が選択された。ホームオートメーションのシナリオでは、話者の79%が18～20分間のスピーチでターゲットWERに到達したが、3～4分間のスピーチでは63%がターゲットWERに到達した。さらなる評価では、会話型およびドメイン外、プロンプトなしのフレーズを用いたテストセットでも同様の改善が見られた。その結果、わずか数分の録音で、発話障害のある個人はパーソナライズされたasrの恩恵を受けることができた。

関連論文リスト

Self-supervised Speech Models for Word-Level Stuttered Speech Detection [66.46810024006712]
自己教師付き音声モデルを利用した単語レベルの発声音声検出モデルを提案する。本評価は, 単語レベルの発声検出において, 従来の手法を超越していることを示す。
論文参考訳（メタデータ） (2024-09-16T20:18:20Z)
EARS: An Anechoic Fullband Speech Dataset Benchmarked for Speech Enhancement and Dereverberation [83.29199726650899]
EARSデータセットは、さまざまなバックグラウンドから107人の話者で構成され、100時間のクリーンで無響な音声データである。データセットには、感情的なスピーチ、異なる読み方、非言語音、会話の自由なスピーチなど、幅広い種類の話し方が含まれている。提案手法は,データセット上での音声強調とデバーベレーションのための様々な手法をベンチマークし,その性能を測定値を用いて評価する。
論文参考訳（メタデータ） (2024-06-10T11:28:29Z)
Latent Phrase Matching for Dysarthric Speech [23.23672790496787]
多くの消費者音声認識システムは、音声障害者向けに調整されていない。少量の音声を用いて学習したクエリ・バイ・サンプル・ベースのパーソナライズド・フレーズ認識システムを提案する。フレーズの数が増えるにつれて性能は低下するが、50のユニークなフレーズで訓練された場合、一貫してASRシステムより優れる。
論文参考訳（メタデータ） (2023-06-08T17:28:28Z)
Pre-Finetuning for Few-Shot Emotional Speech Recognition [20.894029832911617]
我々は話者適応を数発の学習問題と見なしている。そこで本研究では,知識を数発の下流分類対象に抽出する難解な課題に対する事前学習音声モデルを提案する。
論文参考訳（メタデータ） (2023-02-24T22:38:54Z)
Self-Supervised Speech Representations Preserve Speech Characteristics while Anonymizing Voices [15.136348385992047]
我々は、自己教師付き音声表現を用いて、複数の音声変換モデルを訓練する。変換音声は、元の音声の1%以内に低い単語誤り率を保持する。調音・韻律・発声・音韻に関連する音声特徴を匿名音声から抽出できることを示す。
論文参考訳（メタデータ） (2022-04-04T17:48:01Z)
Speaker Identity Preservation in Dysarthric Speech Reconstruction by Adversarial Speaker Adaptation [59.41186714127256]
変形性音声再建(DSR)は,変形性音声の品質向上を目的としている。話者識別に最適化された話者エンコーダ (SE) について検討した。我々は,新しいマルチタスク学習戦略,すなわち対人話者適応(ASA)を提案する。
論文参考訳（メタデータ） (2022-02-18T08:59:36Z)
Investigation of Data Augmentation Techniques for Disordered Speech Recognition [69.50670302435174]
本稿では,不規則音声認識のための一連のデータ拡張手法について検討する。正常な音声と無秩序な音声の両方が増強過程に利用された。 UASpeechコーパスを用いた最終話者適応システムと、最大2.92%の絶対単語誤り率(WER)の速度摂動に基づく最良の拡張アプローチ
論文参考訳（メタデータ） (2022-01-14T17:09:22Z)
WavLM: Large-Scale Self-Supervised Pre-Training for Full Stack Speech Processing [102.45426364965887]
そこで本研究では,フルスタックダウンストリーム音声タスクを解決するための,事前学習型モデルWavLMを提案する。 WavLMはHuBERTフレームワークに基づいて構築されており、音声コンテンツモデリングと話者アイデンティティ保存の両方に重点を置いている。トレーニングデータセットを60k時間から94k時間までの公開オーディオデータにスケールアップし、そのトレーニング手順を最適化して表現抽出を改善する。
論文参考訳（メタデータ） (2021-10-26T17:55:19Z)
Personalized Speech Enhancement: New Models and Comprehensive Evaluation [27.572537325449158]
従来提案されていたVoiceFilterよりも優れた性能を実現するために,パーソナライズされた音声強調(PSE)モデルのための2つのニューラルネットワークを提案する。また、ビデオ会議中にユーザが遭遇するさまざまなシナリオをキャプチャするテストセットも作成します。その結果,提案モデルでは,ベースラインモデルよりも音声認識精度,音声認識精度,知覚品質が向上することが示唆された。
論文参考訳（メタデータ） (2021-10-18T21:21:23Z)
On-Device Personalization of Automatic Speech Recognition Models for Disordered Speech [9.698986579582236]
デバイス上でのASRパーソナライズには非常に少ない話者データを用いたアプローチを提案する。提案手法は,発話障害のある話者100名を対象に試行し,話者ごとの発話が50人程度しか必要とせず,単語誤り率の中央値が71%向上していることを確認した。
論文参考訳（メタデータ） (2021-06-18T17:48:08Z)
UniSpeech: Unified Speech Representation Learning with Labeled and Unlabeled Data [54.733889961024445]
ラベル付きデータとラベル付きデータの両方を用いて音声表現を学習するためのUniSpeechという統合事前学習手法を提案する。公立CommonVoiceコーパス上での言語間表現学習におけるUniSpeechの有効性を評価する。
論文参考訳（メタデータ） (2021-01-19T12:53:43Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。