Fugu-MT 論文翻訳(概要): Personalized Speech Recognition for Children with Test-Time Adaptation

論文の概要: Personalized Speech Recognition for Children with Test-Time Adaptation

arxiv url: http://arxiv.org/abs/2409.13095v1
Date: Thu, 19 Sep 2024 21:40:07 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 11:52:12.994313
Title: Personalized Speech Recognition for Children with Test-Time Adaptation
Title（参考訳）: テスト時間適応児に対するパーソナライズされた音声認識
Authors: Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi, Shrikanth Narayanan, Maja J. Matarić,
Abstract要約: 主に成人データに基づいて事前訓練されたオフザシェルフ自動音声認識(ASR)モデルは、子供の発話に悪影響を及ぼす傾向にある。子どもの音声認識に教師なしテスト時間適応(TTA)手法を適用する新しいASRパイプラインを考案した。以上の結果から,TTA法に適応したASRモデルは,個々の子話者の平均および統計的に,未適応のASRベースラインよりも有意に優れていた。
参考スコア（独自算出の注目度）: 21.882608966462932
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Accurate automatic speech recognition (ASR) for children is crucial for effective real-time child-AI interaction, especially in educational applications. However, off-the-shelf ASR models primarily pre-trained on adult data tend to generalize poorly to children's speech due to the data domain shift from adults to children. Recent studies have found that supervised fine-tuning on children's speech data can help bridge this domain shift, but human annotations may be impractical to obtain for real-world applications and adaptation at training time can overlook additional domain shifts occurring at test time. We devised a novel ASR pipeline to apply unsupervised test-time adaptation (TTA) methods for child speech recognition, so that ASR models pre-trained on adult speech can be continuously adapted to each child speaker at test time without further human annotations. Our results show that ASR models adapted with TTA methods significantly outperform the unadapted off-the-shelf ASR baselines both on average and statistically across individual child speakers. Our analysis also discovered significant data domain shifts both between child speakers and within each child speaker, which further motivates the need for test-time adaptation.
Abstract（参考訳）: 子どものための正確な自動音声認識(ASR)は、特に教育応用において、効果的なリアルタイムの児童とAIの相互作用に不可欠である。しかし、主に成人データに基づいて事前訓練された市販のASRモデルは、成人から子供へのデータ領域のシフトにより、子供の発話に悪影響を及ぼす傾向にある。近年の研究では、子供の音声データの教師付き微調整がこのドメインシフトの橋渡しに役立つことが報告されているが、人間のアノテーションは現実の応用には実用的ではなく、テスト時に追加のドメインシフトが生じるのを見落としることができる。そこで我々は,子どもの音声認識に教師なしテスト時間適応(TTA)手法を適用する新しいASRパイプラインを考案した。以上の結果から,TTA法に適応したASRモデルは,個々の子話者の平均および統計的に,未適応のASRベースラインよりも有意に優れていた。また, 子話者と子話者の間に有意なデータ領域シフトがみられ, テスト時間適応の必要性がさらに高まった。

関連論文リスト

SUTA-LM: Bridging Test-Time Adaptation and Language Model Rescoring for Robust ASR [58.31068047426522]
テスト時間適応(TTA)は、推論中にモデルを調整することで緩和することを目的としている。最近の研究は、ビーム探索再構成や生成誤り訂正といった手法を用いて、TTAと外部言語モデルの組み合わせについて検討している。本稿では,SUTAの簡易かつ効果的な拡張であるSUTA-LMを提案する。 18種類のASRデータセットの実験により、SUTA-LMは幅広い領域で堅牢な結果が得られることが示された。
論文参考訳（メタデータ） (2025-06-10T02:50:20Z)
Predictive Speech Recognition and End-of-Utterance Detection Towards Spoken Dialog Systems [55.99999020778169]
本稿では,次の単語を予測し,発話終了まで残される時間を推定する機能について検討する。我々は,音響情報と言語情報の両方を組み込んだクロスアテンションに基づくアルゴリズムを開発した。その結果,提案モデルでは,提案する単語を予測し,将来のEOUイベントを実際のEOUより300ミリ秒前まで推定する能力を示した。
論文参考訳（メタデータ） (2024-09-30T06:29:58Z)
Evaluation of state-of-the-art ASR Models in Child-Adult Interactions [27.30130353688078]
音声基礎モデルでは, 成人の発話と比較して, 子どもの発話に対する顕著な性能低下(15-20%絶対WER)がみられた。低資源環境下での微調整の有効性を探索するために,最良性能のゼロショットモデル(Whisper-large)にLoRAを用いる。
論文参考訳（メタデータ） (2024-09-24T14:42:37Z)
LI-TTA: Language Informed Test-Time Adaptation for Automatic Speech Recognition [43.19328760778868]
TTA(Test-Time Adaptation)は、ドメインシフト問題に対する重要な解決策として登場した。言語インフォームドテスト時間適応(Language Informed Test-Time Adaptation, LI-TTA)を提案する。
論文参考訳（メタデータ） (2024-08-11T13:19:27Z)
Homogeneous Speaker Features for On-the-Fly Dysarthric and Elderly Speaker Adaptation [71.31331402404662]
本稿では, 変形性関節症と高齢者の話者レベルの特徴を学習するための2つの新しいデータ効率手法を提案する。話者規則化スペクトルベース埋め込み-SBE特徴は、特別な正規化項を利用して適応における話者特徴の均一性を強制する。テスト時間適応において、話者レベルのデータ量に敏感であることが示されるVR-LH機能に規定されている特徴ベースの学習隠れユニットコントリビューション(f-LHUC)。
論文参考訳（メタデータ） (2024-07-08T18:20:24Z)
Benchmarking Children's ASR with Supervised and Self-supervised Speech Foundation Models [23.383924361298874]
音声基礎モデル(SFM)は、教師付き(例えば、Whisper)や自己監督型(例えば、WavLM)の様々な音声タスクに対して最先端の結果を得た。
論文参考訳（メタデータ） (2024-06-15T05:13:19Z)
A comparative analysis between Conformer-Transducer, Whisper, and wav2vec2 for improving the child speech recognition [2.965450563218781]
幼児音声におけるコンフォーマー・トランスデューサモデルの微調整は、児童音声におけるASR性能を大幅に向上させることを示す。また、Whisper と wav2vec2 を異なる子音声データセットに適応させる。
論文参考訳（メタデータ） (2023-11-07T19:32:48Z)
Understanding Spoken Language Development of Children with ASD Using Pre-trained Speech Embeddings [26.703275678213135]
自然言語サンプル(NLS)分析は,従来の手法を補完する有望な手法として注目されている。本稿では,子どもの音声言語発達の自動評価を支援するために,音声処理技術の応用を提案する。
論文参考訳（メタデータ） (2023-05-23T14:39:49Z)
Analysing the Impact of Audio Quality on the Use of Naturalistic Long-Form Recordings for Infant-Directed Speech Research [62.997667081978825]
早期言語習得のモデリングは、幼児が言語スキルをブートストラップする方法を理解することを目的としている。近年の進歩により、より自然主義的なトレーニングデータを計算モデルに利用できるようになった。音質がこれらのデータに対する分析やモデリング実験にどう影響するかは、現時点では不明である。
論文参考訳（メタデータ） (2023-05-03T08:25:37Z)
DELTA: degradation-free fully test-time adaptation [59.74287982885375]
テスト時間バッチ正規化(BN)や自己学習といった,一般的な適応手法では,2つの好ましくない欠陥が隠されていることがわかった。まず、テスト時間BNにおける正規化統計は、現在受信されているテストサンプルに完全に影響され、その結果、不正確な推定結果が得られることを明らかにする。第二に、テスト時間適応中にパラメータ更新が支配的なクラスに偏っていることを示す。
論文参考訳（メタデータ） (2023-01-30T15:54:00Z)
Transfer Learning for Robust Low-Resource Children's Speech ASR with Transformers and Source-Filter Warping [11.584388304271029]
本研究では,成人と子どもの発話の領域ギャップを埋めるために,音声のソースフィルタモデルに基づくデータ拡張手法を提案する。この拡張戦略を用いて、成人データに基づいて事前学習したTransformerモデルに転送学習を適用する。このモデルは、最近導入されたXLS-Rアーキテクチャ(wav2vec 2.0モデル)に従っている。
論文参考訳（メタデータ） (2022-06-19T12:57:47Z)
Listen, Adapt, Better WER: Source-free Single-utterance Test-time Adaptation for Automatic Speech Recognition [65.84978547406753]
Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
論文参考訳（メタデータ） (2022-03-27T06:38:39Z)
An Exploration of Self-Supervised Pretrained Representations for End-to-End Speech Recognition [98.70304981174748]
本稿では,事前訓練された音声表現の一般応用,高度なエンドツーエンド自動音声認識(E2E-ASR)モデルに焦点をあてる。いくつかの事前訓練された音声表現を選択し、E2E-ASRのための様々なオープンソースおよび公開コーパスの実験結果を示す。
論文参考訳（メタデータ） (2021-10-09T15:06:09Z)
A study on the efficacy of model pre-training in developing neural text-to-speech system [55.947807261757056]
本研究の目的は,モデル事前学習がTSシステム性能に肯定的に寄与する理由と方法を明らかにすることである。トレーニング前のデータを元のサイズの1/8に減らすと,TSシステムは同等の性能が得られることがわかった。
論文参考訳（メタデータ） (2021-10-08T02:09:28Z)
Improving Readability for Automatic Speech Recognition Transcription [50.86019112545596]
我々は、可読性のためのASRポストプロセッシング(APR)と呼ばれる新しいNLPタスクを提案する。 APRは、ノイズの多いASR出力を、話者の意味を保ちながら、人間や下流タスクのための読みやすいテキストに変換することを目的としている。我々は,いくつかのオープンソースモデルと適応型事前学習モデルに基づく微調整モデルと,従来のパイプライン手法との比較を行った。
論文参考訳（メタデータ） (2020-04-09T09:26:42Z)
Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文参考訳（メタデータ） (2020-01-28T22:09:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。