論文の概要: Robust Unsupervised Adaptation of a Speech Recogniser Using Entropy Minimisation and Speaker Codes
- arxiv url: http://arxiv.org/abs/2506.10653v1
- Date: Thu, 12 Jun 2025 12:40:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-13 15:37:22.733223
- Title: Robust Unsupervised Adaptation of a Speech Recogniser Using Entropy Minimisation and Speaker Codes
- Title(参考訳): エントロピー最小化と話者符号を用いた音声認識器のロバスト教師なし適応
- Authors: Rogier C. van Dalen, Shucong Zhang, Titouan Parcollet, Sourav Bhattacharya,
- Abstract要約: 本稿では,1分間のデータに適応する手法の組み合わせを提案する。
複数の仮説を用いることで、初期認識における誤りへの適応がより堅牢になる。
遠距離雑音強調版であるCommon Voiceでは、1分間のデータで単語誤り率を20%向上させる手法が提案されている。
- 参考スコア(独自算出の注目度): 17.622549374171427
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech recognisers usually perform optimally only in a specific environment and need to be adapted to work well in another. For adaptation to a new speaker, there is often too little data for fine-tuning to be robust, and that data is usually unlabelled. This paper proposes a combination of approaches to make adaptation to a single minute of data robust. First, instead of estimating the adaptation parameters with cross-entropy on a single error-prone hypothesis or "pseudo-label", this paper proposes a novel loss function, the conditional entropy over complete hypotheses. Using multiple hypotheses makes adaptation more robust to errors in the initial recognition. Second, a "speaker code" characterises a speaker in a vector short enough that it requires little data to estimate. On a far-field noise-augmented version of Common Voice, the proposed scheme yields a 20% relative improvement in word error rate on one minute of adaptation data, increasing on 10 minutes to 29%.
- Abstract(参考訳): 音声認識は通常、特定の環境でのみ最適に動作し、別の環境でうまく機能するように適応する必要がある。
新しい話者に適応するためには、微調整が堅牢になるにはデータが少ないことが多い。
本稿では,1分間のデータに適応する手法の組み合わせを提案する。
まず,1つの誤り確率仮説や「擬似ラベル」に基づいて,適応パラメータをクロスエントロピーで推定する代わりに,新しい損失関数,完全仮説上の条件エントロピーを提案する。
複数の仮説を用いることで、初期認識における誤りへの適応がより堅牢になる。
第二に、話者コード(speaker code)は、推定するデータが少ないほど短いベクトルで話者を特徴づける。
遠距離雑音強調版であるCommon Voiceでは,1分間の適応データに対して単語誤り率を20%改善し,10分で29%に向上した。
関連論文リスト
- Hypernetworks for Personalizing ASR to Atypical Speech [7.486694572792521]
メタ学習型ハイパーネットワークを用いて,多種多様な非定型音声特性に対して,高度に個別化された発話レベル適応を生成する。
ハイパーネットは,全パラメータ予算の0.1%を用いて,WERの相対的な75.2%削減を維持しつつ,分布外話者よりも一般化されていることを示す。
論文 参考訳(メタデータ) (2024-06-06T16:39:00Z) - Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models [84.8919069953397]
Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
論文 参考訳(メタデータ) (2024-05-23T04:27:11Z) - Optimized Tokenization for Transcribed Error Correction [10.297878672883973]
本研究では, 合成データのみを用いたトレーニングにより, 補正モデルの性能を著しく向上させることができることを示す。
具体的には、一組の転写データから得られた誤差分布を用いて生成された合成データが、ランダムな摂動を適用する一般的な手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-10-16T12:14:21Z) - On-the-Fly Feature Based Rapid Speaker Adaptation for Dysarthric and
Elderly Speech Recognition [53.17176024917725]
話者レベルのデータの共有化は、データ集約型モデルに基づく話者適応手法の実用的利用を制限する。
本稿では,2種類のデータ効率,特徴量に基づくオンザフライ話者適応手法を提案する。
論文 参考訳(メタデータ) (2022-03-28T09:12:24Z) - Speaker Embedding-aware Neural Diarization: a Novel Framework for
Overlapped Speech Diarization in the Meeting Scenario [51.5031673695118]
重なり合う音声のダイアリゼーションを単一ラベル予測問題として再構成する。
話者埋め込み認識型ニューラルダイアリゼーション(SEND)システムを提案する。
論文 参考訳(メタデータ) (2022-03-18T06:40:39Z) - A Unified Speaker Adaptation Approach for ASR [37.76683818356052]
本稿では,特徴適応とモデル適応からなる統一話者適応手法を提案する。
特徴適応には話者認識型永続記憶モデルを用い、未確認話者に対してより良く一般化する。
モデル適応には、モデルアーキテクチャを変更することなく、新たな段階的なプルーニング手法を用いてターゲット話者に適応する。
論文 参考訳(メタデータ) (2021-10-16T10:48:52Z) - Bayesian Learning for Deep Neural Network Adaptation [57.70991105736059]
音声認識システムにおける重要な課題は、しばしば話者差に起因する訓練データと評価データとのミスマッチを減らすことである。
モデルに基づく話者適応手法は、ロバスト性を確保するために十分な量のターゲット話者データを必要とすることが多い。
本稿では,話者依存型(SD)パラメータの不確かさをモデル化するための,ベイズ学習に基づくDNN話者適応フレームワークを提案する。
論文 参考訳(メタデータ) (2020-12-14T12:30:41Z) - Deliberation Model Based Two-Pass End-to-End Speech Recognition [52.45841282906516]
非ストリーミングのリステン・アテン・アンド・スペル(LAS)モデルを用いて、ストリーム仮説を再スコアする2パスモデルが提案されている。
このモデルは、第一パスのテキスト仮説のみを使用する神経矯正モデルのクラスとは対照的に、音響学で仮説を再評価する。
双方向エンコーダを用いて、ファーストパス仮説からコンテキスト情報を抽出する。
論文 参考訳(メタデータ) (2020-03-17T22:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。