論文の概要: WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers
- arxiv url: http://arxiv.org/abs/2509.10452v1
- Date: Fri, 12 Sep 2025 17:59:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-15 16:03:08.195274
- Title: WhisTLE: Deeply Supervised, Text-Only Domain Adaptation for Pretrained Speech Recognition Transformers
- Title(参考訳): WhisTLE:事前学習型音声認識変換器のためのテキスト専用ドメイン適応
- Authors: Akshat Pandey, Karun Kumar, Raphael Tang,
- Abstract要約: WhisTLEは、事前訓練された音声認識モデルのテキストのみ適応手法である。
単語誤り率 (WER) は TTS のみの適応と比較して 12.3% 削減される。
32シナリオ中27シナリオで非WhisTLEベースラインを上回ります。
- 参考スコア(独自算出の注目度): 6.199846360255783
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Pretrained automatic speech recognition (ASR) models such as Whisper perform well but still need domain adaptation to handle unseen vocabulary and parlance. In many real-world settings, collecting speech data is impractical, necessitating text-only adaptation. We propose WhisTLE, a deeply supervised, text-only adaptation method for pretrained encoder-decoder ASR models. WhisTLE trains a variational autoencoder (VAE) to model encoder outputs from text and fine-tunes the decoder using the learned text-to-latent encoder, optionally combined with text-to-speech (TTS) adaptation. At inference, the original encoder is restored, incurring no extra runtime cost. Across four out-of-domain datasets and four ASR models, WhisTLE with TTS reduces word error rate (WER) by 12.3% relative to TTS-only adaptation and outperforms all non-WhisTLE baselines in 27 of 32 scenarios.
- Abstract(参考訳): Whisperのような事前訓練された自動音声認識(ASR)モデルは、よく機能するが、未知の語彙とパーランスを扱うためにはまだドメイン適応が必要である。
多くの実世界の環境では、音声データの収集は現実的ではなく、テキストのみの適応を必要とする。
本稿では,事前学習したエンコーダデコーダASRモデルに対して,深く教師付き,テキストのみの適応手法であるWhisTLEを提案する。
WhisTLEは変分オートエンコーダ(VAE)を訓練し、テキストから出力したエンコーダをモデル化し、学習したテキストから遅延エンコーダを使ってデコーダを微調整する。
推測すると、元のエンコーダは復元され、追加のランタイムコストは発生しない。
4つのドメイン外のデータセットと4つのASRモデルの中で、TS付きWhisTLEは、TSのみの適応と比較してワードエラー率(WER)を12.3%削減し、32シナリオ中27シナリオで非WhisTLEベースラインを上回ります。
関連論文リスト
- Text-Aware Adapter for Few-Shot Keyword Spotting [13.040457187781671]
テキスト・アウェア・アダプタ(TA-adapter)と呼ばれる新しい数発転写学習手法を提案する。
実験では、TA-adapterは、Google Speech Commands V2データセットから35の異なるキーワードに対して、大幅なパフォーマンス向上を示した。
論文 参考訳(メタデータ) (2024-12-24T03:54:40Z) - Full-text Error Correction for Chinese Speech Recognition with Large Language Model [11.287933170894311]
大言語モデル(LLM)は自動音声認識(ASR)における誤り訂正の可能性を示している
本稿では,より長い音声記録からASRシステムによって生成された全文における誤り訂正のためのLLMの有効性について検討する。
論文 参考訳(メタデータ) (2024-09-12T06:50:45Z) - Text-only Domain Adaptation using Unified Speech-Text Representation in
Transducer [12.417314740402587]
本稿では,コンバータ変換器(USTR-CT)における統一音声テキスト表現を学習し,テキストのみのコーパスを用いて高速なドメイン適応を実現する手法を提案する。
SPGISpeechにLibriSpeechを適応させる実験により,提案手法は単語誤り率(WER)を目標領域で相対44%削減することを示した。
論文 参考訳(メタデータ) (2023-06-07T00:33:02Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Text-only domain adaptation for end-to-end ASR using integrated
text-to-mel-spectrogram generator [17.44686265224974]
本稿では, テキストのみのデータ, あるいは混在した音声データに基づいて, エンドツーエンドの自動音声認識(ASR)システムを提案する。
提案手法は,書き起こし音声のみを訓練したシステムと比較して,ASRの精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-02-27T18:47:55Z) - SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder
Based Speech-Text Pre-training [106.34112664893622]
本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダに接続する,統一モーダル音声単位テキスト事前学習モデルであるSpeechUTを提案する。
提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。
論文 参考訳(メタデータ) (2022-10-07T17:57:45Z) - M-Adapter: Modality Adaptation for End-to-End Speech-to-Text Translation [66.92823764664206]
テキストに音声表現を適応させる新しいトランスフォーマーベースのモジュールであるM-Adapterを提案する。
音声シーケンスを縮小しながら、M-Adapterは音声からテキストへの翻訳に必要な機能を生成する。
実験の結果,我々のモデルは最大1BLEUで強いベースラインを達成できた。
論文 参考訳(メタデータ) (2022-07-03T04:26:53Z) - Zero-Shot Text-to-Speech for Text-Based Insertion in Audio Narration [62.75234183218897]
話者の訓練データなしで自然かつ一貫性のあるターゲット音声を生成する一段階の文脈認識フレームワークを提案する。
変換器をベースとしたデコーダを用いて,編集音声のメルスペクトルを生成する。
これは最近のゼロショット TTS エンジンを大きなマージンで上回っている。
論文 参考訳(メタデータ) (2021-09-12T04:17:53Z) - Label-Synchronous Speech-to-Text Alignment for ASR Using Forward and
Backward Transformers [49.403414751667135]
本稿では,音声認識のための新しいラベル同期音声テキストアライメント手法を提案する。
提案手法はラベル同期テキストマッピング問題として音声からテキストへのアライメントを再定義する。
自発日本語コーパス(CSJ)を用いた実験により,提案手法が正確な発話方向のアライメントを提供することを示した。
論文 参考訳(メタデータ) (2021-04-21T03:05:12Z) - AdaSpeech 2: Adaptive Text to Speech with Untranscribed Data [115.38309338462588]
AdaSpeech 2 は、未転写音声データのみを適応に利用する適応型 TTS システムである。
具体的には,よく訓練されたttsモデルにmel-spectrogramエンコーダを導入し,音声再構成を行う。
適応では,ttsデコーダのみを微調整し,未書き起こし音声データを用いて音声再構成を行う。
論文 参考訳(メタデータ) (2021-04-20T01:53:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。