論文の概要: Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models
- arxiv url: http://arxiv.org/abs/2405.14161v1
- Date: Thu, 23 May 2024 04:27:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 19:05:09.632611
- Title: Self-Taught Recognizer: Toward Unsupervised Adaptation for Speech Foundation Models
- Title(参考訳): 自己学習認識:音声基礎モデルの教師なし適応に向けて
- Authors: Yuchen Hu, Chen Chen, Chao-Han Huck Yang, Chengwei Qin, Pin-Yu Chen, Eng Siong Chng, Chao Zhang,
- Abstract要約: Self-Taught Recognizer (STAR) は、音声認識システムのための教師なし適応フレームワークである。
その結果,STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を実現していることがわかった。
STARは1時間以内のラベル付きデータを必要とする高いデータ効率を示す。
- 参考スコア(独自算出の注目度): 84.8919069953397
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose an unsupervised adaptation framework, Self-TAught Recognizer (STAR), which leverages unlabeled data to enhance the robustness of automatic speech recognition (ASR) systems in diverse target domains, such as noise and accents. STAR is developed for prevalent speech foundation models based on Transformer-related architecture with auto-regressive decoding (e.g., Whisper, Canary). Specifically, we propose a novel indicator that empirically integrates step-wise information during decoding to assess the token-level quality of pseudo labels without ground truth, thereby guiding model updates for effective unsupervised adaptation. Experimental results show that STAR achieves an average of 13.5% relative reduction in word error rate across 14 target domains, and it sometimes even approaches the upper-bound performance of supervised adaptation. Surprisingly, we also observe that STAR prevents the adapted model from the common catastrophic forgetting problem without recalling source-domain data. Furthermore, STAR exhibits high data efficiency that only requires less than one-hour unlabeled data, and seamless generality to alternative large speech models and speech translation tasks. Our code aims to open source to the research communities.
- Abstract(参考訳): 雑音やアクセントなどの多様な対象領域における音声認識システム(ASR)の堅牢性を高めるために,ラベル付きデータを活用する,教師なし適応フレームワークであるSelf-Taught Recognizer(STAR)を提案する。
STARは、自動回帰デコーディング(例えばWhisper, Canary)を備えたTransformer関連アーキテクチャに基づく、一般的な音声基礎モデルのために開発された。
具体的には、デコード中にステップワイズ情報を経験的に統合して擬似ラベルのトークンレベルの品質を評価することで、効果的な教師なし適応のためのモデル更新を導出する新しい指標を提案する。
実験の結果、STARは14のドメインで平均13.5%の単語誤り率の相対的な減少を達成し、時には教師付き適応の上限性能に近づいた。
驚いたことに、STARはソース・ドメインデータをリコールすることなく、適応モデルが一般的な破滅的忘れ問題から防ぐことも観察した。
さらに、STARは1時間未満の未ラベルデータしか必要とせず、代替の大規模音声モデルや音声翻訳タスクに対してシームレスに一般化できる高いデータ効率を示す。
私たちのコードは研究コミュニティにオープンソース化することを目的としています。
関連論文リスト
- Failing Forward: Improving Generative Error Correction for ASR with Synthetic Data and Retrieval Augmentation [73.9145653659403]
生成誤差補正モデルは、トレーニング中に発生する特定の種類のエラーを超えて一般化することが困難であることを示す。
DARAGは、ドメイン内(ID)およびOODシナリオにおけるASRのためのGCCを改善するために設計された新しいアプローチである。
私たちのアプローチはシンプルでスケーラブルで、ドメインと言語に依存しません。
論文 参考訳(メタデータ) (2024-10-17T04:00:29Z) - SER Evals: In-domain and Out-of-domain Benchmarking for Speech Emotion Recognition [3.4355593397388597]
音声感情認識(SER)は、強力な自己教師付き学習(SSL)モデルの出現に大きく貢献している。
本稿では,最先端SERモデルの堅牢性と適応性を評価するための大規模ベンチマークを提案する。
主に音声認識用に設計されたWhisperモデルは,言語横断SERにおいて,専用SSLモデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-08-14T23:33:10Z) - Co-training for Low Resource Scientific Natural Language Inference [65.37685198688538]
遠隔教師付きラベルに分類器のトレーニング力学に基づいて重みを割り当てる新しいコトレーニング手法を提案する。
予測された信頼度に対する任意のしきい値に基づいてサンプルをフィルタリングするのではなく、重要重みを割り当てることにより、自動ラベル付きデータの使用を最大化する。
提案手法は、遠隔監視ベースラインに対するマクロF1の1.5%の改善と、他の強力なSSLベースラインよりも大幅に改善されている。
論文 参考訳(メタデータ) (2024-06-20T18:35:47Z) - Automatic Data Augmentation for Domain Adapted Fine-Tuning of
Self-Supervised Speech Representations [21.423349835589793]
SSL(Self-Supervised Learning)は、大量のラベルのない音声データを活用して音声認識モデルの性能を向上させる。
これにもかかわらず、プレトレーニングとターゲットデータセットの音響ミスマッチに直面しながら、音声SSL表現が失敗する可能性がある。
音響領域におけるそのようなミスマッチを示すケースを対象とした,新しい教師付きドメイン適応手法を提案する。
論文 参考訳(メタデータ) (2023-06-01T09:30:49Z) - SRoUDA: Meta Self-training for Robust Unsupervised Domain Adaptation [25.939292305808934]
教師なしドメイン適応(UDA)は、リッチラベルデータセットから学習した知識をラベルなしターゲットデータセットに転送することができる。
本稿では,UDAモデルの対角的ロバスト性を改善するために,SRoUDAというメタ自己学習パイプラインを提案する。
論文 参考訳(メタデータ) (2022-12-12T14:25:40Z) - Distantly-Supervised Named Entity Recognition with Noise-Robust Learning
and Language Model Augmented Self-Training [66.80558875393565]
遠距離ラベル付きデータのみを用いて、名前付きエンティティ認識(NER)モデルを訓練する際の課題について検討する。
本稿では,新しい損失関数と雑音ラベル除去ステップからなるノイズロスバスト学習手法を提案する。
提案手法は,既存の遠隔教師付きNERモデルよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2021-09-10T17:19:56Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Enhancing the Generalization for Intent Classification and Out-of-Domain
Detection in SLU [70.44344060176952]
インテント分類は、音声言語理解(SLU)における主要な課題である
近年の研究では、余分なデータやラベルを使用することで、OOD検出性能が向上することが示されている。
本稿では、IND意図分類とOOD検出の両方をサポートしながら、INDデータのみを用いてモデルを訓練することを提案する。
論文 参考訳(メタデータ) (2021-06-28T08:27:38Z) - Unsupervised and self-adaptative techniques for cross-domain person
re-identification [82.54691433502335]
非重複カメラにおける人物再識別(ReID)は難しい課題である。
Unsupervised Domain Adaptation(UDA)は、ソースで訓練されたモデルから、IDラベルアノテーションなしでターゲットドメインへの機能学習適応を実行するため、有望な代替手段です。
本稿では,新しいオフライン戦略によって生成されたサンプルのトリプレットを利用する,UDAベースのReID手法を提案する。
論文 参考訳(メタデータ) (2021-03-21T23:58:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。