論文の概要: Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2203.14222v1
- Date: Sun, 27 Mar 2022 06:38:39 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-02 21:27:24.014589
- Title: Listen, Adapt, Better WER: Source-free Single-utterance Test-time
Adaptation for Automatic Speech Recognition
- Title(参考訳): listen, adapt, better wer:自動音声認識のためのソースフリー単一発話テスト時間適応
- Authors: Guan-Ting Lin, Shang-Wen Li, Hung-yi Lee
- Abstract要約: Test-time Adaptationは、ソースドメインでトレーニングされたモデルに適応して、テストサンプルの予測を改善することを目的としている。
単一発話テスト時間適応 (SUTA) は音声領域における最初のTTA研究である。
- 参考スコア(独自算出の注目度): 65.84978547406753
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although deep learning-based end-to-end Automatic Speech Recognition (ASR)
has shown remarkable performance in recent years, it suffers severe performance
regression on test samples drawn from different data distributions. Test-time
Adaptation (TTA), previously explored in the computer vision area, aims to
adapt the model trained on source domains to yield better predictions for test
samples, often out-of-domain, without accessing the source data. Here, we
propose the Single-Utterance Test-time Adaptation (SUTA) framework for ASR,
which is the first TTA study in speech area to our best knowledge. The
single-utterance TTA is a more realistic setting that does not assume test data
are sampled from identical distribution and does not delay on-demand inference
due to pre-collection for the batch of adaptation data. SUTA consists of
unsupervised objectives with an efficient adaptation strategy. The empirical
results demonstrate that SUTA effectively improves the performance of the
source ASR model evaluated on multiple out-of-domain target corpora and
in-domain test samples.
- Abstract(参考訳): 近年,深層学習に基づくエンドツーエンド音声認識 (ASR) は顕著な性能を示したが, 異なるデータ分布から抽出した試験結果に対して, 高い性能の劣化がみられた。
コンピュータビジョン領域で以前に検討されたテスト時間適応(tta)は、ソースドメインでトレーニングされたモデルを適用し、ソースデータにアクセスせずに、テストサンプル(しばしばドメイン外)の予測を改善することを目的としている。
本稿では,ASRのための単一発話テスト時間適応(SUTA)フレームワークを提案する。
単発TTAは、テストデータが同一分布からサンプリングされることを前提とせず、適応データのバッチに対する事前コンパイルによるオンデマンド推論を遅らせないより現実的な設定である。
SUTAは、効率的な適応戦略を備えた教師なしの目標で構成されている。
実験の結果,SUTAは複数のドメイン外ターゲットコーパスとドメイン内テストサンプルで評価したソースASRモデルの性能を効果的に向上することが示された。
関連論文リスト
- BoostAdapter: Improving Vision-Language Test-Time Adaptation via Regional Bootstrapping [64.8477128397529]
本稿では,テスト時間適応フレームワークを提案する。
我々は、インスタンスに依存しない履歴サンプルとインスタンスを意識したブースティングサンプルから特徴を検索するための軽量なキー値メモリを維持している。
理論的には,本手法の背後にある合理性を正当化し,アウト・オブ・ディストリビューションとクロスドメイン・データセットの両方において,その有効性を実証的に検証する。
論文 参考訳(メタデータ) (2024-10-20T15:58:43Z) - Distribution Alignment for Fully Test-Time Adaptation with Dynamic Online Data Streams [19.921480334048756]
TTA(Test-Time Adaptation)は、テストデータストリームの適応と推論を可能にする。
本稿では,TTAにおける新しい配電アライメント損失を提案する。
我々は、非i.d.シナリオにおける既存の手法を超越し、理想的なi.d.仮定の下で競争性能を維持する。
論文 参考訳(メタデータ) (2024-07-16T19:33:23Z) - SGEM: Test-Time Adaptation for Automatic Speech Recognition via
Sequential-Level Generalized Entropy Minimization [30.61075178799518]
テスト時間適応(TTA)法は、ソースデータなしで未ラベルのテストインスタンスに事前学習されたASRモデルを適用するために最近提案されている。
我々は、一般的なASRモデルに対して、SGEMと呼ばれる新しいTTAフレームワークを提案する。
SGEMは、ドメインシフトの異なる3つのメインストリームASRモデルの最先端性能を達成する。
論文 参考訳(メタデータ) (2023-06-03T02:27:08Z) - Robust Continual Test-time Adaptation: Instance-aware BN and
Prediction-balanced Memory [58.72445309519892]
テストデータストリーム以外のデータストリームに対して堅牢な新しいテスト時間適応方式を提案する。
a)分布外サンプルの正規化を修正するIABN(Instance-Aware Batch Normalization)と、(b)クラスバランスのない方法で非i.d.ストリームからのデータストリームをシミュレートするPBRS(Predict- Balanced Reservoir Sampling)である。
論文 参考訳(メタデータ) (2022-08-10T03:05:46Z) - CAFA: Class-Aware Feature Alignment for Test-Time Adaptation [50.26963784271912]
テスト時間適応(TTA)は、テスト時にラベルのないデータにモデルを適応させることによって、この問題に対処することを目的としている。
本稿では,クラス認識特徴アライメント(CAFA, Class-Aware Feature Alignment)と呼ばれる単純な機能アライメント損失を提案する。
論文 参考訳(メタデータ) (2022-06-01T03:02:07Z) - Efficient Test-Time Model Adaptation without Forgetting [60.36499845014649]
テストタイム適応は、トレーニングとテストデータの間の潜在的な分散シフトに取り組むことを目指している。
信頼性および非冗長なサンプルを同定するためのアクティブなサンプル選択基準を提案する。
また、重要なモデルパラメータを劇的な変化から制約するFisher regularizerを導入します。
論文 参考訳(メタデータ) (2022-04-06T06:39:40Z) - Representative Subset Selection for Efficient Fine-Tuning in
Self-Supervised Speech Recognition [6.450618373898492]
ASRのための自己教師型音声モデルにおいて、効率的な微調整を行うために最適なデータのサブセットを同定する作業を検討する。
自己教師型ASRにおける代表サブセット選択のためのCOWERAGEアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-03-18T10:12:24Z) - Unsupervised Domain Adaptation for Speech Recognition via Uncertainty
Driven Self-Training [55.824641135682725]
WSJ をソースドメインとし,TED-Lium 3 とSWITCHBOARD を併用したドメイン適応実験を行った。
論文 参考訳(メタデータ) (2020-11-26T18:51:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。