論文の概要: Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR
with Internal Language Model Estimation
- arxiv url: http://arxiv.org/abs/2305.03837v1
- Date: Fri, 5 May 2023 20:35:42 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 19:12:31.114873
- Title: Mask The Bias: Improving Domain-Adaptive Generalization of CTC-based ASR
with Internal Language Model Estimation
- Title(参考訳): Mask the Bias:内部言語モデル推定によるCTCベースのASRのドメイン適応一般化の改善
- Authors: Nilaksh Das, Monica Sunkara, Sravan Bodapati, Jinglun Cai, Devang
Kulshreshtha, Jeff Farris, Katrin Kirchhoff
- Abstract要約: 自己回帰モデルに対するこのバイアスを軽減するために、内部言語モデル推定(ILME)が提案されている。
CTCに基づくASRモデルのための新しいILME手法を提案する。
本手法は、内部LMの擬似ログ類似度を推定するために、音声タイムステップを反復的にマスクする。
- 参考スコア(独自算出の注目度): 14.840612036671734
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end ASR models trained on large amount of data tend to be implicitly
biased towards language semantics of the training data. Internal language model
estimation (ILME) has been proposed to mitigate this bias for autoregressive
models such as attention-based encoder-decoder and RNN-T. Typically, ILME is
performed by modularizing the acoustic and language components of the model
architecture, and eliminating the acoustic input to perform log-linear
interpolation with the text-only posterior. However, for CTC-based ASR, it is
not as straightforward to decouple the model into such acoustic and language
components, as CTC log-posteriors are computed in a non-autoregressive manner.
In this work, we propose a novel ILME technique for CTC-based ASR models. Our
method iteratively masks the audio timesteps to estimate a pseudo
log-likelihood of the internal LM by accumulating log-posteriors for only the
masked timesteps. Extensive evaluation across multiple out-of-domain datasets
reveals that the proposed approach improves WER by up to 9.8% and OOV F1-score
by up to 24.6% relative to Shallow Fusion, when only text data from target
domain is available. In the case of zero-shot domain adaptation, with no access
to any target domain data, we demonstrate that removing the source domain bias
with ILME can still outperform Shallow Fusion to improve WER by up to 9.3%
relative.
- Abstract(参考訳): 大量のデータでトレーニングされたエンドツーエンドasrモデルは、トレーニングデータの言語意味論に暗黙的に偏りがちである。
注意に基づくエンコーダデコーダやRNN-Tのような自己回帰モデルにおいて、このバイアスを軽減するために、内部言語モデル推定(ILME)が提案されている。
典型的には、ilmeはモデルアーキテクチャの音響および言語コンポーネントをモジュール化し、音響入力を取り除き、テキストのみの後方でログ線形補間を行う。
しかし、CTC ベースの ASR では、CTC のログフォスタが非自己回帰的に計算されるため、モデルをそのような音響的および言語的コンポーネントに分離することは容易ではない。
本研究では,CTCに基づくASRモデルのための新しいILME手法を提案する。
本手法は、内部LMの擬似ログ類似度を、マスキング時間のみにログフォレアを蓄積することにより、音声時間ステップを反復的にマスキングして推定する。
複数のドメイン外のデータセットに対する大規模な評価により、提案されたアプローチは、ターゲットドメインからのテキストデータのみが利用可能である場合、WERを最大9.8%改善し、OOV F1スコアを最大24.6%改善することが明らかになった。
ゼロショットドメイン適応の場合、いかなるターゲットドメインデータにもアクセスせず、ilmeでソースドメインのバイアスを除去しても、wirを最大9.3%改善するために浅い融合を上回ることができることを実証する。
関連論文リスト
- Effective internal language model training and fusion for factorized transducer model [26.371223360905557]
ニューラルトランスデューサの内部言語モデル(ILM)は広く研究されている。
因子化トランスデューサモデルのための新しいILMトレーニングと復号化戦略を提案する。
論文 参考訳(メタデータ) (2024-04-02T08:01:05Z) - Self-Supervised Dataset Distillation for Transfer Learning [77.4714995131992]
ラベルなしデータセットを、効率的な自己教師付き学習(SSL)のための小さな合成サンプル群に蒸留する新しい問題を提案する。
両レベル最適化におけるSSL目標に対する合成サンプルの勾配は、データ拡張やマスキングから生じるランダム性から、テキストバイアスを受けていることを最初に証明する。
転送学習を含む様々な応用における本手法の有効性を実証的に検証する。
論文 参考訳(メタデータ) (2023-10-10T10:48:52Z) - Decoupled Structure for Improved Adaptability of End-to-End Models [16.195423291103975]
本稿では,アテンションベースエンコーダデコーダ(Decoupled-AED)とニューラルトランスデューサ(Decoupled-Transducer)モデルのためのデカップリング構造を提案する。
E2Eモデルデコーダ(または予測ネットワーク)の音響的および言語的部分は分離され、言語的コンポーネントは置換可能である。
リブリ100hコーパスで訓練されたE2E ASRモデルの実験により、提案された分離された構造は15.1%と17.2%の相対的な単語誤り率の減少を与えた。
論文 参考訳(メタデータ) (2023-08-25T12:31:12Z) - IDA: Informed Domain Adaptive Semantic Segmentation [51.12107564372869]
クラスレベルのセグメンテーション性能に基づいてデータを混合する自己学習フレームワークであるDomain Informed Adaptation (IDA) モデルを提案する。
IDAモデルでは、クラスレベルの性能を期待信頼スコア(ECS)によって追跡し、動的スケジュールを用いて異なる領域のデータに対する混合比を決定する。
提案手法は,GTA-Vの都市景観への適応において1.1 mIoU,SynTHIAの都市への適応において0.9 mIoUのマージンで,最先端のUDA-SS法よりも優れる。
論文 参考訳(メタデータ) (2023-03-05T18:16:34Z) - Exploiting Temporal Structures of Cyclostationary Signals for
Data-Driven Single-Channel Source Separation [98.95383921866096]
単一チャネルソース分離(SCSS)の問題点について検討する。
我々は、様々なアプリケーション領域に特に適するサイクロ定常信号に焦点を当てる。
本稿では,最小MSE推定器と競合するU-Netアーキテクチャを用いたディープラーニング手法を提案する。
論文 参考訳(メタデータ) (2022-08-22T14:04:56Z) - Improving CTC-based ASR Models with Gated Interlayer Collaboration [9.930655347717932]
本稿では,モデルにコンテキスト情報を導入するGated Interlayer Collaboration機構を提案する。
我々は,中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。
論文 参考訳(メタデータ) (2022-05-25T03:21:27Z) - Investigating Methods to Improve Language Model Integration for
Attention-based Encoder-Decoder ASR Models [107.86965028729517]
注意ベースのエンコーダデコーダ(AED)モデルは、トレーニング転写から暗黙的な内部言語モデル(ILM)を学ぶ。
AEDモデルから直接ILMを推定する新しい手法をいくつか提案する。
論文 参考訳(メタデータ) (2021-04-12T15:16:03Z) - Internal Language Model Training for Domain-Adaptive End-to-End Speech
Recognition [83.739317674302]
内部言語モデル推定(ILME)法は、外部言語モデルと自動音声認識システムとの連携を改善するために用いられる。
内部LM損失を最小限に抑えるための内部LMトレーニング(ILMT)手法を提案する。
ILMTは、ESRの精度を犠牲にすることなく、既存のコンポーネント内でスタンドアロンのLMを形成するようE2Eモデルを奨励している。
論文 参考訳(メタデータ) (2021-02-02T08:15:02Z) - Internal Language Model Estimation for Domain-Adaptive End-to-End Speech
Recognition [56.27081731553829]
内部言語モデル(LM)の統合は、エンドツーエンド(E2E)自動音声認識の課題である。
本稿では,既存のすべてのE2Eモデルと外部LMをより効果的に統合するための内部LM推定(ILME)手法を提案する。
ILMEは、トレーニングとテストの間のドメインミスマッチを緩和したり、マルチドメインのE2E ASRを改善することができる。
論文 参考訳(メタデータ) (2020-11-03T20:11:04Z) - A Density Ratio Approach to Language Model Fusion in End-To-End
Automatic Speech Recognition [9.184319271887531]
本稿では、外部言語モデル(LM)を、音声認識(ASR)のためのエンドツーエンドモデルに統合するための密度比アプローチについて述べる。
RNN-T ASRモデルは、Voice Searchデータに一般化できるため、YouTubeからペア化されたオーディオと転写データに基づいて訓練された。
論文 参考訳(メタデータ) (2020-02-26T02:53:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。