論文の概要: Improving CTC-based speech recognition via knowledge transferring from
pre-trained language models
- arxiv url: http://arxiv.org/abs/2203.03582v1
- Date: Tue, 22 Feb 2022 11:30:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-13 13:49:27.499824
- Title: Improving CTC-based speech recognition via knowledge transferring from
pre-trained language models
- Title(参考訳): 事前学習言語モデルからの知識伝達によるCTCに基づく音声認識の改善
- Authors: Keqi Deng, Songjun Cao, Yike Zhang, Long Ma, Gaofeng Cheng, Ji Xu,
Pengyuan Zhang
- Abstract要約: CTCに基づくモデルを改善するために,2つの知識伝達手法を提案する。
最初の方法は表現学習に基づいており、CTCベースのモデルはBERTが生成した表現を補助的学習ターゲットとして利用する。
第2の方法は、テキストモデリングのためのGPT2とハイブリッドCTC/アテンションアーキテクチャを組み合わせた共同分類学習に基づいている。
- 参考スコア(独自算出の注目度): 30.599901925058873
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, end-to-end automatic speech recognition models based on
connectionist temporal classification (CTC) have achieved impressive results,
especially when fine-tuned from wav2vec2.0 models. Due to the conditional
independence assumption, CTC-based models are always weaker than
attention-based encoder-decoder models and require the assistance of external
language models (LMs). To solve this issue, we propose two knowledge
transferring methods that leverage pre-trained LMs, such as BERT and GPT2, to
improve CTC-based models. The first method is based on representation learning,
in which the CTC-based models use the representation produced by BERT as an
auxiliary learning target. The second method is based on joint classification
learning, which combines GPT2 for text modeling with a hybrid CTC/attention
architecture. Experiment on AISHELL-1 corpus yields a character error rate
(CER) of 4.2% on the test set. When compared to the vanilla CTC-based models
fine-tuned from the wav2vec2.0 models, our knowledge transferring method
reduces CER by 16.1% relatively without external LMs.
- Abstract(参考訳): 近年,コネクショニスト時間分類(CTC)に基づくエンドツーエンドの自動音声認識モデルは,特にwav2vec2.0モデルから微調整した場合に顕著な成果を上げている。
条件付き独立仮定のため、CTCベースのモデルは、常に注意に基づくエンコーダデコーダモデルよりも弱く、外部言語モデル(LM)の助けを必要とする。
そこで本研究では, BERT や GPT2 などの事前学習した LM を利用して CTC ベースのモデルを改善する2つの知識伝達手法を提案する。
最初の方法は表現学習に基づいており、CTCベースのモデルはBERTが生成した表現を補助的学習ターゲットとして利用する。
第2の方法は、テキストモデリングのためのgpt2とハイブリッドctc/attentionアーキテクチャを組み合わせた合同分類学習に基づく。
AISHELL-1コーパスの実験では、テストセットで4.2%の文字エラー率(CER)が得られる。
wav2vec2.0モデルから微調整したバニラCTCモデルと比較して、我々の知識伝達法は外部のLMを使わずにCERを16.1%削減する。
関連論文リスト
- Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Co-training and Co-distillation for Quality Improvement and Compression
of Language Models [88.94539115180919]
知識蒸留(KD)は、知識をより小さなモデルに伝達することで、高価な事前訓練言語モデル(PLM)を圧縮する。
ほとんどの小型モデルはオリジナルの大型モデルの性能を上回ることができず、推論速度を改善するために性能を犠牲にする結果となった。
本稿では,2つのモデルを協調学習することで,性能と推論速度を共に向上する新しいフレームワークであるCTCDを提案する。
論文 参考訳(メタデータ) (2023-11-06T03:29:00Z) - Scalable Learning of Latent Language Structure With Logical Offline
Cycle Consistency [71.42261918225773]
概念的には、LOCCOは、トレーニング対象のセマンティクスを使用してラベルなしテキストのアノテーションを生成する、自己学習の一形態と見なすことができる。
追加ボーナスとして、LOCCOによって生成されたアノテーションは、神経テキスト生成モデルをトレーニングするために自明に再利用することができる。
論文 参考訳(メタデータ) (2023-05-31T16:47:20Z) - CTC-based Non-autoregressive Speech Translation [51.37920141751813]
非自己回帰音声翻訳における接続性時間分類の可能性について検討する。
我々は、CTCによって誘導される2つのエンコーダからなるモデルを構築し、ソースおよびターゲットテキストを予測する。
MuST-Cベンチマークの実験では、我々のNASTモデルは平均BLEUスコアが29.5であり、スピードアップは5.67$times$である。
論文 参考訳(メタデータ) (2023-05-27T03:54:09Z) - A context-aware knowledge transferring strategy for CTC-based ASR [9.500518278458905]
接続性時間分類(CTC)に基づく手法は依然として支配的ストリームである。
CTCベースのASRのための知識伝達モジュールと文脈認識学習戦略からなる文脈認識型知識伝達戦略を提案する。
本稿では,wav2vec2.0上に構築された知識注入型CTCベースのASRについて述べる。
論文 参考訳(メタデータ) (2022-10-12T14:31:38Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Improving CTC-based ASR Models with Gated Interlayer Collaboration [9.930655347717932]
本稿では,モデルにコンテキスト情報を導入するGated Interlayer Collaboration機構を提案する。
我々は,中間層の確率分布がソフトラベル配列として自然に機能するモデルの層間出力によって計算された中間CTC損失でモデルを訓練する。
論文 参考訳(メタデータ) (2022-05-25T03:21:27Z) - A Complementary Joint Training Approach Using Unpaired Speech and Text
for Low-Resource Automatic Speech Recognition [25.473191378558138]
非ペアデータを利用して、一般的なシーケンス・ツー・シーケンスモデルをトレーニングする。
音声-疑似ラベルペアと合成音声テキストペアの相補性に着想を得て,補足的関節訓練(CJT)法を提案する。
論文 参考訳(メタデータ) (2022-04-05T07:02:53Z) - Improving Hybrid CTC/Attention End-to-end Speech Recognition with
Pretrained Acoustic and Language Model [4.490054848527943]
本稿では,ハイブリッドCTC/アテンションE2Eモデルに基づく事前学習型トランスフォーマー(Preformer)S2S ASRアーキテクチャを提案する。
我々の知る限り、これはS2S ASRシステムで事前訓練されたAMとLMの両方を利用する最初の作業である。
論文 参考訳(メタデータ) (2021-12-14T09:38:31Z) - Combining Unsupervised and Text Augmented Semi-Supervised Learning for
Low Resourced Autoregressive Speech Recognition [7.067186994804316]
我々は教師なしの方法で最先端のコンフォーマーモデルを事前訓練する。
追加のテキストデータは、外部言語モデルによって組み込まれている。
最終的なパフォーマンスは、半教師付きトレーニングにCTCベースのデコードを使用する場合、2%向上した絶対値である。
論文 参考訳(メタデータ) (2021-10-29T14:59:18Z) - A Study on Effects of Implicit and Explicit Language Model Information
for DBLSTM-CTC Based Handwriting Recognition [51.36957172200015]
本稿では,DBLSTM-CTCを用いた手書き文字認識における暗黙的および明示的言語モデル情報の効果について検討する。
DBLSTMをトレーニングするために100万行のトレーニング文を使用しても、明示的な言語モデルを使用することは有用です。
論文 参考訳(メタデータ) (2020-07-31T08:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。