論文の概要: Knowledge Transfer from Pre-trained Language Models to Cif-based Speech
Recognizers via Hierarchical Distillation
- arxiv url: http://arxiv.org/abs/2301.13003v1
- Date: Mon, 30 Jan 2023 15:44:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-31 14:05:55.609534
- Title: Knowledge Transfer from Pre-trained Language Models to Cif-based Speech
Recognizers via Hierarchical Distillation
- Title(参考訳): 階層的蒸留による事前学習言語モデルからCifに基づく音声認識への知識伝達
- Authors: Minglun Han, Feilong Chen, Jing Shi, Shuang Xu, Bo Xu
- Abstract要約: 本稿では,CIF(Continuous Integration-and-fire)に基づくASRモデルに基づく階層的知識蒸留法を提案する。
具体的には, PLM から ASR モデルへの知識を, 音響レベルでは対照的な損失を伴うクロスモーダル蒸留を適用し, 言語レベルでは回帰損失を伴う蒸留を適用して蒸留する。
AISHELL-1データセットでは、元のCIFモデルよりも15%の誤差率削減を実現し、最先端モデルに匹敵する性能(開発/テストでは3.8%/4.1%)を達成する。
- 参考スコア(独自算出の注目度): 22.733285434532068
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale pre-trained language models (PLMs) with powerful language
modeling capabilities have been widely used in natural language processing. For
automatic speech recognition (ASR), leveraging PLMs to improve performance has
also become a promising research trend. However, most previous works may suffer
from the inflexible sizes and structures of PLMs, along with the insufficient
utilization of the knowledge in PLMs. To alleviate these problems, we propose
the hierarchical knowledge distillation on the continuous integrate-and-fire
(CIF) based ASR models. Specifically, we distill the knowledge from PLMs to the
ASR model by applying cross-modal distillation with contrastive loss at the
acoustic level and applying distillation with regression loss at the linguistic
level. On the AISHELL-1 dataset, our method achieves 15% relative error rate
reduction over the original CIF-based model and achieves comparable performance
(3.8%/4.1% on dev/test) to the state-of-the-art model.
- Abstract(参考訳): 強力な言語モデリング機能を持つ大規模事前学習言語モデル(PLM)は、自然言語処理に広く利用されている。
自動音声認識 (ASR) では, PLM を利用した性能向上が有望な研究トレンドとなっている。
しかしながら、これまでのほとんどの研究は PLM の柔軟性のない大きさと構造に悩まされ、PLM の知識の不十分な利用に悩まされている。
これらの問題を緩和するために,連続統合火災モデル(CIF)に基づく階層的知識蒸留法を提案する。
具体的には,音響レベルでの対比損失を伴うクロスモーダル蒸留と,言語レベルでの回帰損失を伴う蒸留を用いて,plmからasrモデルへの知識を蒸留する。
AISHELL-1データセットでは、元のCIFモデルよりも15%の誤差率削減を実現し、最先端モデルと同等の性能(開発/テストでは3.8%/4.1%)を達成する。
関連論文リスト
- An Effective Automated Speaking Assessment Approach to Mitigating Data Scarcity and Imbalanced Distribution [5.1660803395535835]
自己教師付き学習(SSL)は、従来の手法と比較して星級のパフォーマンスを示している。
しかし、SSLベースのASAシステムは、少なくとも3つのデータ関連の課題に直面している。
これらの課題には、限られた注釈付きデータ、学習者の習熟度レベルの不均一分布、CEFR習熟度レベル間の不均一スコア間隔が含まれる。
論文 参考訳(メタデータ) (2024-04-11T09:06:49Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - HyPoradise: An Open Baseline for Generative Speech Recognition with
Large Language Models [81.56455625624041]
ASRの誤り訂正に外部の大規模言語モデル(LLM)を利用する最初のオープンソースベンチマークを導入する。
提案したベンチマークには、334,000組以上のN-best仮説を含む新しいデータセットHyPoradise (HP)が含まれている。
合理的なプロンプトと生成能力を持つLLMは、N-bestリストに欠けているトークンを修正できる。
論文 参考訳(メタデータ) (2023-09-27T14:44:10Z) - Exploring the Integration of Large Language Models into Automatic Speech
Recognition Systems: An Empirical Study [0.0]
本稿では,Large Language Models (LLM) と自動音声認識(ASR)システムの統合について検討する。
我々の主な焦点は、LLMのコンテキスト内学習機能を用いて、ASRシステムの性能を向上させる可能性を調査することである。
論文 参考訳(メタデータ) (2023-07-13T02:31:55Z) - Knowledge Rumination for Pre-trained Language Models [77.55888291165462]
本稿では,学習前の言語モデルが外部コーパスから検索することなく,関連する潜在知識を活用できるようにするための,Knowledge Ruminationと呼ばれる新しいパラダイムを提案する。
本稿では,RoBERTa,DeBERTa,GPT-3などの言語モデルに適用する。
論文 参考訳(メタデータ) (2023-05-15T15:47:09Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Knowledge distillation from language model to acoustic model: a
hierarchical multi-task learning approach [12.74181185088531]
クロスモーダルな知識蒸留は音声認識研究の主要なトピックである。
クロスモーダル蒸留のための複数の補助出力層を有する音響モデル構造を提案する。
提案手法を異なる単位で訓練されたLMを用いて階層蒸留法に拡張する。
論文 参考訳(メタデータ) (2021-10-20T08:42:10Z) - An Approach to Improve Robustness of NLP Systems against ASR Errors [39.57253455717825]
音声対応システムは通常、音声を自動音声認識モデルを介してテキストに変換し、テキストを下流の自然言語処理モジュールに供給します。
ASRシステムのエラーは、NLPモジュールの性能を著しく低下させる可能性がある。
これまでの研究では、トレーニングプロセス中にasrノイズを注入することにより、この問題を解決するためにデータ拡張手法を用いることが有効であることが示されている。
論文 参考訳(メタデータ) (2021-03-25T05:15:43Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。