論文の概要: Distilling the Knowledge of BERT for Sequence-to-Sequence ASR
- arxiv url: http://arxiv.org/abs/2008.03822v1
- Date: Sun, 9 Aug 2020 21:48:02 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-01 04:35:53.513107
- Title: Distilling the Knowledge of BERT for Sequence-to-Sequence ASR
- Title(参考訳): sequence-to-sequence asrにおけるbertの知識の蒸留
- Authors: Hayato Futami, Hirofumi Inaguma, Sei Ueno, Masato Mimura, Shinsuke
Sakai and Tatsuya Kawahara
- Abstract要約: 我々は、セク2seq ASRにBERTを外部言語モデルとして適用することで、左右両方のコンテキストを活用する。
BERTは、seq2seq ASRのトレーニングをガイドするソフトラベルを生成する。
提案手法は, n-best rescoringや浅い核融合などの他のLMアプリケーション手法よりも優れている。
- 参考スコア(独自算出の注目度): 39.03817586745041
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention-based sequence-to-sequence (seq2seq) models have achieved promising
results in automatic speech recognition (ASR). However, as these models decode
in a left-to-right way, they do not have access to context on the right. We
leverage both left and right context by applying BERT as an external language
model to seq2seq ASR through knowledge distillation. In our proposed method,
BERT generates soft labels to guide the training of seq2seq ASR. Furthermore,
we leverage context beyond the current utterance as input to BERT. Experimental
evaluations show that our method significantly improves the ASR performance
from the seq2seq baseline on the Corpus of Spontaneous Japanese (CSJ).
Knowledge distillation from BERT outperforms that from a transformer LM that
only looks at left context. We also show the effectiveness of leveraging
context beyond the current utterance. Our method outperforms other LM
application approaches such as n-best rescoring and shallow fusion, while it
does not require extra inference cost.
- Abstract(参考訳): 注意に基づくシーケンス・ツー・シーケンス(seq2seq)モデルは自動音声認識(ASR)において有望な結果を得た。
しかし、これらのモデルは左から右にデコードするので、右のコンテキストにアクセスできない。
我々は、知識蒸留によるセク2seq ASRにBERTを外部言語モデルとして適用することで、左右両方の文脈を活用する。
提案手法では,ceq2seq ASRのトレーニングを案内するソフトラベルを生成する。
さらに,現在の発話を超えた文脈をbertの入力として活用する。
日本語自発語コーパス(CSJ)のSeq2seqベースラインからASR性能を有意に向上することを示す実験的検討を行った。
BERTの知識蒸留は、左の文脈だけを見る変換器のLMよりも優れている。
また,現在の発話を超えた文脈の活用の有効性を示す。
提案手法は,n-best rescoringや浅層融合といった他のLMアプリケーション手法よりも優れているが,追加の推論コストは不要である。
関連論文リスト
- How to Prune Your Language Model: Recovering Accuracy on the "Sparsity
May Cry'' Benchmark [60.72725673114168]
下流データセットの微調整中における正確なBERTプルーニングの問題を再考する。
そこで我々は,SMCベンチマークの挑戦においても,プルーニングを成功させるための一般的なガイドラインを提案する。
論文 参考訳(メタデータ) (2023-12-21T03:11:30Z) - Weighted Sampling for Masked Language Modeling [12.25238763907731]
トークン周波数とトレーニング損失に基づいてトークンをマスキングするための2つの簡易かつ効果的な重み付きサンプリング手法を提案する。
これら2つの戦略をBERTに適用し、重み付きBERT(WSBERT)を得る。
論文 参考訳(メタデータ) (2023-02-28T01:07:39Z) - Scene Text Recognition with Permuted Autoregressive Sequence Models [15.118059441365343]
コンテキスト対応STRメソッドは通常、内部自己回帰(AR)言語モデル(LM)を使用する。
提案手法であるPARSeqは、置換言語モデリングを用いて、共有重み付き内部AR LMのアンサンブルを学習する。
コンテキストフリーな非ARおよびコンテキスト対応AR推論を実現し、双方向コンテキストを用いた反復的洗練を実現する。
論文 参考訳(メタデータ) (2022-07-14T14:51:50Z) - RescoreBERT: Discriminative Speech Recognition Rescoring with BERT [21.763672436079872]
ASRにおける深層指向性事前学習モデルの微調整に差別的損失の改善を組み込むために,MWER損失を伴うBERTベースの再構成モデルをトレーニングする方法を示す。
我々はこのアプローチをRescoreBERTと名付け、LibriSpeechコーパスで評価し、BERTベースライン上のクリーン/他のテストセットに対して、差別的目的なくWERを6.6%/3.4%削減する。
論文 参考訳(メタデータ) (2022-02-02T15:45:26Z) - Sequence-level self-learning with multiple hypotheses [53.04725240411895]
我々は、自動音声認識(ASR)のためのアテンションベースシーケンス・ツー・シーケンス(seq2seq)モデルを用いた新しい自己学習手法を開発した。
従来の教師なし学習手法とは対照的に,我々はEmphmulti-task Learning(MTL)フレームワークを採用する。
実験の結果,本手法は,英語データのみを用いてトレーニングしたベースラインモデルと比較して,英文音声データのWERを14.55%から10.36%に削減できることがわかった。
論文 参考訳(メタデータ) (2021-12-10T20:47:58Z) - Attention-based Multi-hypothesis Fusion for Speech Summarization [83.04957603852571]
音声認識(ASR)とテキスト要約(TS)を組み合わせることで、音声要約を実現することができる
ASR誤差はカスケード法における出力要約の品質に直接影響する。
本稿では、ASRの誤りに対して頑健なカスケード音声要約モデルを提案し、ASRが生成した複数の仮説を利用して、ASRの誤りが要約に与える影響を緩和する。
論文 参考訳(メタデータ) (2021-11-16T03:00:29Z) - Learning to Ask Conversational Questions by Optimizing Levenshtein
Distance [83.53855889592734]
明示的な編集動作によって最小レベンシュテイン距離(MLD)を最適化する強化反復シーケンス編集(RISE)フレームワークを導入する。
RISEは会話の特徴に関連するトークンに注意を払うことができる。
2つのベンチマークデータセットの実験結果から、RISEは最先端の手法を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2021-06-30T08:44:19Z) - Generation-Augmented Retrieval for Open-domain Question Answering [134.27768711201202]
GAR(Generation-Augmented Retrieval)は、オープンドメインの質問に答える機能である。
クエリーに対して多様なコンテキストを生成することは、結果の融合が常により良い検索精度をもたらすので有益であることを示す。
GARは、抽出読取装置を備えた場合、抽出QA設定の下で、自然質問およびトリビアQAデータセットの最先端性能を達成する。
論文 参考訳(メタデータ) (2020-09-17T23:08:01Z) - Exploring Cross-sentence Contexts for Named Entity Recognition with BERT [1.4998865865537996]
本稿では, BERT モデルを用いた NER におけるクロス文情報の利用を5言語で検討する。
BERT入力に追加文の形でコンテキストを追加することで、テスト対象言語やモデル上でのNER性能が向上することがわかった。
そこで本稿では,文の様々な予測を組み合わせ,さらにNER性能を向上させるための簡単な手法であるCMV(Contextual Majority Voting)を提案する。
論文 参考訳(メタデータ) (2020-06-02T12:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。