論文の概要: Hierarchical Transformer-based Large-Context End-to-end ASR with
Large-Context Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2102.07935v1
- Date: Tue, 16 Feb 2021 03:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:20:07.021065
- Title: Hierarchical Transformer-based Large-Context End-to-end ASR with
Large-Context Knowledge Distillation
- Title(参考訳): 大規模知識蒸留を用いた階層型変圧器を用いた大コンテキストエンドツーエンドASR
- Authors: Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro
Tanaka, Shota Orihashi
- Abstract要約: 本稿では,知識蒸留に基づく新しい大規模コンテキストエンドツーエンド自動音声認識(E2E-ASR)モデルとその効果的な訓練方法を提案する。
本稿では,階層型エンコーダ・デコーダに基づく大規模コンテキストモデリングと変換器アーキテクチャを組み合わせた階層型変換器に基づく大コンテキストE2E-ASRモデルを提案する。
- 参考スコア(独自算出の注目度): 28.51624095262708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel large-context end-to-end automatic speech recognition
(E2E-ASR) model and its effective training method based on knowledge
distillation. Common E2E-ASR models have mainly focused on utterance-level
processing in which each utterance is independently transcribed. On the other
hand, large-context E2E-ASR models, which take into account long-range
sequential contexts beyond utterance boundaries, well handle a sequence of
utterances such as discourses and conversations. However, the transformer
architecture, which has recently achieved state-of-the-art ASR performance
among utterance-level ASR systems, has not yet been introduced into the
large-context ASR systems. We can expect that the transformer architecture can
be leveraged for effectively capturing not only input speech contexts but also
long-range sequential contexts beyond utterance boundaries. Therefore, this
paper proposes a hierarchical transformer-based large-context E2E-ASR model
that combines the transformer architecture with hierarchical encoder-decoder
based large-context modeling. In addition, in order to enable the proposed
model to use long-range sequential contexts, we also propose a large-context
knowledge distillation that distills the knowledge from a pre-trained
large-context language model in the training phase. We evaluate the
effectiveness of the proposed model and proposed training method on Japanese
discourse ASR tasks.
- Abstract(参考訳): 本稿では,知識蒸留に基づく新しい大規模コンテキストエンドツーエンド自動音声認識(E2E-ASR)モデルとその効果的な訓練方法を提案する。
一般的なE2E-ASRモデルは、各発話が独立に書き起こされる発話レベル処理に主に焦点を当てている。
一方、発話境界を超えた長距離連続文脈を考慮した大コンテキストE2E-ASRモデルは、談話や会話のような発話のシーケンスをうまく処理する。
しかし、最近発話レベルASRシステム間で最先端のASR性能を達成したトランスアーキテクチャは、まだ大きなコンテキストASRシステムに導入されていません。
トランザクタアーキテクチャは、入力音声コンテキストだけでなく、発話境界を超えた長距離シーケンシャルコンテキストを効果的に捉えるために活用できると期待できる。
そこで本稿では,トランスアーキテクチャと階層エンコーダデコーダを用いた大規模コンテキストモデリングを組み合わせた階層型トランスフォーマーベースの大コンテキストE2E-ASRモデルを提案する。
また,提案モデルが長距離連続文脈を利用できるようにするために,学習段階における学習済みの大規模文脈言語モデルから知識を抽出する大規模コンテキスト知識蒸留法を提案する。
日本語対話型ASRタスクに対する提案モデルの有効性と提案手法の評価を行った。
関連論文リスト
- End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Improving Transformer-based Conversational ASR by Inter-Sentential
Attention Mechanism [20.782319059183173]
本稿では,会話音声認識のためのトランスフォーマーに基づくエンドツーエンドアーキテクチャにおいて,文間情報を明示的にモデル化することを提案する。
提案手法は,複数のオープンソースの対話コーパスに対して有効であり,提案手法は発話レベル変換器を用いたASRモデルから連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-07-02T17:17:47Z) - Contextual Density Ratio for Language Model Biasing of Sequence to
Sequence ASR Systems [2.4909170697740963]
本稿では,コンテキスト認識型E2Eモデルのトレーニングと,名前付きエンティティに言語モデルを適用するためのコンテキスト密度比アプローチを提案する。
提案手法は,テストセット全体の認識精度を低下させることなく,E2Eベースライン上の名前を46.5%向上させる。
論文 参考訳(メタデータ) (2022-06-29T13:12:46Z) - Context Matters in Semantically Controlled Language Generation for
Task-oriented Dialogue Systems [6.1478669848771546]
本研究は,タスク指向対話における文脈言語生成を実現するために,事前学習モデルによって符号化された対話履歴情報と,現在のシステム発話の意味表現とを組み合わせる。
我々は、事前学習されたマルチコンテキスト・コンベRTモデルを、スクラッチから訓練されたモデルにおける文脈表現に利用し、事前学習されたGPT-2から適応したモデルにおいて、直前のユーザ発話を文脈生成に活用する。
論文 参考訳(メタデータ) (2021-11-28T11:48:02Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。