論文の概要: Hierarchical Transformer-based Large-Context End-to-end ASR with
Large-Context Knowledge Distillation
- arxiv url: http://arxiv.org/abs/2102.07935v1
- Date: Tue, 16 Feb 2021 03:15:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:20:07.021065
- Title: Hierarchical Transformer-based Large-Context End-to-end ASR with
Large-Context Knowledge Distillation
- Title(参考訳): 大規模知識蒸留を用いた階層型変圧器を用いた大コンテキストエンドツーエンドASR
- Authors: Ryo Masumura, Naoki Makishima, Mana Ihori, Akihiko Takashima, Tomohiro
Tanaka, Shota Orihashi
- Abstract要約: 本稿では,知識蒸留に基づく新しい大規模コンテキストエンドツーエンド自動音声認識(E2E-ASR)モデルとその効果的な訓練方法を提案する。
本稿では,階層型エンコーダ・デコーダに基づく大規模コンテキストモデリングと変換器アーキテクチャを組み合わせた階層型変換器に基づく大コンテキストE2E-ASRモデルを提案する。
- 参考スコア(独自算出の注目度): 28.51624095262708
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel large-context end-to-end automatic speech recognition
(E2E-ASR) model and its effective training method based on knowledge
distillation. Common E2E-ASR models have mainly focused on utterance-level
processing in which each utterance is independently transcribed. On the other
hand, large-context E2E-ASR models, which take into account long-range
sequential contexts beyond utterance boundaries, well handle a sequence of
utterances such as discourses and conversations. However, the transformer
architecture, which has recently achieved state-of-the-art ASR performance
among utterance-level ASR systems, has not yet been introduced into the
large-context ASR systems. We can expect that the transformer architecture can
be leveraged for effectively capturing not only input speech contexts but also
long-range sequential contexts beyond utterance boundaries. Therefore, this
paper proposes a hierarchical transformer-based large-context E2E-ASR model
that combines the transformer architecture with hierarchical encoder-decoder
based large-context modeling. In addition, in order to enable the proposed
model to use long-range sequential contexts, we also propose a large-context
knowledge distillation that distills the knowledge from a pre-trained
large-context language model in the training phase. We evaluate the
effectiveness of the proposed model and proposed training method on Japanese
discourse ASR tasks.
- Abstract(参考訳): 本稿では,知識蒸留に基づく新しい大規模コンテキストエンドツーエンド自動音声認識(E2E-ASR)モデルとその効果的な訓練方法を提案する。
一般的なE2E-ASRモデルは、各発話が独立に書き起こされる発話レベル処理に主に焦点を当てている。
一方、発話境界を超えた長距離連続文脈を考慮した大コンテキストE2E-ASRモデルは、談話や会話のような発話のシーケンスをうまく処理する。
しかし、最近発話レベルASRシステム間で最先端のASR性能を達成したトランスアーキテクチャは、まだ大きなコンテキストASRシステムに導入されていません。
トランザクタアーキテクチャは、入力音声コンテキストだけでなく、発話境界を超えた長距離シーケンシャルコンテキストを効果的に捉えるために活用できると期待できる。
そこで本稿では,トランスアーキテクチャと階層エンコーダデコーダを用いた大規模コンテキストモデリングを組み合わせた階層型トランスフォーマーベースの大コンテキストE2E-ASRモデルを提案する。
また,提案モデルが長距離連続文脈を利用できるようにするために,学習段階における学習済みの大規模文脈言語モデルから知識を抽出する大規模コンテキスト知識蒸留法を提案する。
日本語対話型ASRタスクに対する提案モデルの有効性と提案手法の評価を行った。
関連論文リスト
- Advancing Multi-talker ASR Performance with Large Language Models [48.52252970956368]
対話シナリオにおける複数話者からの重複音声認識は、音声認識(ASR)において最も難しい問題の一つである。
本稿では,事前学習した音声エンコーダとLLMを利用したマルチストーカーASRのためのSOTアプローチを提案する。
提案手法は,シミュレーションデータセットLibriMixにおける従来のAEDに基づく手法を超越し,実世界のデータセットAMIの評価セット上で最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-08-30T17:29:25Z) - Tailored Design of Audio-Visual Speech Recognition Models using Branchformers [0.0]
本稿では,パラメータ効率の高い音声認識システムの設計のための新しいフレームワークを提案する。
より正確に言うと、提案するフレームワークは、まず、音声のみのシステムとビデオのみのシステムを推定し、次に、カスタマイズされたオーディオ視覚統合エンコーダを設計する。
その結果、我々のAVSRシステムがどのように最先端の認識率に到達できるかが反映された。
論文 参考訳(メタデータ) (2024-07-09T07:15:56Z) - Integrating Pre-Trained Speech and Language Models for End-to-End Speech Recognition [12.77573161345651]
本稿では,E2E ASRのための事前学習された音声表現モデルと大規模言語モデル(LLM)を統合することを提案する。
提案モデルは,音響特徴抽出や音響・言語モデリングを含む,ASRプロセス全体の最適化を可能にする。
論文 参考訳(メタデータ) (2023-12-06T18:34:42Z) - End-to-End Speech Recognition: A Survey [68.35707678386949]
本調査の目的は、E2E ASRモデルの分類とそれに対応する改善を提供することである。
E2E ASRのすべての関連する側面は、パフォーマンスとデプロイメントの機会に関する議論を伴う、この作業でカバーされている。
論文 参考訳(メタデータ) (2023-03-03T01:46:41Z) - Improving Transformer-based Conversational ASR by Inter-Sentential
Attention Mechanism [20.782319059183173]
本稿では,会話音声認識のためのトランスフォーマーに基づくエンドツーエンドアーキテクチャにおいて,文間情報を明示的にモデル化することを提案する。
提案手法は,複数のオープンソースの対話コーパスに対して有効であり,提案手法は発話レベル変換器を用いたASRモデルから連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-07-02T17:17:47Z) - SRU++: Pioneering Fast Recurrence with Attention for Speech Recognition [49.42625022146008]
複数のASRベンチマークでコンフォーマーと比較することにより,SRU++をASRタスクに適用する利点を示す。
具体的には,SRU++ が長文音声入力において Conformer を追い越すことができる。
論文 参考訳(メタデータ) (2021-10-11T19:23:50Z) - Knowledge Distillation from BERT Transformer to Speech Transformer for
Intent Classification [66.62686601948455]
本研究では,変圧器に基づく言語モデルから変圧器に基づく音声モデルへの知識蒸留に特化して設計された変圧器蒸留法のスコープを利用する。
本研究では,Fluent 音声コーパスとATISデータベースの意図分類精度を99.10%,88.79%とした。
論文 参考訳(メタデータ) (2021-08-05T13:08:13Z) - Non-autoregressive Transformer-based End-to-end ASR using BERT [13.07939371864781]
本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
論文 参考訳(メタデータ) (2021-04-10T16:22:17Z) - Joint Contextual Modeling for ASR Correction and Language Understanding [60.230013453699975]
言語理解(LU)と協調してASR出力の文脈的言語補正を行うマルチタスクニューラルアプローチを提案する。
そこで本研究では,市販のASRおよびLUシステムの誤差率を,少量のドメイン内データを用いてトレーニングしたジョイントモデルと比較して14%削減できることを示した。
論文 参考訳(メタデータ) (2020-01-28T22:09:25Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。