論文の概要: Non-autoregressive Transformer-based End-to-end ASR using BERT
- arxiv url: http://arxiv.org/abs/2104.04805v1
- Date: Sat, 10 Apr 2021 16:22:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-13 13:58:18.756035
- Title: Non-autoregressive Transformer-based End-to-end ASR using BERT
- Title(参考訳): BERTを用いた非自己回帰変換器を用いたエンドツーエンドASR
- Authors: Fu-Hao Yu and Kuan-Yu Chen
- Abstract要約: 本稿では、BERTに基づく変換器に基づくエンドツーエンド自動音声認識(ASR)モデルを提案する。
AISHELL-1データセットで実施された一連の実験は、競争力または優れた結果を示している。
- 参考スコア(独自算出の注目度): 13.07939371864781
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformer-based models have led to a significant innovation in various
classic and practical subjects, including speech processing, natural language
processing, and computer vision. On top of the transformer, the attention-based
end-to-end automatic speech recognition (ASR) models have become a popular
fashion in recent years. Specifically, the non-autoregressive modeling, which
can achieve fast inference speed and comparable performance when compared to
conventional autoregressive methods, is an emergent research topic. In the
context of natural language processing, the bidirectional encoder
representations from transformers (BERT) model has received widespread
attention, partially due to its ability to infer contextualized word
representations and to obtain superior performances of downstream tasks by
performing only simple fine-tuning. In order to not only inherit the advantages
of non-autoregressive ASR modeling, but also receive benefits from a
pre-trained language model (e.g., BERT), a non-autoregressive transformer-based
end-to-end ASR model based on BERT is presented in this paper. A series of
experiments conducted on the AISHELL-1 dataset demonstrates competitive or
superior results of the proposed model when compared to state-of-the-art ASR
systems.
- Abstract(参考訳): トランスフォーマーベースのモデルは、音声処理、自然言語処理、コンピュータビジョンなど、様々な古典的および実践的な分野において大きな革新をもたらした。
変換器上には,近年,注目に基づくエンドツーエンド音声認識(ASR)モデルが普及している。
具体的には、従来の自己回帰手法と比較して高速な推論速度と同等の性能を達成できる非自己回帰モデリングは、創発的な研究トピックである。
自然言語処理の文脈において、トランスフォーマ(bert)モデルからの双方向エンコーダ表現は、コンテキスト化された単語表現を推論し、単純な微調整のみを行うことで下流タスクの優れた性能を得る能力によって、広く注目されている。
本稿では、非自己回帰的ASRモデリングの利点を継承するだけでなく、事前学習された言語モデル(例えばBERT)の恩恵を受けるために、BERTに基づく非自己回帰的トランスフォーマーに基づくエンドツーエンドASRモデルを提案する。
AISHELL-1データセットで実施された一連の実験は、最先端のASRシステムと比較して、提案モデルの競争力や優れた結果を示す。
関連論文リスト
- Are Transformers in Pre-trained LM A Good ASR Encoder? An Empirical Study [52.91899050612153]
自動音声認識(ASR)のためのエンコーダとして再利用された事前訓練言語モデル(PLM)内のトランスフォーマー
本研究は,事前学習したLMのトランスフォーマーを組み込んだASRタスクにおいて,文字誤り率 (CER) とワード誤り率 (WER) の顕著な改善が認められた。
このことは、事前訓練されたトランスフォーマーに埋め込まれたセマンティックな技術を活用して、ASRシステムの能力を向上させる可能性を浮き彫りにしている。
論文 参考訳(メタデータ) (2024-09-26T11:31:18Z) - FASTopic: Pretrained Transformer is a Fast, Adaptive, Stable, and Transferable Topic Model [76.509837704596]
本稿では,高速で適応的で,安定で,移動可能なトピックモデルであるFASTopicを提案する。
我々はDSR(Dual Semantic-Relation Reconstruction)を用いて潜在トピックをモデル化する。
また, セマンティック関係を最適輸送計画として正規化するためのETP(Embedding Transport Plan)を提案する。
論文 参考訳(メタデータ) (2024-05-28T09:06:38Z) - A Lexical-aware Non-autoregressive Transformer-based ASR Model [9.500518278458905]
本稿では,音響エンコーダ,音声テキスト共有エンコーダ,音声テキスト共有デコーダで構成される,語彙対応非自己回帰トランスフォーマベース(LA-NAT)ASRフレームワークを提案する。
LA-NATは,語彙情報をASRモデルに認識させることを目的としており,学習した言語知識を活用することにより,より良い結果が得られることが期待されている。
論文 参考訳(メタデータ) (2023-05-18T09:50:47Z) - Streaming Multi-Talker ASR with Token-Level Serialized Output Training [53.11450530896623]
t-SOTはマルチトーカー自動音声認識のための新しいフレームワークである。
t-SOTモデルには、推論コストの低減とよりシンプルなモデルアーキテクチャの利点がある。
重複しない音声の場合、t-SOTモデルは精度と計算コストの両面において単一ストーカーのASRモデルと同等である。
論文 参考訳(メタデータ) (2022-02-02T01:27:21Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z) - Hierarchical Transformer-based Large-Context End-to-end ASR with
Large-Context Knowledge Distillation [28.51624095262708]
本稿では,知識蒸留に基づく新しい大規模コンテキストエンドツーエンド自動音声認識(E2E-ASR)モデルとその効果的な訓練方法を提案する。
本稿では,階層型エンコーダ・デコーダに基づく大規模コンテキストモデリングと変換器アーキテクチャを組み合わせた階層型変換器に基づく大コンテキストE2E-ASRモデルを提案する。
論文 参考訳(メタデータ) (2021-02-16T03:15:15Z) - Pretraining Techniques for Sequence-to-Sequence Voice Conversion [57.65753150356411]
シークエンス・トゥ・シークエンス(seq2seq)音声変換(VC)モデルは、韻律を変換する能力によって魅力的である。
我々は,大規模コーパスが容易に利用できる他の音声処理タスク(通常,テキスト音声(TTS)と自動音声認識(ASR))から知識を伝達することを提案する。
このような事前訓練されたASRまたはTSモデルパラメータを持つVCモデルは、高忠実で高知能な変換可能な音声に対して効果的な隠れ表現を生成することができると論じる。
論文 参考訳(メタデータ) (2020-08-07T11:02:07Z) - Applying the Transformer to Character-level Transduction [68.91664610425114]
この変換器は、様々な単語レベルのNLPタスクにおいて、繰り返しニューラルネットワークに基づくシーケンス・ツー・シーケンスモデルより優れていることが示されている。
十分なバッチサイズで、トランスフォーマーは文字レベルタスクの繰り返しモデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-05-20T17:25:43Z) - Hybrid Autoregressive Transducer (hat) [11.70833387055716]
本稿では,ハイブリッド自己回帰トランスデューサ(HAT)モデルの提案と評価を行う。
従来の音声認識システムのモジュラリティを保った時間同期エンコーダデコーダモデルである。
提案手法を大規模音声検索タスクで評価する。
論文 参考訳(メタデータ) (2020-03-12T20:47:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。