論文の概要: Context-Aware Transformer Transducer for Speech Recognition
- arxiv url: http://arxiv.org/abs/2111.03250v1
- Date: Fri, 5 Nov 2021 04:14:35 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-08 14:42:43.230372
- Title: Context-Aware Transformer Transducer for Speech Recognition
- Title(参考訳): 音声認識用コンテキストアウェアトランストランストランスデューサ
- Authors: Feng-Ju Chang, Jing Liu, Martin Radfar, Athanasios Mouchtaris,
Maurizio Omologo, Ariya Rastrow, Siegfried Kunzmann
- Abstract要約: 本稿では,この文脈信号を利用して,最先端の変圧器ベースASRシステムを改善する新しい文脈対応変圧器トランスデューサ(CATT)ネットワークを提案する。
BERTベースのコンテキストエンコーダを用いたCATTは、ベースライントランスデューサの単語誤り率を改善し、既存の深層文脈モデルよりも24.2%、19.4%向上することを示す。
- 参考スコア(独自算出の注目度): 21.916660252023707
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: End-to-end (E2E) automatic speech recognition (ASR) systems often have
difficulty recognizing uncommon words, that appear infrequently in the training
data. One promising method, to improve the recognition accuracy on such rare
words, is to latch onto personalized/contextual information at inference. In
this work, we present a novel context-aware transformer transducer (CATT)
network that improves the state-of-the-art transformer-based ASR system by
taking advantage of such contextual signals. Specifically, we propose a
multi-head attention-based context-biasing network, which is jointly trained
with the rest of the ASR sub-networks. We explore different techniques to
encode contextual data and to create the final attention context vectors. We
also leverage both BLSTM and pretrained BERT based models to encode contextual
data and guide the network training. Using an in-house far-field dataset, we
show that CATT, using a BERT based context encoder, improves the word error
rate of the baseline transformer transducer and outperforms an existing deep
contextual model by 24.2% and 19.4% respectively.
- Abstract(参考訳): E2E(End-to-end)自動音声認識(ASR)システムは、トレーニングデータに稀に現れる珍しい単語を認識するのが難しい場合が多い。
このような稀な単語の認識精度を向上させるための1つの有望な方法は、推論時にパーソナライズ/コンテキスト情報にラッチを付けることである。
本研究では,そのコンテキスト信号を利用して,最先端のトランスフォーマーベースASRシステムを改善する新しいコンテクスト対応トランスデューサ(CATT)ネットワークを提案する。
具体的には,asrサブネットワークの他の部分と共同でトレーニングを行うマルチヘッドアテンションに基づくコンテキストバイアスネットワークを提案する。
コンテクストデータをエンコードし,最後のアテンションコンテキストベクトルを作成するための様々な手法を検討する。
また、BLSTMとトレーニング済みBERTベースのモデルの両方を利用して、コンテキストデータをエンコードし、ネットワークトレーニングをガイドします。
社内の遠視野データセットを用いて,BERTベースのコンテキストエンコーダを用いたCATTは,ベースライントランスデューサの単語誤り率を改善し,既存の深部文脈モデルをそれぞれ24.2%,19.4%向上させることを示した。
関連論文リスト
- Large Generative Model-assisted Talking-face Semantic Communication System [55.42631520122753]
本研究では,LGM-TSC(Large Generative Model-assisted Talking-face Semantic Communication)システムを提案する。
送信機のジェネレーティブセマンティック・エクストラクタ(GSE)は、意味的にスパースな音声映像を高情報密度のテキストに変換する。
意味的曖昧さと修正のためのLarge Language Model (LLM)に基づくPrivate Knowledge Base (KB)。
BERT-VITS2とSadTalkerモデルを用いた生成意味再構成(GSR)により、テキストを高QoE音声ビデオに変換する。
論文 参考訳(メタデータ) (2024-11-06T12:45:46Z) - Transformer-based Joint Source Channel Coding for Textual Semantic
Communication [23.431590618978948]
Space-Air-Ground-Sea統合ネットワークコールにより、ジャミングに対するより堅牢でセキュアな送信技術が要求される。
本稿では,文のモデル化とエンコードに先進的な自然言語処理技術を利用する,ロバスト伝送のためのテキスト意味伝達フレームワークを提案する。
論文 参考訳(メタデータ) (2023-07-23T08:42:05Z) - Code-Switching Text Generation and Injection in Mandarin-English ASR [57.57570417273262]
業界で広く使われているストリーミングモデルTransformer-Transducer(T-T)の性能向上のためのテキスト生成とインジェクションについて検討する。
まず、コードスイッチングテキストデータを生成し、テキスト-to-Speech(TTS)変換または暗黙的に音声とテキストの潜在空間を結び付けることによって、T-Tモデルに生成されたテキストを明示的に注入する戦略を提案する。
実際のマンダリン・イングリッシュ音声の1,800時間を含むデータセットを用いて訓練したT-Tモデルの実験結果から,生成したコードスイッチングテキストを注入する手法により,T-Tモデルの性能が著しく向上することが示された。
論文 参考訳(メタデータ) (2023-03-20T09:13:27Z) - Text-only domain adaptation for end-to-end ASR using integrated
text-to-mel-spectrogram generator [17.44686265224974]
本稿では, テキストのみのデータ, あるいは混在した音声データに基づいて, エンドツーエンドの自動音声認識(ASR)システムを提案する。
提案手法は,書き起こし音声のみを訓練したシステムと比較して,ASRの精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-02-27T18:47:55Z) - Contextual-Utterance Training for Automatic Speech Recognition [65.4571135368178]
本稿では,過去と将来の文脈発話を利用した文脈発話訓練手法を提案する。
また,自動音声認識(ASR)システムをストリーミングするための2モード文脈発話訓練手法を提案する。
提案手法により、WERと平均最後のトークン放出遅延を6%以上、40ms以上削減できる。
論文 参考訳(メタデータ) (2022-10-27T08:10:44Z) - Improving Transformer-based Conversational ASR by Inter-Sentential
Attention Mechanism [20.782319059183173]
本稿では,会話音声認識のためのトランスフォーマーに基づくエンドツーエンドアーキテクチャにおいて,文間情報を明示的にモデル化することを提案する。
提案手法は,複数のオープンソースの対話コーパスに対して有効であり,提案手法は発話レベル変換器を用いたASRモデルから連続的に性能を向上する。
論文 参考訳(メタデータ) (2022-07-02T17:17:47Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - TRIG: Transformer-Based Text Recognizer with Initial Embedding Guidance [15.72669617789124]
シーンテキスト認識(STR)は画像とテキストの間の重要なブリッジである。
最近の手法では、凍結初期埋め込みを使用してデコーダを誘導し、特徴をテキストにデコードし、精度が低下する。
TRansformer-based text recognizer with Initial embeddeding Guidance (TRIG) という,テキスト認識のための新しいアーキテクチャを提案する。
論文 参考訳(メタデータ) (2021-11-16T09:10:39Z) - Dependency Parsing based Semantic Representation Learning with Graph
Neural Network for Enhancing Expressiveness of Text-to-Speech [49.05471750563229]
文の依存性関係を考慮したグラフニューラルネットワークに基づく意味表現学習手法を提案する。
提案手法は,LJSpeech と Bilzzard Challenge 2013 のデータセットにおいて,バニラBERT の機能をベースラインより優れていることを示す。
論文 参考訳(メタデータ) (2021-04-14T13:09:51Z) - Multiresolution and Multimodal Speech Recognition with Transformers [22.995102995029576]
本稿ではトランスフォーマーアーキテクチャを用いた音声視覚自動音声認識(AV-ASR)システムを提案する。
我々は、視覚情報によって提供されるシーンコンテキストに着目して、ASRを接地する。
私たちの結果は、最先端のListen、Attend、Spellベースのアーキテクチャに匹敵します。
論文 参考訳(メタデータ) (2020-04-29T09:32:11Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。