論文の概要: Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition
- arxiv url: http://arxiv.org/abs/2210.14725v1
- Date: Tue, 25 Oct 2022 08:12:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-27 15:34:28.521535
- Title: Linguistic-Enhanced Transformer with CTC Embedding for Speech
Recognition
- Title(参考訳): 音声認識のためのCTC埋め込み言語拡張変換器
- Authors: Xulong Zhang, Jianzong Wang, Ning Cheng, Mengyuan Zhao, Zhiyong Zhang,
Jing Xiao
- Abstract要約: 関節CTC-Attention モデルの最近の動向は自動音声認識(ASR)において顕著に改善されている
本稿では,訓練中にデコーダに改良されたCTC情報を導入する言語拡張トランスフォーマを提案する。
AISHELL-1音声コーパスの実験では、文字誤り率(CER)は7%まで相対的に減少している。
- 参考スコア(独自算出の注目度): 29.1423215212174
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The recent emergence of joint CTC-Attention model shows significant
improvement in automatic speech recognition (ASR). The improvement largely lies
in the modeling of linguistic information by decoder. The decoder
joint-optimized with an acoustic encoder renders the language model from
ground-truth sequences in an auto-regressive manner during training. However,
the training corpus of the decoder is limited to the speech transcriptions,
which is far less than the corpus needed to train an acceptable language model.
This leads to poor robustness of decoder. To alleviate this problem, we propose
linguistic-enhanced transformer, which introduces refined CTC information to
decoder during training process, so that the decoder can be more robust. Our
experiments on AISHELL-1 speech corpus show that the character error rate (CER)
is relatively reduced by up to 7%. We also find that in joint CTC-Attention ASR
model, decoder is more sensitive to linguistic information than acoustic
information.
- Abstract(参考訳): 近年のCTC-Attentionモデルでは,音声認識(ASR)が大幅に改善されている。
この改良は主にデコーダによる言語情報のモデリングにある。
音響エンコーダと共同最適化されたデコーダは、訓練中の自己回帰的に、接地トラス列から言語モデルをレンダリングする。
しかし、デコーダのトレーニングコーパスは、許容される言語モデルのトレーニングに必要なコーパスよりもはるかに少ない音声転写に制限されている。
これによりデコーダの堅牢性が低下する。
この問題を軽減するために,訓練プロセス中にデコーダに改良されたCTC情報を導入し,デコーダをより堅牢にする言語強化トランスフォーマを提案する。
AISHELL-1音声コーパスを用いた実験により,文字誤り率(CER)は7%まで相対的に低下した。
また,共同CTC-Attention ASRモデルでは,デコーダは音響情報よりも言語情報に敏感であることがわかった。
関連論文リスト
- RepCodec: A Speech Representation Codec for Speech Tokenization [21.60885344868044]
RepCodecは意味的音声トークン化のための新しい表現である。
RepCodecは、音声認識と生成の両方において広く使われているk-meansクラスタリング手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-08-31T23:26:10Z) - On decoder-only architecture for speech-to-text and large language model
integration [59.49886892602309]
Speech-LLaMAは、音声情報をテキストベースの大規模言語モデルに効果的に組み込む新しいアプローチである。
我々は多言語音声からテキストへの翻訳タスクの実験を行い、強いベースラインよりも大幅に改善されたことを示す。
論文 参考訳(メタデータ) (2023-07-08T06:47:58Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Pre-Training Transformer Decoder for End-to-End ASR Model with Unpaired
Speech Data [145.95460945321253]
本稿では,音響単位,すなわち擬似符号を用いたエンコーダ・デコーダネットワークのための2つの事前学習タスクを提案する。
提案したSpeech2Cは,デコーダを事前学習することなく,単語誤り率(WER)を19.2%削減できる。
論文 参考訳(メタデータ) (2022-03-31T15:33:56Z) - Knowledge Transfer from Large-scale Pretrained Language Models to
End-to-end Speech Recognizers [13.372686722688325]
エンドツーエンド音声認識の訓練には、常に書き起こされた発話が必要である。
本稿では,テキストのみのデータで事前学習可能な言語モデルニューラルネットワークから知識を伝達することで,この問題を緩和する手法を提案する。
論文 参考訳(メタデータ) (2022-02-16T07:02:24Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Stacked Acoustic-and-Textual Encoding: Integrating the Pre-trained
Models into Speech Translation Encoders [30.160261563657947]
エンドツーエンドの音声翻訳では、事前トレーニングが有望です。
Stackedを提案します。
音声翻訳のための音響・テキスト(SATE)法
エンコーダはアコースティックシーケンスを通常どおりに処理することから始まり、その後はアコースティックシーケンスのように振る舞う。
MTエンコーダは入力シーケンスのグローバル表現である。
論文 参考訳(メタデータ) (2021-05-12T16:09:53Z) - Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:01:09Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。