論文の概要: A Dual-Decoder Conformer for Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2109.03277v1
- Date: Sun, 22 Aug 2021 09:22:28 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-12 12:29:15.181883
- Title: A Dual-Decoder Conformer for Multilingual Speech Recognition
- Title(参考訳): 多言語音声認識のためのデュアルデコーダ適合器
- Authors: Krishna D N
- Abstract要約: 本研究は,インド語に対する低リソース多言語音声認識のためのデュアルデコーダ変換モデルを提案する。
音素認識タスクにはPHN-DEC,言語情報にはGRP-DECを用いる。
実験の結果,ベースラインアプローチよりもWERの大幅な削減が可能であることがわかった。
- 参考スコア(独自算出の注目度): 4.594159253008448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have recently become very popular for
sequence-to-sequence applications such as machine translation and speech
recognition. This work proposes a dual-decoder transformer model for
low-resource multilingual speech recognition for Indian languages. Our proposed
model consists of a Conformer [1] encoder, two parallel transformer decoders,
and a language classifier. We use a phoneme decoder (PHN-DEC) for the phoneme
recognition task and a grapheme decoder (GRP-DEC) to predict grapheme sequence
along with language information. We consider phoneme recognition and language
identification as auxiliary tasks in the multi-task learning framework. We
jointly optimize the network for phoneme recognition, grapheme recognition, and
language identification tasks with Joint CTC-Attention [2] training. Our
experiments show that we can obtain a significant reduction in WER over the
baseline approaches. We also show that our dual-decoder approach obtains
significant improvement over the single decoder approach.
- Abstract(参考訳): トランスフォーマーベースのモデルは最近、機械翻訳や音声認識などのシーケンシャル・トゥ・シーケンスアプリケーションで非常に人気がある。
本研究では,インド語用低リソース多言語音声認識のためのデュアルデコーダトランスフォーマモデルを提案する。
提案モデルは,コンバータ[1]エンコーダと2つの並列トランスフォーマーデコーダ,言語分類器から構成される。
音素認識タスクには音素デコーダ(phn-dec)、言語情報とともに音素シーケンスを予測するgraphemeデコーダ(grp-dec)を用いる。
我々は,マルチタスク学習フレームワークにおいて,音素認識と言語識別を補助的タスクとみなす。
我々は,共用CTC-Attention [2]トレーニングを用いて,音素認識,グラフ認識,言語識別タスクのネットワークを最適化する。
実験の結果,ベースラインアプローチよりもWERを大幅に削減できることがわかった。
また,デュアルデコーダ方式は単一デコーダ方式よりも大幅に改善されていることを示す。
関連論文リスト
- Online Gesture Recognition using Transformer and Natural Language
Processing [0.0]
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T10:17:22Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Language-agnostic Code-Switching in Sequence-To-Sequence Speech
Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。
本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。
さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文 参考訳(メタデータ) (2022-10-17T12:15:57Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - Multilingual Speech Recognition for Low-Resource Indian Languages using
Multi-Task conformer [4.594159253008448]
インド語の低リソース多言語音声認識のためのマルチタスク学習に基づくトランスフォーマモデルを提案する。
音素認識タスクには音素デコーダ,グラフ素シーケンス予測には音素デコーダを用いる。
提案手法は従来の手法よりも大幅に改善できる。
論文 参考訳(メタデータ) (2021-08-22T09:32:15Z) - Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文 参考訳(メタデータ) (2020-11-30T17:27:41Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Bi-Decoder Augmented Network for Neural Machine Translation [108.3931242633331]
本稿では,ニューラルマシン翻訳タスクのためのBi-Decoder Augmented Network (BiDAN)を提案する。
各デコーダは入力されたテキストの表現を対応する言語に変換するため、2つの目的語と共同でトレーニングすることで、共有エンコーダは言語に依存しない意味空間を生成することができる。
論文 参考訳(メタデータ) (2020-01-14T02:05:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。