論文の概要: Multilingual Speech Recognition for Low-Resource Indian Languages using
Multi-Task conformer
- arxiv url: http://arxiv.org/abs/2109.03969v1
- Date: Sun, 22 Aug 2021 09:32:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-12 12:16:53.525110
- Title: Multilingual Speech Recognition for Low-Resource Indian Languages using
Multi-Task conformer
- Title(参考訳): マルチタスクコンフォーメータを用いたインド低リソース言語のための多言語音声認識
- Authors: Krishna D N
- Abstract要約: インド語の低リソース多言語音声認識のためのマルチタスク学習に基づくトランスフォーマモデルを提案する。
音素認識タスクには音素デコーダ,グラフ素シーケンス予測には音素デコーダを用いる。
提案手法は従来の手法よりも大幅に改善できる。
- 参考スコア(独自算出の注目度): 4.594159253008448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have recently become very popular for sequence-to-sequence
applications such as machine translation and speech recognition. In this work,
we propose a multi-task learning-based transformer model for low-resource
multilingual speech recognition for Indian languages. Our proposed model
consists of a conformer [1] encoder and two parallel transformer decoders. We
use a phoneme decoder (PHN-DEC) for the phoneme recognition task and a grapheme
decoder (GRP-DEC) to predict grapheme sequence. We consider the phoneme
recognition task as an auxiliary task for our multi-task learning framework. We
jointly optimize the network for both phoneme and grapheme recognition tasks
using Joint CTC-Attention [2] training. We use a conditional decoding scheme to
inject the language information into the model before predicting the grapheme
sequence. Our experiments show that our proposed approach can obtain
significant improvement over previous approaches [4]. We also show that our
conformer-based dual-decoder approach outperforms both the transformer-based
dual-decoder approach and single decoder approach. Finally, We compare
monolingual ASR models with our proposed multilingual ASR approach.
- Abstract(参考訳): 近年、トランスフォーマーは機械翻訳や音声認識などのシーケンシャル・ツー・シーケンスアプリケーションで非常に人気がある。
本研究では,インド語用低リソース多言語音声認識のためのマルチタスク学習に基づくトランスフォーマモデルを提案する。
提案モデルはコンバータ[1]エンコーダと2つの並列トランスデコーダからなる。
音素認識タスクには音素デコーダ(phn-dec)、音素シーケンスの予測にはgraphemeデコーダ(grp-dec)を用いる。
我々は,音素認識タスクをマルチタスク学習フレームワークの補助タスクとみなしている。
CTC-Attention [2] トレーニングを用いて,音素認識タスクと音素認識タスクの両方にネットワークを最適化する。
文列を予測する前に,条件付き復号法を用いて言語情報をモデルに注入する。
実験の結果,提案手法は従来の手法よりも大幅に改善できることがわかった[4]。
また、コンバータベースのデュアルデコーダアプローチは、トランスフォーマベースのデュアルデコーダアプローチとシングルデコーダアプローチの両方より優れていることを示す。
最後に,単言語 ASR モデルと提案した多言語 ASR モデルを比較した。
関連論文リスト
- Cascaded Cross-Modal Transformer for Audio-Textual Classification [30.643750999989233]
本稿では,自動音声認識(ASR)モデルを用いた音声の書き起こしにより,マルチモーダル表現の固有値を活用することを提案する。
これにより、各データサンプルに対する音声テキスト(マルチモーダル)表現が得られる。
我々は、ACM Multimedia 2023 Computational Paralinguistics Challenge の Requests Sub-Challenge において、勝利のソリューションであると宣言された。
論文 参考訳(メタデータ) (2024-01-15T10:18:08Z) - Leveraging Timestamp Information for Serialized Joint Streaming
Recognition and Translation [51.399695200838586]
本稿では,マルチ・ツー・ワン・ワン・マン・ワン・ツー・マンの同時生成が可能なストリーミングトランスフォーマー・トランスデューサ(T-T)モデルを提案する。
実験では,1個のデコーダで1対1のジョイント出力を初めて生成し,本手法の有効性を実証した。
論文 参考訳(メタデータ) (2023-10-23T11:00:27Z) - VioLA: Unified Codec Language Models for Speech Recognition, Synthesis,
and Translation [91.39949385661379]
VioLAは1つの自動回帰トランスフォーマーデコーダのみのネットワークで、音声とテキストを含む様々なモーダルタスクを統合する。
まず、オフラインのニューラルエンコーダを用いて、全ての発話を個別のトークンに変換する。
さらに,タスクID(TID)と言語ID(LID)をモデルに統合し,異なる言語やタスクを扱うモデリング能力を向上させる。
論文 参考訳(メタデータ) (2023-05-25T14:39:47Z) - Online Gesture Recognition using Transformer and Natural Language
Processing [0.0]
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
トランスフォーマーアーキテクチャは、自然言語文のグリフストロークに対応するオンラインジェスチャーのための強力なマシンフレームワークを提供する。
論文 参考訳(メタデータ) (2023-05-05T10:17:22Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - Wav2Seq: Pre-training Speech-to-Text Encoder-Decoder Models Using Pseudo
Languages [58.43299730989809]
本稿では,音声データに対するエンコーダ・デコーダモデルの両部分を事前学習するための,最初の自己教師型アプローチであるWav2Seqを紹介する。
我々は、コンパクトな離散表現として擬似言語を誘導し、自己教師付き擬似音声認識タスクを定式化する。
このプロセスは独自のものであり、低コストの第2段階のトレーニングとして適用することができる。
論文 参考訳(メタデータ) (2022-05-02T17:59:02Z) - A Dual-Decoder Conformer for Multilingual Speech Recognition [4.594159253008448]
本研究は,インド語に対する低リソース多言語音声認識のためのデュアルデコーダ変換モデルを提案する。
音素認識タスクにはPHN-DEC,言語情報にはGRP-DECを用いる。
実験の結果,ベースラインアプローチよりもWERの大幅な削減が可能であることがわかった。
論文 参考訳(メタデータ) (2021-08-22T09:22:28Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。