論文の概要: Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition
- arxiv url: http://arxiv.org/abs/2002.08126v1
- Date: Wed, 19 Feb 2020 12:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:25:52.181695
- Title: Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition
- Title(参考訳): エンドツーエンドマンダリン英語コード切替音声認識のための言語バイアス付きrnnトランスデューサ
- Authors: Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Ye Bai
- Abstract要約: 本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
- 参考スコア(独自算出の注目度): 58.105818353866354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, language identity information has been utilized to improve the
performance of end-to-end code-switching (CS) speech recognition. However,
previous works use an additional language identification (LID) model as an
auxiliary module, which causes the system complex. In this work, we propose an
improved recurrent neural network transducer (RNN-T) model with language bias
to alleviate the problem. We use the language identities to bias the model to
predict the CS points. This promotes the model to learn the language identity
information directly from transcription, and no additional LID model is needed.
We evaluate the approach on a Mandarin-English CS corpus SEAME. Compared to our
RNN-T baseline, the proposed method can achieve 16.2% and 12.9% relative error
reduction on two test sets, respectively.
- Abstract(参考訳): 近年,言語識別情報は,エンドツーエンドのコードスイッチング(CS)音声認識の性能向上に活用されている。
しかし、以前の研究では補助モジュールとして追加の言語識別(LID)モデルを使用しており、システム複合体の原因となっている。
本稿では,この問題を解決するために,言語バイアスを伴うrecurrent neural network transducer(rnn-t)モデルを提案する。
言語アイデンティティを使ってモデルをバイアスし,CS点を予測する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
マンダリン・イングリッシュCSコーパスSEAMEのアプローチを評価する。
RNN-Tベースラインと比較して,提案手法は2つのテストセットに対してそれぞれ16.2%,12.9%の相対誤差低減を実現することができる。
関連論文リスト
- Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Code Switching Language Model Using Monolingual Training Data [0.0]
単言語データのみを使用したコードスイッチング(cs)言語モデルのトレーニングはまだ研究中である。
この研究では、RNN言語モデルは、単言語英語とスペイン語のデータのみから代替バッチを使用して訓練される。
結果はRNNベースの言語モデルの出力埋め込みにおいて平均二乗誤差(MSE)を用いて一貫して改善された。
論文 参考訳(メタデータ) (2020-12-23T08:56:39Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。