論文の概要: Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition
- arxiv url: http://arxiv.org/abs/2002.08126v1
- Date: Wed, 19 Feb 2020 12:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-30 13:25:52.181695
- Title: Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition
- Title(参考訳): エンドツーエンドマンダリン英語コード切替音声認識のための言語バイアス付きrnnトランスデューサ
- Authors: Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Ye Bai
- Abstract要約: 本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
- 参考スコア(独自算出の注目度): 58.105818353866354
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, language identity information has been utilized to improve the
performance of end-to-end code-switching (CS) speech recognition. However,
previous works use an additional language identification (LID) model as an
auxiliary module, which causes the system complex. In this work, we propose an
improved recurrent neural network transducer (RNN-T) model with language bias
to alleviate the problem. We use the language identities to bias the model to
predict the CS points. This promotes the model to learn the language identity
information directly from transcription, and no additional LID model is needed.
We evaluate the approach on a Mandarin-English CS corpus SEAME. Compared to our
RNN-T baseline, the proposed method can achieve 16.2% and 12.9% relative error
reduction on two test sets, respectively.
- Abstract(参考訳): 近年,言語識別情報は,エンドツーエンドのコードスイッチング(CS)音声認識の性能向上に活用されている。
しかし、以前の研究では補助モジュールとして追加の言語識別(LID)モデルを使用しており、システム複合体の原因となっている。
本稿では,この問題を解決するために,言語バイアスを伴うrecurrent neural network transducer(rnn-t)モデルを提案する。
言語アイデンティティを使ってモデルをバイアスし,CS点を予測する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
マンダリン・イングリッシュCSコーパスSEAMEのアプローチを評価する。
RNN-Tベースラインと比較して,提案手法は2つのテストセットに対してそれぞれ16.2%,12.9%の相対誤差低減を実現することができる。
関連論文リスト
- Training Neural Networks as Recognizers of Formal Languages [87.06906286950438]
形式言語理論は、特に認識者に関するものである。
代わりに、非公式な意味でのみ類似したプロキシタスクを使用するのが一般的である。
ニューラルネットワークを文字列のバイナリ分類器として直接訓練し評価することで、このミスマッチを補正する。
論文 参考訳(メタデータ) (2024-11-11T16:33:25Z) - Soft Language Identification for Language-Agnostic Many-to-One End-to-End Speech Translation [40.0365339798752]
多くのエンドツーエンドの音声翻訳モデルは、異なるソース言語からの音声信号をターゲット言語でテキストに変換することができる。
場合によっては、入力言語を付与または推定することができる。
我々は、単純で効果的な線形入力ネットワークを導入することで、これを実現する。
論文 参考訳(メタデータ) (2024-06-12T00:00:39Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Generative error correction for code-switching speech recognition using
large language models [49.06203730433107]
コードスイッチング(英: Code-switching, CS)とは、2つ以上の言語が同じ文内に混在する現象である。
本稿では,大規模言語モデル (LLM) と ASR が生成する仮説のリストを利用して,CS 問題に対処することを提案する。
論文 参考訳(メタデータ) (2023-10-17T14:49:48Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Is Attention always needed? A Case Study on Language Identification from
Speech [1.162918464251504]
本研究では,畳み込みリカレントニューラルネットワーク(CRNN)を用いたLIDを提案する。
CRNNベースのLIDは、音声サンプルのMel- frequency Cepstral Coefficient(MFCC)特性で動作するように設計されている。
LIDモデルは言語的に類似した言語に対して97%から100%のハイパフォーマンスレベルを示す。
論文 参考訳(メタデータ) (2021-10-05T16:38:57Z) - Factorized Neural Transducer for Efficient Language Model Adaptation [51.81097243306204]
空白および語彙予測を分解し,ニューラルトランスデューサの因子化モデルを提案する。
この因子化は、音声認識のためのトランスデューサにスタンドアロン言語モデルの改善を移すことが期待できる。
提案した因子化ニューラルトランスデューサは、言語モデル適応にドメイン外テキストデータを使用する場合、15%から20%のWER改善が得られることを示す。
論文 参考訳(メタデータ) (2021-09-27T15:04:00Z) - Towards Relevance and Sequence Modeling in Language Recognition [39.547398348702025]
本稿では,言語認識における短系列情報を利用したニューラルネットワークフレームワークを提案する。
音声認識タスクの関連性に基づいて、音声データの一部を重み付けする言語認識に関連性を取り入れた新しいモデルを提案する。
NIST LRE 2017 Challengeにおいて、クリーン、ノイズ、マルチ話者音声データを用いて言語認識タスクを用いて実験を行う。
論文 参考訳(メタデータ) (2020-04-02T18:31:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。