論文の概要: Reducing language context confusion for end-to-end code-switching
automatic speech recognition
- arxiv url: http://arxiv.org/abs/2201.12155v1
- Date: Fri, 28 Jan 2022 14:39:29 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-31 16:12:18.044493
- Title: Reducing language context confusion for end-to-end code-switching
automatic speech recognition
- Title(参考訳): エンドツーエンドコード切り換え自動音声認識における言語コンテキスト混乱の低減
- Authors: Shuai Zhang, Jiangyan Yi, Zhengkun Tian, Jianhua Tao, Yu Ting Yeung,
Liqun Deng
- Abstract要約: 本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
- 参考スコア(独自算出の注目度): 50.89821865949395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Code-switching is about dealing with alternative languages in the
communication process. Training end-to-end (E2E) automatic speech recognition
(ASR) systems for code-switching is known to be a challenging problem because
of the lack of data compounded by the increased language context confusion due
to the presence of more than one language. In this paper, we propose a
language-related attention mechanism to reduce multilingual context confusion
for the E2E code-switching ASR model based on the Equivalence Constraint Theory
(EC). The linguistic theory requires that any monolingual fragment that occurs
in the code-switching sentence must occur in one of the monolingual sentences.
It establishes a bridge between monolingual data and code-switching data. By
calculating the respective attention of multiple languages, our method can
efficiently transfer language knowledge from rich monolingual data. We evaluate
our method on ASRU 2019 Mandarin-English code-switching challenge dataset.
Compared with the baseline model, the proposed method achieves 11.37% relative
mix error rate reduction.
- Abstract(参考訳): コードスイッチングは、コミュニケーションプロセスにおける代替言語を扱うことです。
コードスイッチングのための訓練用エンドツーエンド(E2E)自動音声認識(ASR)システムは、複数の言語が存在するため、言語コンテキストの混乱によって複雑化するデータが少ないため、難しい問題であることが知られている。
本稿では、等価制約理論(EC)に基づくE2E符号スイッチングASRモデルの多言語文脈混乱を低減するための言語関連注意機構を提案する。
言語理論では、コードスイッチング文で発生する任意の単言語フラグメントは、一言語文の1つでなければならない。
モノリンガルデータとコードスイッチングデータの間にブリッジを確立する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
本手法をasru 2019 mandarin- english code-switching challengeデータセットで評価した。
ベースラインモデルと比較して,提案手法は11.37%の相対混合誤差率低減を実現する。
関連論文リスト
- Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文 参考訳(メタデータ) (2020-11-30T17:27:41Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。