論文の概要: LAE: Language-Aware Encoder for Monolingual and Multilingual ASR
- arxiv url: http://arxiv.org/abs/2206.02093v1
- Date: Sun, 5 Jun 2022 04:03:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 14:10:31.822950
- Title: LAE: Language-Aware Encoder for Monolingual and Multilingual ASR
- Title(参考訳): LAE:単言語および多言語ASRのための言語対応エンコーダ
- Authors: Jinchuan Tian, Jianwei Yu, Chunlei Zhang, Chao Weng, Yuexian Zou, Dong
Yu
- Abstract要約: 言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
- 参考スコア(独自算出の注目度): 87.74794847245536
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Despite the rapid progress in automatic speech recognition (ASR) research,
recognizing multilingual speech using a unified ASR system remains highly
challenging. Previous works on multilingual speech recognition mainly focus on
two directions: recognizing multiple monolingual speech or recognizing
code-switched speech that uses different languages interchangeably within a
single utterance. However, a pragmatic multilingual recognizer is expected to
be compatible with both directions. In this work, a novel language-aware
encoder (LAE) architecture is proposed to handle both situations by
disentangling language-specific information and generating frame-level
language-aware representations during encoding. In the LAE, the primary
encoding is implemented by the shared block while the language-specific blocks
are used to extract specific representations for each language. To learn
language-specific information discriminatively, a language-aware training
method is proposed to optimize the language-specific blocks in LAE. Experiments
conducted on Mandarin-English code-switched speech suggest that the proposed
LAE is capable of discriminating different languages in frame-level and shows
superior performance on both monolingual and multilingual ASR tasks. With
either a real-recorded or simulated code-switched dataset, the proposed LAE
achieves statistically significant improvements on both CTC and neural
transducer systems. Code is released
- Abstract(参考訳): 音声認識(ASR)研究の急速な進歩にもかかわらず、統合されたASRシステムを用いた多言語音声の認識は非常に困難である。
従来の多言語音声認識の研究は主に2つの方向に焦点を当てている: 複数の単言語音声を認識すること、または1つの発話内で異なる言語を相互に使用するコードスイッチされた音声を認識すること。
しかし、実用的多言語認識器は両方向との互換性が期待されている。
本研究は,言語固有情報を分離し,符号化中にフレームレベル言語対応表現を生成することにより,両状況に対処する新しい言語対応エンコーダ(LAE)アーキテクチャを提案する。
LAEでは、プライマリエンコーディングは共有ブロックによって実装され、言語固有のブロックは各言語の特定の表現を抽出するために使用される。
言語固有の情報を識別的に学習するために,LAEにおける言語固有のブロックを最適化する言語認識学習手法を提案する。
mandarin- english code-switched speech を用いた実験により,提案する lae はフレームレベルで異なる言語を識別でき,単言語および多言語asrタスクにおいて優れた性能を示すことが示唆された。
実記録またはシミュレートされたコードスイッチングデータセットを用いて、提案したRAEは、CTCとニューラルトランスデューサの両方で統計的に有意な改善を実現する。
コードがリリース
関連論文リスト
- Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - MoLE : Mixture of Language Experts for Multi-Lingual Automatic Speech
Recognition [12.23416994447554]
我々はMixture-of-Language-Expert(MoLE)という多言語音声認識ネットワークを提案する。
MoLEは、任意の言語で入力された音声から言語表現を分析し、軽量な言語トークン化器で言語固有の専門家を活性化する。
信頼性に基づいて、アクティベートされた専門家と言語に依存しない専門家を集約し、言語条件の埋め込みを表現する。
論文 参考訳(メタデータ) (2023-02-27T13:26:17Z) - Code-Switching without Switching: Language Agnostic End-to-End Speech
Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。
LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文 参考訳(メタデータ) (2022-10-04T10:34:25Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Mandarin-English Code-switching Speech Recognition with Self-supervised
Speech Representation Models [55.82292352607321]
コードスイッチング(英: Code-switching, CS)は、複数の言語が文内で使用される日常会話において一般的である。
本稿では、最近成功した自己教師付き学習(SSL)手法を用いて、CSを使わずに多くのラベルなし音声データを活用する。
論文 参考訳(メタデータ) (2021-10-07T14:43:35Z) - Transformer-Transducers for Code-Switched Speech Recognition [23.281314397784346]
コード切替音声認識のためのトランスフォーマー・トランスデューサモデルアーキテクチャを用いたエンドツーエンドのASRシステムを提案する。
まず、コードスイッチングの低リソースシナリオを扱うために、2つの補助損失関数を導入する。
第二に,言語ID情報を用いた新しいマスクベースのトレーニング戦略を提案し,文内コードスイッチングに向けたラベルエンコーダのトレーニングを改善する。
論文 参考訳(メタデータ) (2020-11-30T17:27:41Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。