論文の概要: Monolingual Recognizers Fusion for Code-switching Speech Recognition
- arxiv url: http://arxiv.org/abs/2211.01046v1
- Date: Wed, 2 Nov 2022 11:24:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-03 14:05:47.764609
- Title: Monolingual Recognizers Fusion for Code-switching Speech Recognition
- Title(参考訳): コードスイッチング音声認識のための単言語認識器融合
- Authors: Tongtong Song, Qiang Xu, Haoyu Lu, Longbiao Wang, Hao Shi, Yuqin Lin,
Yanbing Yang, Jianwu Dang
- Abstract要約: CS ASRのための単言語認識器融合法を提案する。
言語認知ステージと言語融合ステージの2つのステージがある。
マンダリン・イングリッシュコーパスの実験では,提案手法の有効性が示された。
- 参考スコア(独自算出の注目度): 43.38810173824711
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The bi-encoder structure has been intensively investigated in code-switching
(CS) automatic speech recognition (ASR). However, most existing methods require
the structures of two monolingual ASR models (MAMs) should be the same and only
use the encoder of MAMs. This leads to the problem that pre-trained MAMs cannot
be timely and fully used for CS ASR. In this paper, we propose a monolingual
recognizers fusion method for CS ASR. It has two stages: the speech awareness
(SA) stage and the language fusion (LF) stage. In the SA stage, acoustic
features are mapped to two language-specific predictions by two independent
MAMs. To keep the MAMs focused on their own language, we further extend the
language-aware training strategy for the MAMs. In the LF stage, the BELM fuses
two language-specific predictions to get the final prediction. Moreover, we
propose a text simulation strategy to simplify the training process of the BELM
and reduce reliance on CS data. Experiments on a Mandarin-English corpus show
the efficiency of the proposed method. The mix error rate is significantly
reduced on the test set after using open-source pre-trained MAMs.
- Abstract(参考訳): バイエンコーダ構造は、コードスイッチング(CS)自動音声認識(ASR)において集中的に研究されている。
しかし、既存のほとんどの手法では、2つの単言語 ASR モデル (MAM) の構造は同一であり、MAM のエンコーダのみを使用する必要がある。
これにより、事前訓練されたMAMをCS ASRにタイムリーかつ完全に使用できないという問題が生じる。
本稿では,CS ASRのための単言語認識器融合法を提案する。
言語認識(SA)段階と言語融合(LF)段階の2段階がある。
SAの段階では、音響特徴は2つの独立したMAMによって2つの言語固有の予測にマッピングされる。
MAMを自身の言語に集中させるためには、MAMの言語対応トレーニング戦略をさらに拡張する。
lfステージにおいて、bermは2つの言語固有の予測を融合して最終予測を得る。
さらに,BELMの学習プロセスを簡素化し,CSデータへの依存を減らすためのテキストシミュレーション手法を提案する。
マンダリン英文コーパスの実験により,提案手法の有効性が示された。
オープンソースのトレーニング済みMAMを使用したテストセットでは,ミックスエラー率を著しく低減する。
関連論文リスト
- Boosting Code-Switching ASR with Mixture of Experts Enhanced Speech-Conditioned LLM [1.3089936156875277]
我々は,Mixture of Experts (MoE) ベースのコネクタと統合された音声条件付き大規模言語モデル (LLM) を提案する。
音声認識タスクへのLLMのテキスト生成能力を向上するためのIDIT機構を提案する。
また、複数の言語を効率的に管理するMoEアーキテクチャとのコネクタも提示する。
論文 参考訳(メタデータ) (2024-09-24T09:20:22Z) - It's Never Too Late: Fusing Acoustic Information into Large Language
Models for Automatic Speech Recognition [70.77292069313154]
大規模言語モデル(LLM)は、自動音声認識(ASR)出力の上の生成誤り訂正(GER)に成功することができる。
本研究では,不確実性認識ダイナミックフュージョン (UADF) と呼ばれる新しい遅延融合解によって予測された転写を生成する前に,音響情報を注入することにより,そのような制限を克服することを目的とする。
論文 参考訳(メタデータ) (2024-02-08T07:21:45Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - Supervision-Guided Codebooks for Masked Prediction in Speech
Pre-training [102.14558233502514]
自己教師型学習(SSL)における事前学習のマズード予測は,音声認識における顕著な進歩をみせている。
本稿では,自動音声認識(ASR)の性能向上のための2つの教師付きコードブック生成手法を提案する。
論文 参考訳(メタデータ) (2022-06-21T06:08:30Z) - Bridging the Gap between Language Models and Cross-Lingual Sequence
Labeling [101.74165219364264]
大規模言語間事前学習言語モデル (xPLM) は、言語間シーケンスラベリングタスクにおいて有効であることを示す。
大きな成功にもかかわらず、事前学習と微調整の段階の間には訓練対象のギャップがあるという経験的観察を描いている。
本稿では,まず,言語間インフォーマティブ・スパン・マスキング(CLISM)と呼ばれるxSLのための事前学習タスクを設計し,目的のギャップを解消する。
第2に、コントラスト学習を利用して入力並列表現間の一貫性を促進するContrAstive-Consistency Regularization (CACR)を提案する。
論文 参考訳(メタデータ) (2022-04-11T15:55:20Z) - Semi-Supervised Spoken Language Understanding via Self-Supervised Speech
and Language Model Pretraining [64.35907499990455]
そこで本稿では,音声から意味論を直接学習するフレームワークを提案する。
我々のフレームワークは、事前訓練されたエンドツーエンド(E2E)ASRとBERTのような自己教師型言語モデルに基づいて構築されている。
並行して,SLUモデルを評価するための重要な基準として,環境騒音汚染度とE2Eセマンティクス評価の2つがあげられる。
論文 参考訳(メタデータ) (2020-10-26T18:21:27Z) - MAM: Masked Acoustic Modeling for End-to-End Speech-to-Text Translation [27.19320167337675]
本稿では,音声側のみで自己教師型で頑健な音声エンコーダを学習する手法を提案する。
Masked Acoustic Modeling (MAM) と呼ばれるこの技術は、E2E-STを改善する代替ソリューションを提供するだけでなく、任意の音響信号に対して事前学習を行うこともできる。
書き起こしを一切使わずに設定すると,MAM予習による+1.1BLEU,+2.3BLEUの平均的改善が達成される。
論文 参考訳(メタデータ) (2020-10-22T05:02:06Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。