論文の概要: Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
- arxiv url: http://arxiv.org/abs/2406.03814v1
- Date: Thu, 6 Jun 2024 07:39:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-07 15:59:34.060372
- Title: Improving Zero-Shot Chinese-English Code-Switching ASR with kNN-CTC and Gated Monolingual Datastores
- Title(参考訳): kNN-CTCとGated Monolingual Datastoreによるゼロショット中国語コードスイッチングASRの改良
- Authors: Jiaming Zhou, Shiwan Zhao, Hui Wang, Tian-Hao Zhang, Haoqin Sun, Xuechen Wang, Yong Qin,
- Abstract要約: 本稿では,2つのモノリンガルデータストアとゲートデータストア選択機構を利用する,kNN-CTCベースのコードスイッチングASR(Code-Switching ASR)フレームワークを提案する。
提案手法では,各フレームの復号化に適したデータストアを選択し,言語固有の情報をASRプロセスに確実に注入する。
- 参考スコア(独自算出の注目度): 14.150602045545108
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The kNN-CTC model has proven to be effective for monolingual automatic speech recognition (ASR). However, its direct application to multilingual scenarios like code-switching, presents challenges. Although there is potential for performance improvement, a kNN-CTC model utilizing a single bilingual datastore can inadvertently introduce undesirable noise from the alternative language. To address this, we propose a novel kNN-CTC-based code-switching ASR (CS-ASR) framework that employs dual monolingual datastores and a gated datastore selection mechanism to reduce noise interference. Our method selects the appropriate datastore for decoding each frame, ensuring the injection of language-specific information into the ASR process. We apply this framework to cutting-edge CTC-based models, developing an advanced CS-ASR system. Extensive experiments demonstrate the remarkable effectiveness of our gated datastore mechanism in enhancing the performance of zero-shot Chinese-English CS-ASR.
- Abstract(参考訳): kNN-CTCモデルは単言語自動音声認識(ASR)に有効であることが証明されている。
しかし、コードスイッチングのような多言語シナリオへの直接的な適用は、課題を提示している。
性能改善の可能性はあるが、単一のバイリンガルデータストアを利用するkNN-CTCモデルは、必然的に代替言語から望ましくないノイズを生じさせる可能性がある。
そこで本研究では,2つのモノリンガルデータストアとゲート型データストア選択機構を用いて,ノイズ干渉を低減する新しいkNN-CTCベースのコードスイッチングASR(CS-ASR)フレームワークを提案する。
提案手法では,各フレームの復号化に適したデータストアを選択し,言語固有の情報をASRプロセスに確実に注入する。
このフレームワークを最先端のCTCベースモデルに適用し,高度なCS-ASRシステムの開発を行う。
広汎な実験により,ゼロショット中国語CS-ASRの性能向上におけるゲートデータストア機構の顕著な効果が示された。
関連論文リスト
- Rapid Language Adaptation for Multilingual E2E Speech Recognition Using Encoder Prompting [45.161909551392085]
自己条件CTCフレームワーク内にエンコーダプロンプト技術を導入し、ゼロショット方式でCTCモデルの言語固有の適応を可能にする。
提案手法は,低リソース言語では平均28%,低リソース言語では41%の誤差を著しく低減することを示した。
論文 参考訳(メタデータ) (2024-06-18T13:38:58Z) - Fast Context-Biasing for CTC and Transducer ASR models with CTC-based Word Spotter [57.64003871384959]
この研究は、CTCベースのWord Spotterでコンテキストバイアスを高速化するための新しいアプローチを示す。
提案手法は,CTCログ確率をコンパクトなコンテキストグラフと比較し,潜在的なコンテキストバイアス候補を検出する。
その結果、FスコアとWERの同時改善により、文脈バイアス認識の大幅な高速化が示された。
論文 参考訳(メタデータ) (2024-06-11T09:37:52Z) - Low-resource speech recognition and dialect identification of Irish in a multi-task framework [7.981589711420179]
本稿では,アイルランド語(ゲール語)低音源音声認識(ASR)と方言識別(DID)のための中間CTC(Inter CTC)を用いて学習したハイブリッドCTC/Attention Encoder-decoderモデルについて検討する。
ASR(TDNN-HMM)とDIDECA(PA-TDNN)のトレーニングモデルと比較した。
論文 参考訳(メタデータ) (2024-05-02T13:54:39Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - CSCD-NS: a Chinese Spelling Check Dataset for Native Speakers [62.61866477815883]
CSCD-NSは中国初のネイティブ話者向けスペルチェックデータセットである。
CSCD-NSはスケールが10倍大きく、誤差分布が異なる。
本稿では,入力過程をシミュレーションする新しい手法を提案する。
論文 参考訳(メタデータ) (2022-11-16T09:25:42Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Optimizing Bilingual Neural Transducer with Synthetic Code-switching
Text Generation [10.650573361117669]
半教師付きトレーニングと合成コードスイッチングデータにより、コードスイッチング音声におけるバイリンガルASRシステムを改善することができる。
最終システムは ASCEND English/Mandarin code-switching test set 上で25%混合誤り率 (MER) を達成する。
論文 参考訳(メタデータ) (2022-10-21T19:42:41Z) - Advancing CTC-CRF Based End-to-End Speech Recognition with Wordpieces
and Conformers [33.725831884078744]
提案したCTC-CRFフレームワークは、ハイブリッドアプローチのデータ効率とエンドツーエンドアプローチの単純さを継承する。
本稿では,最近開発されたワードピースモデリングユニットとコンフォーマーニューラルネットワークをCTC-CRFに適用する手法について検討する。
論文 参考訳(メタデータ) (2021-07-07T04:12:06Z) - Rnn-transducer with language bias for end-to-end Mandarin-English
code-switching speech recognition [58.105818353866354]
本稿では,言語バイアスを考慮したリカレントニューラルネットワークトランスデューサ(RNN-T)モデルを提案する。
我々は、CSの点を予測するためにモデルにバイアスを与えるために、言語アイデンティティを使用する。
これにより、言語識別情報を転写から直接学習するモデルが促進され、追加のLIDモデルが不要になる。
論文 参考訳(メタデータ) (2020-02-19T12:01:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。