Fugu-MT 論文翻訳(概要): Integrating Knowledge in End-to-End Automatic Speech Recognition for Mandarin-English Code-Switching

論文の概要: Integrating Knowledge in End-to-End Automatic Speech Recognition for Mandarin-English Code-Switching

arxiv url: http://arxiv.org/abs/2112.10202v1
Date: Sun, 19 Dec 2021 17:31:15 GMT
ステータス: 翻訳完了
システム内更新日: 2021-12-22 05:05:17.852629
Title: Integrating Knowledge in End-to-End Automatic Speech Recognition for Mandarin-English Code-Switching
Title（参考訳）: マンダリン・イングリッシュコード切り換えのためのエンドツーエンド自動音声認識における知識の統合
Authors: Chia-Yu Li and Ngoc Thang Vu
Abstract要約: Code-Switching (CS) は多言語コミュニティでよく見られる言語現象である。本稿では,マンダリン・イングリッシュCS音声におけるエンドツーエンド音声認識の検討について述べる。
参考スコア（独自算出の注目度）: 41.88097793717185
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Code-Switching (CS) is a common linguistic phenomenon in multilingual communities that consists of switching between languages while speaking. This paper presents our investigations on end-to-end speech recognition for Mandarin-English CS speech. We analyse different CS specific issues such as the properties mismatches between languages in a CS language pair, the unpredictable nature of switching points, and the data scarcity problem. We exploit and improve the state-of-the-art end-to-end system by merging nonlinguistic symbols, by integrating language identification using hierarchical softmax, by modeling sub-word units, by artificially lowering the speaking rate, and by augmenting data using speed perturbed technique and several monolingual datasets to improve the final performance not only on CS speech but also on monolingual benchmarks in order to make the system more applicable on real life settings. Finally, we explore the effect of different language model integration methods on the performance of the proposed model. Our experimental results reveal that all the proposed techniques improve the recognition performance. The best combined system improves the baseline system by up to 35% relatively in terms of mixed error rate and delivers acceptable performance on monolingual benchmarks.
Abstract（参考訳）: コードスイッチング(英: code-switching, cs)は、多言語コミュニティにおける一般的な言語現象である。本稿では,マンダリン英語cs音声のエンドツーエンド音声認識について検討する。 cs言語ペアにおける言語間の特性ミスマッチ,スイッチングポイントの予測不能な性質,データ不足といった,cs固有の問題を分析した。我々は,非言語的記号の融合,階層的ソフトマックスを用いた言語識別の統合,サブワード単位のモデル化,発話率の人為的低下,および速度摂動技術と複数のモノリンガルデータセットを用いたデータ拡張により,CS音声だけでなく,モノリンガルベンチマーク上での最終的な性能向上を図り,実生活環境に適用できるようにする。最後に,異なる言語モデル統合手法が提案モデルの性能に与える影響について検討する。実験の結果,提案手法はすべて認識性能を向上させることがわかった。最良の組み合わせシステムは、混合エラー率の点でベースラインシステムを最大35%改善し、単言語ベンチマークで許容できる性能を提供する。

関連論文リスト

UniCoM: A Universal Code-Switching Speech Generator [19.893429976826464]
Code-Switching (CS) は、1つの話者の発話に含まれる2つ以上の言語間の交替であり、現実世界の会話では一般的である。高品質で自然なCSサンプルを生成するための新しいパイプラインであるUniCoM(UniCoM)を提案する。自動音声認識(ASR)と音声テキスト翻訳(S2TT)のための多言語CSコーパスであるコードスイッチングFLEURS(CS-FLEURS)を構築する。
論文参考訳（メタデータ） (2025-08-21T05:11:21Z)
Whisper Speaker Identification: Leveraging Pre-Trained Multilingual Transformers for Robust Speaker Embeddings [0.0]
我々は,Whisper自動音声認識モデルを多言語データに基づいて事前訓練したフレームワークであるWSI(Whisper Speaker Identification)を提案する。本稿では,Whisper言語に依存しない音響表現の活用により,多様な言語にまたがる話者を効果的に区別する。
論文参考訳（メタデータ） (2025-03-13T15:11:28Z)
Enhancing Multilingual ASR for Unseen Languages via Language Embedding Modeling [50.62091603179394]
最も先進的なASRモデルの1つであるWhisperは99の言語を効果的に扱う。しかし、ウィスパーは未確認の言語と戦っているが、それらは事前訓練には含まれていない。本研究では,これらの関係を利用して未知言語上でのASR性能を向上させる手法を提案する。
論文参考訳（メタデータ） (2024-12-21T04:05:43Z)
Improving Speech Emotion Recognition in Under-Resourced Languages via Speech-to-Speech Translation with Bootstrapping Data Selection [49.27067541740956]
音声感情認識(SER)は、人間とコンピュータの自然な相互作用が可能な汎用AIエージェントを開発する上で重要な要素である。英語や中国語以外の言語でラベル付きデータが不足しているため、堅牢な多言語SERシステムの構築は依然として困難である。本稿では,低SERリソース言語におけるSERの性能向上のための手法を提案する。
論文参考訳（メタデータ） (2024-09-17T08:36:45Z)
Large Language Models for Dysfluency Detection in Stuttered Speech [16.812800649507302]
音声言語におけるディファレンシを正確に検出することは、自動音声処理と言語処理の部品の性能を向上させるのに役立つ。大規模言語モデル(LLM)を非語彙入力の普遍的な学習者やプロセッサとして展開する最近の傾向に触発されて,言語モデリング問題として多ラベルディフルエンシ検出の課題にアプローチする。本稿では,音声エンコーダモデルから抽出した音響表現をLLMに自動音声認識システムと音響表現で生成し,英語とドイツ語を含む3つのデータセット上で,ディフルエンシラベルを予測するシステムを提案する。
論文参考訳（メタデータ） (2024-06-16T17:51:22Z)
An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文参考訳（メタデータ） (2024-06-13T08:16:52Z)
Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文参考訳（メタデータ） (2023-12-15T07:46:35Z)
Language-agnostic Code-Switching in Sequence-To-Sequence Speech Recognition [62.997667081978825]
コードスイッチング(Code-Switching, CS)とは、異なる言語の単語やフレーズを交互に使用する現象である。本稿では,異なるソース言語の音声および対応するラベルを転写する,シンプルで効果的なデータ拡張手法を提案する。さらに,5,03%のWERによるトレーニング中に見つからない文間言語スイッチにおいて,モデルの性能を向上できることを示す。
論文参考訳（メタデータ） (2022-10-17T12:15:57Z)
Code-Switching without Switching: Language Agnostic End-to-End Speech Translation [68.8204255655161]
我々は音声認識と翻訳を一貫したエンドツーエンドの音声翻訳問題として扱う。 LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。
論文参考訳（メタデータ） (2022-10-04T10:34:25Z)
Learning not to Discriminate: Task Agnostic Learning for Improving Monolingual and Code-switched Speech Recognition [12.354292498112347]
本稿では、ドメイン逆学習を用いてタスクモデルを訓練することにより、これまでの作業よりもさらに改善する。提案手法は,単語誤り率(WER)を3つの言語対に対して単言語およびコード切替テストセットで削減する。
論文参考訳（メタデータ） (2020-06-09T13:45:30Z)
Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文参考訳（メタデータ） (2020-04-29T14:27:19Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。