論文の概要: Exploring Retraining-Free Speech Recognition for Intra-sentential
Code-Switching
- arxiv url: http://arxiv.org/abs/2109.00921v1
- Date: Fri, 27 Aug 2021 19:15:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-05 09:15:45.022105
- Title: Exploring Retraining-Free Speech Recognition for Intra-sentential
Code-Switching
- Title(参考訳): 知覚内符号切り換えのためのリトレーニングフリー音声認識の検討
- Authors: Zhen Huang, Xiaodan Zhuang, Daben Liu, Xiaoqiang Xiao, Yuchen Zhang,
Sabato Marco Siniscalchi
- Abstract要約: 本稿では,コードスイッチング(CS)音声認識システムの構築に向けた最初の取り組みについて述べる。
我々は外国語単語の高品質な発音を得るための自動アプローチを設計した。
従来の単言語ASRシステムで得られた単語誤り率を34.4%から55.5%削減する。
- 参考スコア(独自算出の注目度): 17.973043287866986
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we present our initial efforts for building a code-switching
(CS) speech recognition system leveraging existing acoustic models (AMs) and
language models (LMs), i.e., no training required, and specifically targeting
intra-sentential switching. To achieve such an ambitious goal, new mechanisms
for foreign pronunciation generation and language model (LM) enrichment have
been devised. Specifically, we have designed an automatic approach to obtain
high quality pronunciation of foreign language (FL) words in the native
language (NL) phoneme set using existing acoustic phone decoders and an
LSTM-based grapheme-to-phoneme (G2P) model. Improved accented pronunciations
have thus been obtained by learning foreign pronunciations directly from data.
Furthermore, a code-switching LM was deployed by converting the original NL LM
into a CS LM using translated word pairs and borrowing statistics for the NL
LM. Experimental evidence clearly demonstrates that our approach better deals
with accented foreign pronunciations than techniques based on human labeling.
Moreover, our best system achieves a 55.5% relative word error rate reduction
from 34.4%, obtained with a conventional monolingual ASR system, to 15.3% on an
intra-sentential CS task without harming the monolingual recognition accuracy.
- Abstract(参考訳): 本稿では,既存の音響モデル (AM) と言語モデル (LM) を利用したコードスイッチング (CS) 音声認識システムの構築に向けた最初の取り組みについて述べる。
このような野心的な目標を達成するために、外国語発音生成と言語モデル(LM)強化のための新たなメカニズムが考案された。
具体的には,既存の音声デコーダとLSTMに基づくG2Pモデルを用いて,母国語(NL)音素集合における外国語(FL)単語の高品質な発音を得るための自動的アプローチを設計した。
アクセント付き発音は、データから直接外国語を学習することで得られる。
さらに、元のNL LMを翻訳語対を用いてCS LMに変換し、NL LMの統計を借りることで、コードスイッチングLMをデプロイした。
実験結果から,人間のラベリングに基づく手法よりもアクセント付き外国語の発音の扱いが優れていることが明らかとなった。
さらに,従来の単言語ASRシステムで得られた単語誤り率の55.5%を,単言語認識精度を損なうことなく,文内CSタスクで15.3%に削減した。
関連論文リスト
- TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer [3.9981390090442694]
本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。
我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、アメリカ英語とイギリス英語のモデルを評価する。
提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
論文 参考訳(メタデータ) (2024-05-03T14:25:21Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Leveraging Language ID to Calculate Intermediate CTC Loss for Enhanced
Code-Switching Speech Recognition [5.3545957730615905]
ASRモデルのエンコーダの中間層に言語識別情報を導入する。
言語切替処理におけるモデルの混乱を軽減し,言語区別を暗黙的に意味する音響的特徴を生成することを目的としている。
論文 参考訳(メタデータ) (2023-12-15T07:46:35Z) - Speech collage: code-switched audio generation by collaging monolingual
corpora [50.356820349870986]
Speech Collage は音声セグメントをスプライシングすることでモノリンガルコーパスからCSデータを合成する手法である。
2つのシナリオにおける音声認識における生成データの影響について検討する。
論文 参考訳(メタデータ) (2023-09-27T14:17:53Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Pronunciation Generation for Foreign Language Words in Intra-Sentential
Code-Switching Speech Recognition [14.024346215923972]
コードスイッチング(Code Switching)とは、文や言説の中で言語を切り替える現象である。
本稿では,限られたコードスイッチングデータを駆動材料として利用し,コードスイッチング認識技術を迅速に開発するためのショートカットを探索する。
論文 参考訳(メタデータ) (2022-10-26T13:19:35Z) - Improving Mandarin End-to-End Speech Recognition with Word N-gram
Language Model [57.92200214957124]
外部言語モデル(LM)は、エンドツーエンド(E2E)自動音声認識(ASR)システムの音声認識性能を向上させることができる。
単語レベルの格子をオンザフライで構築し,可能なすべての単語列を考慮可能な,新しい復号アルゴリズムを提案する。
提案手法は,N-gram LMやニューラルネットワーク LM など,サブワードレベルのLMを一貫して上回る。
論文 参考訳(メタデータ) (2022-01-06T10:04:56Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z) - Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses [13.976935216584298]
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。
本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。
処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
論文 参考訳(メタデータ) (2020-06-01T04:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。