論文の概要: Joint Modeling of Code-Switched and Monolingual ASR via Conditional
Factorization
- arxiv url: http://arxiv.org/abs/2111.15016v1
- Date: Mon, 29 Nov 2021 23:14:54 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-01 15:49:38.083468
- Title: Joint Modeling of Code-Switched and Monolingual ASR via Conditional
Factorization
- Title(参考訳): 条件因子化によるコードスイッチングASRとモノリンガルASRの連成モデリング
- Authors: Brian Yan, Chunlei Zhang, Meng Yu, Shi-Xiong Zhang, Siddharth Dalmia,
Dan Berrebbi, Chao Weng, Shinji Watanabe, Dong Yu
- Abstract要約: 本稿では,バイリンガル音声認識を構成するモノリンガルとコードスウィッチのサブタスクの可能性を共同でモデル化するための一般的な枠組みを提案する。
単言語およびコード切替コーパス間のバイリンガル・マンダリン・イングリッシュ音声認識における提案手法の有効性を実証する。
- 参考スコア(独自算出の注目度): 75.98664099579392
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conversational bilingual speech encompasses three types of utterances: two
purely monolingual types and one intra-sententially code-switched type. In this
work, we propose a general framework to jointly model the likelihoods of the
monolingual and code-switch sub-tasks that comprise bilingual speech
recognition. By defining the monolingual sub-tasks with label-to-frame
synchronization, our joint modeling framework can be conditionally factorized
such that the final bilingual output, which may or may not be code-switched, is
obtained given only monolingual information. We show that this conditionally
factorized joint framework can be modeled by an end-to-end differentiable
neural network. We demonstrate the efficacy of our proposed model on bilingual
Mandarin-English speech recognition across both monolingual and code-switched
corpora.
- Abstract(参考訳): 会話的バイリンガル音声は2つの純粋単言語型と1つの文内コード切替型という3種類の発話を含む。
本研究では,バイリンガル音声認識を構成する単言語とコードスイッチのサブタスクの確率を協調的にモデル化する汎用フレームワークを提案する。
ラベルとフレームの同期によって単言語サブタスクを定義することにより、この共同モデリングフレームワークは、コードに切り替わるか否かに関わらず、最終二言語出力が単言語情報のみを与えられるように条件付きファクタリングすることができる。
この条件付き因子付きジョイントフレームワークは、エンドツーエンドの微分可能ニューラルネットワークによってモデル化できることを示す。
提案モデルが単言語とコード切り換えコーパスの両言語間音声認識に有効であることを示す。
関連論文リスト
- MulliVC: Multi-lingual Voice Conversion With Cycle Consistency [75.59590240034261]
MulliVCは、音色のみを変換し、多言語ペアリングデータなしでオリジナルコンテンツとソースコードの韻律を保持する新しい音声変換システムである。
目的と主観の両方の結果から,MulliVCはモノリンガルとクロスリンガルの両方の文脈において,他の手法をはるかに上回っていることが示唆された。
論文 参考訳(メタデータ) (2024-08-08T18:12:51Z) - Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Unified model for code-switching speech recognition and language
identification based on a concatenated tokenizer [17.700515986659063]
Code-Switching (CS) Multilingual Automatic Speech Recognition (ASR) モデルは会話中に2つ以上の交互言語を含む音声を転写することができる。
本稿では,純粋にモノリンガルなデータソースからASRデータセットをコードスイッチングする新しい手法を提案する。
新たな Concatenated Tokenizer により、ASR モデルは既存のモノリンガルトークンを再利用しながら、出力されたテキストトークンごとに言語IDを生成することができる。
論文 参考訳(メタデータ) (2023-06-14T21:24:11Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - Towards Zero-Shot Code-Switched Speech Recognition [44.76492452463019]
ゼロショット設定の下で,効率的な符号切替自動音声認識システム (ASR) の構築を目指す。
そこで本研究では,各単言語モジュールの音声セグメントを単言語スクリプトで不特定に書き起こすことにより,各単言語モジュールを単純化することを提案する。
本手法をエンドツーエンドの微分可能なニューラルネットワークに適用し、マンダリン英語SEAMEテストセットにおけるゼロショットCS ASRの有効性を実証する。
論文 参考訳(メタデータ) (2022-11-02T19:52:54Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Cross-lingual Multispeaker Text-to-Speech under Limited-Data Scenario [10.779568857641928]
本稿では,多言語話者音声合成を実現するために,Tacotron2の拡張を提案する。
我々は、単言語話者のための英語とマンダリンの間で、コードスイッチングを含む言語間合成を実現する。
論文 参考訳(メタデータ) (2020-05-21T03:03:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。