論文の概要: Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning
- arxiv url: http://arxiv.org/abs/2305.19759v1
- Date: Wed, 31 May 2023 11:43:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-01 17:01:10.586329
- Title: Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning
- Title(参考訳): マルチタスク事前学習と転送学習を用いた簡易かつ効果的なコードスイッチ言語識別
- Authors: Shuyue Stella Li, Cihan Xiao, Tianjian Li, Bismarck Odoom
- Abstract要約: コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
- 参考スコア(独自算出の注目度): 0.7242530499990028
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Code-switching, also called code-mixing, is the linguistics phenomenon where
in casual settings, multilingual speakers mix words from different languages in
one utterance. Due to its spontaneous nature, code-switching is extremely
low-resource, which makes it a challenging problem for language and speech
processing tasks. In such contexts, Code-Switching Language Identification
(CSLID) becomes a difficult but necessary task if we want to maximally leverage
existing monolingual tools for other tasks. In this work, we propose two novel
approaches toward improving language identification accuracy on an
English-Mandarin child-directed speech dataset. Our methods include a stacked
Residual CNN+GRU model and a multitask pre-training approach to use Automatic
Speech Recognition (ASR) as an auxiliary task for CSLID. Due to the
low-resource nature of code-switching, we also employ careful silver data
creation using monolingual corpora in both languages and up-sampling as data
augmentation. We focus on English-Mandarin code-switched data, but our method
works on any language pair. Our best model achieves a balanced accuracy of
0.781 on a real English-Mandarin code-switching child-directed speech corpus
and outperforms the previous baseline by 55.3%.
- Abstract(参考訳): コード・ミキシング(コード・ミキシング、Code-mixing)は、カジュアルな設定では、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
自発的な性質から、コードスイッチングは非常に低リソースであるため、言語処理や音声処理の課題となっている。
このような状況下では、既存のモノリンガルツールを最大限活用したい場合、コードスイッチング言語識別(CSLID)は難しいが必要なタスクとなる。
本研究では,英語・マンダリン音声データセットにおける言語識別精度向上のための2つの新しい手法を提案する。
提案手法は,残差CNN+GRUモデルと,CSLIDの補助タスクとして自動音声認識(ASR)を利用するマルチタスク事前学習手法を含む。
コードスイッチの低リソース性から,単一言語コーパスを用いた注意深いシルバーデータ生成を両言語で実施し,データ拡張としてアップサンプリングも行います。
我々は英語とマンダリンのコード変更データに焦点をあてるが、我々の方法はどんな言語対にも当てはまる。
我々の最良のモデルは、実際の英語-中国語コード交換子指向音声コーパス上で0.781のバランスのとれた精度を達成し、以前のベースラインを55.3%上回っています。
関連論文リスト
- Adapting the adapters for code-switching in multilingual ASR [10.316724084739892]
訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
論文 参考訳(メタデータ) (2023-10-11T12:15:24Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Reducing language context confusion for end-to-end code-switching
automatic speech recognition [50.89821865949395]
本稿では,E2E符号スイッチングASRモデルの多言語コンテキストの混同を低減するための言語関連アテンション機構を提案する。
複数の言語のそれぞれの注意を計算することにより、豊かな単言語データから言語知識を効率的に伝達することができる。
論文 参考訳(メタデータ) (2022-01-28T14:39:29Z) - Call Larisa Ivanovna: Code-Switching Fools Multilingual NLU Models [1.827510863075184]
NLU(Multilingual natural Language understanding)の新たなベンチマークには、意図とスロットを付加した複数の言語での単言語文が含まれる。
既存のベンチマークでは、文法構造が複雑であるため、収集やラベル付けが困難であるコードスイッチ付き発話が欠如している。
我々の研究は、可塑性で自然な発声音声を生成するための認識された手法を採用し、それらを用いて合成コード発声テストセットを作成する。
論文 参考訳(メタデータ) (2021-09-29T11:15:00Z) - Multilingual Transfer Learning for Code-Switched Language and Speech
Neural Modeling [12.497781134446898]
本稿では,言語非依存なマルチタスク学習手法を提案することにより,言語理論のデータ不足と限界に対処する。
まず,メタラーニングに基づくメタトランスファー学習を提案する。そこでは,高音源単言語音声データから,コードスイッチング領域への情報抽出を行う。
第2に,他の言語で学習した有用な知識を得ることにより,コードスイッチングデータを効果的に表現するための,多言語メタエム手法を提案する。
第3に,言語モデルへの伝達学習戦略として構文情報を統合するために,マルチタスク学習を導入する。
論文 参考訳(メタデータ) (2021-04-13T14:49:26Z) - VECO: Variable and Flexible Cross-lingual Pre-training for Language
Understanding and Generation [77.82373082024934]
我々はTransformerエンコーダにクロスアテンションモジュールを挿入し、言語間の相互依存を明確に構築する。
独自の言語でコンテキストにのみ条件付けされたマスク付き単語の予測の退化を効果的に回避することができる。
提案した言語間モデルでは,XTREMEベンチマークのさまざまな言語間理解タスクに対して,最先端の新たな結果が提供される。
論文 参考訳(メタデータ) (2020-10-30T03:41:38Z) - FILTER: An Enhanced Fusion Method for Cross-lingual Language
Understanding [85.29270319872597]
我々は,XLMファインタニングの入力として言語間データを利用する拡張融合法を提案する。
推論中は、ターゲット言語で入力されたテキストとソース言語の翻訳に基づいて予測を行う。
この問題に対処するため,対象言語における翻訳テキストのための自動生成ソフト擬似ラベルに基づくモデル学習のためのKL分割自己学習損失を提案する。
論文 参考訳(メタデータ) (2020-09-10T22:42:15Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。