論文の概要: Adapting the adapters for code-switching in multilingual ASR
- arxiv url: http://arxiv.org/abs/2310.07423v1
- Date: Wed, 11 Oct 2023 12:15:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 07:37:50.763382
- Title: Adapting the adapters for code-switching in multilingual ASR
- Title(参考訳): 多言語asrにおけるコードスイッチングアダプタの適用
- Authors: Atharva Kulkarni, Ajinkya Kulkarni, Miguel Couceiro, Hanan Aldarmaki
- Abstract要約: 訓練済みの大規模多言語音声モデルは、多くの低リソース言語に自動音声認識を拡張できる可能性を示している。
これらのモデルのいくつかは、言語アダプタを定式化に用い、モノリンガルのパフォーマンスを改善するのに役立つ。
この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
提案手法は,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同調することにより,コード切替音声上でそのようなモデルを効果的に微調整する方法である。
- 参考スコア(独自算出の注目度): 10.316724084739892
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recently, large pre-trained multilingual speech models have shown potential
in scaling Automatic Speech Recognition (ASR) to many low-resource languages.
Some of these models employ language adapters in their formulation, which helps
to improve monolingual performance and avoids some of the drawbacks of
multi-lingual modeling on resource-rich languages. However, this formulation
restricts the usability of these models on code-switched speech, where two
languages are mixed together in the same utterance. In this work, we propose
ways to effectively fine-tune such models on code-switched speech, by
assimilating information from both language adapters at each language
adaptation point in the network. We also model code-switching as a sequence of
latent binary sequences that can be used to guide the flow of information from
each language adapter at the frame level. The proposed approaches are evaluated
on three code-switched datasets encompassing Arabic, Mandarin, and Hindi
languages paired with English, showing consistent improvements in
code-switching performance with at least 10\% absolute reduction in CER across
all test sets.
- Abstract(参考訳): 近年,多くの低リソース言語に対する自動音声認識 (asr) のスケールアップが期待されている。
これらのモデルのいくつかは言語アダプタを定式化に採用しており、モノリンガル性能の向上とリソース豊富な言語における多言語モデリングの欠点の回避に役立っている。
しかし、この定式化は、2つの言語が同じ発話で混在するコードスイッチト音声におけるこれらのモデルのユーザビリティを制限する。
本稿では,ネットワーク内の各言語適応点において,両言語アダプタからの情報を同化することにより,コード切り換え音声において,そのようなモデルを効果的に微調整する方法を提案する。
また、コードスイッチングを潜在バイナリシーケンスのシーケンスとしてモデル化し、フレームレベルで各言語アダプタからの情報の流れをガイドすることができる。
提案手法は、アラビア語、マンダリン語、ヒンディー語を合わせた3つのコード切替データセットで評価され、すべてのテストセットでCERを10倍以上削減したコード切替性能が一貫した改善を示した。
関連論文リスト
- Streaming Bilingual End-to-End ASR model using Attention over Multiple
Softmax [6.386371634323785]
本稿では,両言語を単一のニューラルモデルで認識可能な,バイリンガル・エンド・ツー・エンド(E2E)モデリング手法を提案する。
提案モデルでは,自己認識機構によって結合された言語固有のジョイントネットワークを用いて,エンコーダと予測ネットワークを共有する。
論文 参考訳(メタデータ) (2024-01-22T01:44:42Z) - Multilingual self-supervised speech representations improve the speech
recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。
訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文 参考訳(メタデータ) (2023-11-25T17:05:21Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Simple yet Effective Code-Switching Language Identification with
Multitask Pre-Training and Transfer Learning [0.7242530499990028]
コードスイッチング(Code-switching)は、カジュアルな設定において、多言語話者が異なる言語の単語を1つの発話で混ぜる言語現象である。
英マンダリン言語指向音声データセットにおける言語識別精度向上のための2つの新しいアプローチを提案する。
我々の最良のモデルでは、実際の英マンダリンのコードスイッチングによる子指向音声コーパスにおいて、0.781のバランスの取れた精度を達成し、以前のベースラインを55.3%上回っている。
論文 参考訳(メタデータ) (2023-05-31T11:43:16Z) - Language-Universal Adapter Learning with Knowledge Distillation for
End-to-End Multilingual Speech Recognition [28.416831396722106]
本稿では,エンドツーエンドの多言語自動音声認識のための事前学習モデルに基づく言語・ユニバーサル適応学習フレームワークを提案する。
オンライン知識蒸留は、言語固有の特徴と普遍的な特徴の両方を学習するために使用される。
従来の多言語モデルと比較して、3.3%の絶対誤差率削減が達成されている。
論文 参考訳(メタデータ) (2023-02-28T14:43:49Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Code Switched and Code Mixed Speech Recognition for Indic languages [0.0]
多言語自動音声認識(ASR)システムの訓練は、音響情報と語彙情報が典型的には言語固有のものであるため困難である。
言語識別(LID)に基づく一言語モデルとエンドツーエンドの多言語音声認識システムの性能を比較した。
また,Hindi- English と Bengali- English の相似解法を提案し,それぞれ 21.77 と 28.27 の WER を実現する。
論文 参考訳(メタデータ) (2022-03-30T18:09:28Z) - Efficient Test Time Adapter Ensembling for Low-resource Language
Varieties [115.12997212870962]
多言語事前学習モデルの言語間移動を容易にするために,特殊言語とタスクアダプタが提案されている。
直感的な解法は、新しい言語の種類に関連言語アダプタを使用することであるが、この解が準最適性能をもたらすことを観察する。
本稿では,新しいアダプタを訓練することなく,未知言語への言語アダプタの堅牢性を向上させることを目的とする。
論文 参考訳(メタデータ) (2021-09-10T13:44:46Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。