論文の概要: Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification
- arxiv url: http://arxiv.org/abs/2109.13486v1
- Date: Tue, 28 Sep 2021 04:43:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-30 00:49:18.853286
- Title: Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification
- Title(参考訳): 多言語音声からインテントの分類のための教師学習アプローチの探索
- Authors: Bidisha Sharma, Maulik Madhavi, Xuehao Zhou, Haizhou Li
- Abstract要約: 複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
- 参考スコア(独自算出の注目度): 73.5497360800395
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: End-to-end speech-to-intent classification has shown its advantage in
harvesting information from both text and speech. In this paper, we study a
technique to develop such an end-to-end system that supports multiple
languages. To overcome the scarcity of multi-lingual speech corpus, we exploit
knowledge from a pre-trained multi-lingual natural language processing model.
Multi-lingual bidirectional encoder representations from transformers (mBERT)
models are trained on multiple languages and hence expected to perform well in
the multi-lingual scenario. In this work, we employ a teacher-student learning
approach to sufficiently extract information from an mBERT model to train a
multi-lingual speech model. In particular, we use synthesized speech generated
from an English-Mandarin text corpus for analysis and training of a
multi-lingual intent classification model. We also demonstrate that the
teacher-student learning approach obtains an improved performance (91.02%) over
the traditional end-to-end (89.40%) intent classification approach in a
practical multi-lingual scenario.
- Abstract(参考訳): エンド・ツー・エンドの音声とインテントの分類は、テキストと音声の両方から情報を抽出する際の利点を示している。
本稿では,複数の言語をサポートするエンドツーエンドシステムを開発する手法について検討する。
多言語音声コーパスの不足を克服するために,事前学習した多言語自然言語処理モデルから知識を利用する。
トランスフォーマー(mbert)モデルからの多言語双方向エンコーダ表現は、複数の言語で訓練され、多言語シナリオでうまく機能することが期待される。
本研究では,mBERTモデルから十分な情報を抽出し,多言語音声モデルを訓練するために,教師による学習手法を用いる。
特に,英マンダリンテキストコーパスから生成した合成音声を用いて,多言語意図分類モデルの解析と訓練を行う。
また,教師学習アプローチは,実践的な多言語シナリオにおいて,従来のエンドツーエンド(89.40%)の意図分類手法よりも優れた性能(91.02%)が得られることを示した。
関連論文リスト
- Hindi as a Second Language: Improving Visually Grounded Speech with
Semantically Similar Samples [89.16814518860357]
本研究の目的は,多言語の観点からの視覚的基盤音声モデル(VGS)の学習を検討することである。
この研究における重要な貢献は、低リソース言語の性能を向上させるために、バイリンガルな視覚的基盤を持つ音声モデルにおける高リソース言語のパワーを活用することである。
論文 参考訳(メタデータ) (2023-03-30T16:34:10Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Towards Developing a Multilingual and Code-Mixed Visual Question
Answering System by Knowledge Distillation [20.33235443471006]
本稿では,英語ビジョンモデル(教師)を,等しく効果的な多言語・コード混合モデル(学生)に拡張する知識蒸留手法を提案する。
また、大規模な多言語およびコード混合VQAデータセットを11の異なる言語セットアップで作成します。
実験結果と深部分析により,11種類の言語セットアップ上で,事前学習した言語ビジョンモデルに対して提案したVQAモデルの有効性が示された。
論文 参考訳(メタデータ) (2021-09-10T03:47:29Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - A Multilingual Modeling Method for Span-Extraction Reading Comprehension [2.4905424368103444]
XLRCと呼ばれる多言語抽出読解手法を提案する。
我々のモデルはCMRC 2018タスクにおいて最先端のベースライン(RoBERTa_Large)よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-31T11:05:30Z) - Are Multilingual Models Effective in Code-Switching? [57.78477547424949]
多言語モデルの有効性を検討し,複合言語設定の能力と適応性について検討する。
この結果から,事前学習した多言語モデルでは,コードスイッチングにおける高品質な表現が必ずしも保証されないことが示唆された。
論文 参考訳(メタデータ) (2021-03-24T16:20:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。