論文の概要: Leveraging Multilingual Self-Supervised Pretrained Models for
Sequence-to-Sequence End-to-End Spoken Language Understanding
- arxiv url: http://arxiv.org/abs/2310.06103v1
- Date: Mon, 9 Oct 2023 19:22:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 01:28:32.564543
- Title: Leveraging Multilingual Self-Supervised Pretrained Models for
Sequence-to-Sequence End-to-End Spoken Language Understanding
- Title(参考訳): 多言語自己教師付き事前学習モデルを活用したエンドツーエンド音声理解
- Authors: Pavel Denisov, Ngoc Thang Vu
- Abstract要約: 複数言語で事前訓練された音声とテキストモデルを統合し,4言語で6つのデータセット上でE2E-SLUを実行する統一手法を提案する。
提案手法は,複数の学習目標を用いて,広く利用可能な音声認識データを事前学習することにより,どのように改善できるかを検討する。
- 参考スコア(独自算出の注目度): 34.81777967854573
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A number of methods have been proposed for End-to-End Spoken Language
Understanding (E2E-SLU) using pretrained models, however their evaluation often
lacks multilingual setup and tasks that require prediction of lexical fillers,
such as slot filling. In this work, we propose a unified method that integrates
multilingual pretrained speech and text models and performs E2E-SLU on six
datasets in four languages in a generative manner, including the prediction of
lexical fillers. We investigate how the proposed method can be improved by
pretraining on widely available speech recognition data using several training
objectives. Pretraining on 7000 hours of multilingual data allows us to
outperform the state-of-the-art ultimately on two SLU datasets and partly on
two more SLU datasets. Finally, we examine the cross-lingual capabilities of
the proposed model and improve on the best known result on the
PortMEDIA-Language dataset by almost half, achieving a Concept/Value Error Rate
of 23.65%.
- Abstract(参考訳): 事前学習されたモデルを用いて、エンドツーエンドの音声言語理解(e2e-slu)のためのいくつかの方法が提案されているが、それらの評価には多言語構成やスロット充填などの語彙フィラーの予測を必要とするタスクが欠如している。
本研究では,多言語事前学習音声とテキストモデルを統合する統一手法を提案し,語彙フィラーの予測を含む4言語で6つのデータセット上でE2E-SLUを実行する。
提案手法は,複数の学習目標を用いて,広く利用可能な音声認識データを事前学習することにより,どのように改善できるかを検討する。
7000時間の多言語データの事前トレーニングにより、最終的には2つのSLUデータセットと、部分的には2つのSLUデータセットで最先端のパフォーマンスを達成できます。
最後に,提案モデルの言語横断能力を調べ,ポートメディア言語データセットの最もよく知られた結果のほぼ半分を改善し,概念/値誤り率23.65%を達成した。
関連論文リスト
- EMMA-500: Enhancing Massively Multilingual Adaptation of Large Language Models [50.459861376459656]
EMMA-500は546言語にわたるテキストで継続訓練された大規模多言語言語モデルである。
本結果は,大規模言語モデルの言語能力拡大における継続事前学習の有効性を強調した。
論文 参考訳(メタデータ) (2024-09-26T14:40:45Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Multilingual Multimodal Learning with Machine Translated Text [27.7207234512674]
英語のマルチモーダルデータの機械翻訳が、容易に利用できる多言語データの欠如を抑えるための効果的なプロキシとなるかどうかを考察する。
得られたデータセットからそのような翻訳を自動的に除去する2つの指標を提案する。
In experiment on five task across 20 languages in the IGLUE benchmark, we show that translated data can provide a useful signal for multilingual multimodal learning。
論文 参考訳(メタデータ) (2022-10-24T11:41:20Z) - Generalizing Multimodal Pre-training into Multilingual via Language
Acquisition [54.69707237195554]
英語のVision-Language Pre-Trainingは、様々な下流タスクで大きな成功を収めた。
この成功を英語以外の言語に一般化するために、Multilingual Vision-Language Pre-Trainingを通じていくつかの取り組みがなされている。
単言語視覚言語事前学習モデルを多言語に容易に一般化できるtextbfMultitextbfLingual textbfAcquisition (MLA) フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-29T08:53:22Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Improving Low-resource Reading Comprehension via Cross-lingual
Transposition Rethinking [0.9236074230806579]
Extractive Reading (ERC)は、大規模で高品質なERCトレーニングデータの提供によって、大幅に進歩した。
このような急速な進歩と広範囲の応用にもかかわらず、英語のような高リソース言語以外の言語のデータセットは依然として不足している。
多言語環境において,既存の高品質抽出読解データセットをモデル化し,XLTT(Cross-Lingual Transposition ReThinking)モデルを提案する。
論文 参考訳(メタデータ) (2021-07-11T09:35:16Z) - A Multilingual Modeling Method for Span-Extraction Reading Comprehension [2.4905424368103444]
XLRCと呼ばれる多言語抽出読解手法を提案する。
我々のモデルはCMRC 2018タスクにおいて最先端のベースライン(RoBERTa_Large)よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-05-31T11:05:30Z) - Mixed-Lingual Pre-training for Cross-lingual Summarization [54.4823498438831]
言語間の要約は、ソース言語の記事に対する対象言語の要約を作成することを目的としている。
本稿では,翻訳のような言語間タスクと,マスク付き言語モデルのようなモノリンガルタスクの両方を活用する混合言語事前学習に基づくソリューションを提案する。
本モデルでは,2.82(中国語)と1.15(中国語,英語)のROUGE-1スコアを最先端の結果に対して改善する。
論文 参考訳(メタデータ) (2020-10-18T00:21:53Z) - Data Augmentation for Spoken Language Understanding via Pretrained
Language Models [113.56329266325902]
音声言語理解(SLU)モデルの訓練は、しばしばデータ不足の問題に直面している。
我々は,事前学習言語モデルを用いたデータ拡張手法を提案し,生成した発話の変動性と精度を向上した。
論文 参考訳(メタデータ) (2020-04-29T04:07:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。