論文の概要: Self-supervised Adaptive Pre-training of Multilingual Speech Models for
Language and Dialect Identification
- arxiv url: http://arxiv.org/abs/2312.07338v1
- Date: Tue, 12 Dec 2023 14:58:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-13 15:37:20.086026
- Title: Self-supervised Adaptive Pre-training of Multilingual Speech Models for
Language and Dialect Identification
- Title(参考訳): 言語・方言識別のための多言語音声モデルの自己教師付き適応事前学習
- Authors: Mohammed Maqsood Shaik, Dietrich Klakow, Badr M. Abdullah
- Abstract要約: 目標領域や下流タスクの言語に事前学習モデルを適用するために,自己教師付き適応型事前学習を提案する。
SPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。
- 参考スコア(独自算出の注目度): 19.893213508284813
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pre-trained Transformer-based speech models have shown striking performance
when fine-tuned on various downstream tasks such as automatic speech
recognition and spoken language identification (SLID). However, the problem of
domain mismatch remains a challenge in this area, where the domain of the
pre-training data might differ from that of the downstream labeled data used
for fine-tuning. In multilingual tasks such as SLID, the pre-trained speech
model may not support all the languages in the downstream task. To address this
challenge, we propose self-supervised adaptive pre-training (SAPT) to adapt the
pre-trained model to the target domain and languages of the downstream task. We
apply SAPT to the XLSR-128 model and investigate the effectiveness of this
approach for the SLID task. First, we demonstrate that SAPT improves XLSR
performance on the FLEURS benchmark with substantial gains up to 40.1% for
under-represented languages. Second, we apply SAPT on four different datasets
in a few-shot learning setting, showing that our approach improves the sample
efficiency of XLSR during fine-tuning. Our experiments provide strong empirical
evidence that continual adaptation via self-supervision improves downstream
performance for multilingual speech models.
- Abstract(参考訳): 自動音声認識や音声言語識別(slid)などの下流タスクを微調整した場合,事前学習されたトランスフォーマティブ音声モデルが目覚ましい性能を示した。
しかし、この領域では、事前学習データのドメインが、微調整に使用される下流ラベルデータと異なる可能性があるため、ドメインミスマッチの問題は依然として課題である。
SLIDのような多言語タスクでは、事前訓練された音声モデルは下流タスクの全ての言語をサポートできない。
この課題に対処するために、我々は、事前学習されたモデルを下流タスクのターゲット領域と言語に適応させる自己教師付き適応事前学習(SAPT)を提案する。
我々は、XLSR-128モデルにSAPTを適用し、SLIDタスクに対するこのアプローチの有効性について検討する。
第一に、SAPTはFLEURSベンチマークのXLSR性能を向上し、表現不足言語では40.1%まで向上することを示した。
第2に,saptを4つの異なるデータセットに適用することで,微調整時のxlsrのサンプル効率が向上することを示す。
本実験は,自己スーパービジョンによる連続適応が,多言語音声モデルのダウンストリーム性能を向上させることを示す強い実証的証拠を提供する。
関連論文リスト
- An Initial Investigation of Language Adaptation for TTS Systems under Low-resource Scenarios [76.11409260727459]
本稿では,最近のSSLベースの多言語TSシステムであるZMM-TTSの言語適応性について検討する。
本研究では,事前学習言語と対象言語との音声学的な類似性が,対象言語の適応性能に影響を及ぼすことを示す。
論文 参考訳(メタデータ) (2024-06-13T08:16:52Z) - ML-SUPERB 2.0: Benchmarking Multilingual Speech Models Across Modeling Constraints, Languages, and Datasets [106.7760874400261]
本稿では、事前訓練されたSSLと教師付き音声モデルを評価するための新しいベンチマークであるML-SUPERB2.0を提案する。
ML-SUPERBのセットアップよりも性能が向上するが、性能は下流モデル設計に依存している。
また、言語とデータセットのパフォーマンスに大きな違いがあることから、よりターゲットを絞ったアプローチの必要性も示唆されている。
論文 参考訳(メタデータ) (2024-06-12T21:01:26Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Pre-Trained Language-Meaning Models for Multilingual Parsing and
Generation [14.309869321407522]
談話表現構造(DRS)に基づく多言語事前学習言語意味モデルを導入する。
DRSは言語中立であるため、非英語タスクの性能向上のために言語間移動学習が採用されている。
自動評価の結果,本手法は多言語DSS解析とDSS-to-text生成の両タスクにおいて,最高の性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2023-05-31T19:00:33Z) - Deploying self-supervised learning in the wild for hybrid automatic
speech recognition [20.03807843795386]
自己教師付き学習(SSL)法は自動音声認識(ASR)において非常に成功したことが証明されている。
我々は、データ前処理からストリーミングハイブリッドASRモデルのデプロイまで、SSLの未転写オーディオデータを利用する方法を示す。
論文 参考訳(メタデータ) (2022-05-17T19:37:40Z) - ANNA: Enhanced Language Representation for Question Answering [5.713808202873983]
事前学習モデルでは,各アプローチが個別にパフォーマンスにどう影響するかを示し,そのアプローチが共同で検討されている。
本稿では,事前学習タスクの拡張と,近隣のトークンにもっと参加して,事前学習言語モデリングのコンテキストの豊かさを把握できる新しい近隣認識機構を提案する。
我々の最良のモデルは、SQuAD 1.1上で95.7% F1と90.6% EMの新たな最先端結果を実現し、RoBERTa、ALBERT、ELECTRA、XLNetといった既存のトレーニング済み言語モデルよりも優れている。
論文 参考訳(メタデータ) (2022-03-28T05:26:52Z) - CLIN-X: pre-trained language models and a study on cross-task transfer
for concept extraction in the clinical domain [22.846469609263416]
事前学習したCLIN-X(Clinical XLM-R)言語モデルを導入し、CLIN-Xが他の事前学習したトランスフォーマーモデルよりも優れていることを示す。
本研究は,250のラベル付き文が利用可能である場合に,47F1ポイントまで改善された注釈付きデータがないにもかかわらず,安定したモデル性能を示す。
本研究は,非標準領域における概念抽出におけるCLIN-Xとしての特殊言語モデルの重要性を強調した。
論文 参考訳(メタデータ) (2021-12-16T10:07:39Z) - Unsupervised neural adaptation model based on optimal transport for
spoken language identification [54.96267179988487]
トレーニングセットとテストセット間の音響音声の統計的分布のミスマッチにより,音声言語識別(SLID)の性能が大幅に低下する可能性がある。
SLIDの分布ミスマッチ問題に対処するために,教師なしニューラル適応モデルを提案する。
論文 参考訳(メタデータ) (2020-12-24T07:37:19Z) - Cross-lingual Spoken Language Understanding with Regularized
Representation Alignment [71.53159402053392]
外部リソースを使わずに言語間で単語レベルの表現と文レベルの表現を整列する正規化手法を提案する。
言語間言語理解タスクの実験により、我々のモデルは、数ショットとゼロショットの両方のシナリオにおいて、最先端の手法よりも優れていることが示された。
論文 参考訳(メタデータ) (2020-09-30T08:56:53Z) - Exploring Fine-tuning Techniques for Pre-trained Cross-lingual Models
via Continual Learning [74.25168207651376]
訓練済みの言語モデルから下流の言語間タスクへの微調整は、有望な結果を示している。
ダウンストリームタスクに微調整する場合、継続学習を活用して、事前学習したモデルの言語間能力を維持する。
提案手法は、ゼロショット言語間タグ付けや名前付きエンティティ認識タスクにおいて、他の微調整ベースラインよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2020-04-29T14:07:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。