論文の概要: Improved Self-Supervised Multilingual Speech Representation Learning
Combined with Auxiliary Language Information
- arxiv url: http://arxiv.org/abs/2212.03476v1
- Date: Wed, 7 Dec 2022 06:18:59 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-08 16:51:28.726737
- Title: Improved Self-Supervised Multilingual Speech Representation Learning
Combined with Auxiliary Language Information
- Title(参考訳): 補助言語情報を組み合わせた自己教師付き多言語音声表現学習の改善
- Authors: Fenglin Ding, Genshun Wan, Pengcheng Li, Jia Pan, Cong Liu
- Abstract要約: 自己教師型多言語音声表現学習は,多言語自動音声認識の性能向上に成功している。
しかし、教師付き学習と同様、多言語事前学習も言語干渉に悩まされる可能性がある。
本稿では,補助言語情報を活用することで,自己教師付き多言語事前学習を改善するためのいくつかの手法を提案する。
- 参考スコア(独自算出の注目度): 21.250763472985824
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual end-to-end models have shown great improvement over monolingual
systems. With the development of pre-training methods on speech,
self-supervised multilingual speech representation learning like XLSR has shown
success in improving the performance of multilingual automatic speech
recognition (ASR). However, similar to the supervised learning, multilingual
pre-training may also suffer from language interference and further affect the
application of multilingual system. In this paper, we introduce several
techniques for improving self-supervised multilingual pre-training by
leveraging auxiliary language information, including the language adversarial
training, language embedding and language adaptive training during the
pre-training stage. We conduct experiments on a multilingual ASR task
consisting of 16 languages. Our experimental results demonstrate 14.3% relative
gain over the standard XLSR model, and 19.8% relative gain over the no
pre-training multilingual model.
- Abstract(参考訳): 多言語エンドツーエンドモデルはモノリンガルシステムよりも大幅に改善されている。
音声の事前学習手法の開発により、xlsrのような自己教師付き多言語音声表現学習は、多言語自動音声認識(asr)の性能向上に成功している。
しかし、教師付き学習と同様、多言語事前学習も言語干渉に悩まされ、多言語システムの適用にさらに影響を及ぼす可能性がある。
本稿では,事前学習段階における言語対外訓練,言語埋め込み,言語適応訓練などの補助的言語情報を活用することで,自己指導型多言語事前学習を改善する手法を紹介する。
16言語からなる多言語ASRタスクについて実験を行った。
実験の結果,標準XLSRモデルよりも14.3%,事前学習しないマルチリンガルモデルよりも19.8%向上した。
関連論文リスト
- Multilingual Pretraining and Instruction Tuning Improve Cross-Lingual Knowledge Alignment, But Only Shallowly [53.04368883943773]
これに対処する2つのアプローチ、すなわち、多言語事前学習と多言語命令チューニングを提案する。
性能, 一貫性, 導電率レベルにおけるLLMの言語間知識アライメントを評価するために, CLiKAを提案する。
その結果、多言語事前学習と指導訓練は、多言語間知識アライメントに有用であるが、訓練戦略を慎重に設計する必要があることが示唆された。
論文 参考訳(メタデータ) (2024-04-06T15:25:06Z) - Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech
Pre-Training for Adaptation to Unseen Languages [40.41642013737395]
近年のXLS-RやWhisperのようなモデルでは、約100の言語から音声を事前学習することで、多言語音声技術がより使いやすくなっている。
事前学習中に見つからない言語にどのモデルを適応させるかを理解することを目的としている。
13の見知らぬ言語と18の見つからない言語で、両方のモデルを微調整します。
論文 参考訳(メタデータ) (2023-05-21T23:53:12Z) - Building High-accuracy Multilingual ASR with Gated Language Experts and
Curriculum Training [45.48362355283723]
本稿では,多言語トランスデューサモデルを強化するために,ゲート言語の専門家とカリキュラムトレーニングを提案する。
本手法はゲーティング機構とLID損失を組み込んで,トランスフォーマーの専門家が言語固有の情報を学ぶことを可能にする。
論文 参考訳(メタデータ) (2023-03-01T19:20:01Z) - High-resource Language-specific Training for Multilingual Neural Machine
Translation [109.31892935605192]
負の干渉を軽減するために,HLT-MT(High-Resource Language-specific Training)を用いた多言語翻訳モデルを提案する。
具体的には、まずマルチ言語モデルを高リソースペアでトレーニングし、デコーダの上部にある言語固有のモジュールを選択する。
HLT-MTは、高リソース言語から低リソース言語への知識伝達のために、利用可能なすべてのコーパスでさらに訓練されている。
論文 参考訳(メタデータ) (2022-07-11T14:33:13Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Improved Language Identification Through Cross-Lingual Self-Supervised
Learning [37.32193095549614]
我々は、事前訓練されたモデルを用いて、言語識別に関する以前の自己教師型研究を拡張した。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
論文 参考訳(メタデータ) (2021-07-08T19:37:06Z) - XTREME-R: Towards More Challenging and Nuanced Multilingual Evaluation [93.80733419450225]
本稿では,言語間移動学習の現状を解析する。
XTREMEを10種類の自然言語理解タスクからなるXTREME-Rに拡張する。
論文 参考訳(メタデータ) (2021-04-15T12:26:12Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。