論文の概要: Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech
Pre-Training for Adaptation to Unseen Languages
- arxiv url: http://arxiv.org/abs/2305.12606v2
- Date: Wed, 31 May 2023 01:27:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-02 02:09:29.586474
- Title: Comparison of Multilingual Self-Supervised and Weakly-Supervised Speech
Pre-Training for Adaptation to Unseen Languages
- Title(参考訳): 未熟言語適応のための多言語自己教師付き・弱教師付き音声前訓練の比較
- Authors: Andrew Rouditchenko, Sameer Khurana, Samuel Thomas, Rogerio Feris,
Leonid Karlinsky, Hilde Kuehne, David Harwath, Brian Kingsbury, James Glass
- Abstract要約: 近年のXLS-RやWhisperのようなモデルでは、約100の言語から音声を事前学習することで、多言語音声技術がより使いやすくなっている。
事前学習中に見つからない言語にどのモデルを適応させるかを理解することを目的としている。
13の見知らぬ言語と18の見つからない言語で、両方のモデルを微調整します。
- 参考スコア(独自算出の注目度): 40.41642013737395
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent models such as XLS-R and Whisper have made multilingual speech
technologies more accessible by pre-training on audio from around 100 spoken
languages each. However, there are thousands of spoken languages worldwide, and
adapting to new languages is an important problem. In this work, we aim to
understand which model adapts better to languages unseen during pre-training.
We fine-tune both models on 13 unseen languages and 18 seen languages. Our
results show that the number of hours seen per language and language family
during pre-training is predictive of how the models compare, despite the
significant differences in the pre-training methods.
- Abstract(参考訳): 近年のXLS-RやWhisperのようなモデルでは、約100言語から音声を事前学習することで、多言語音声技術がより使いやすくなっている。
しかし、世界中に何千もの話し言葉があり、新しい言語への適応は重要な問題である。
本研究は,事前学習中の言語にどのようなモデルが適応するかを理解することを目的とする。
13言語と18言語で、両方のモデルを微調整します。
以上の結果から,事前学習中の言語群と言語群間での時間数の予測は,事前学習方法の大きな違いにもかかわらず,モデルの比較を予測していることが示された。
関連論文リスト
- Improved Self-Supervised Multilingual Speech Representation Learning
Combined with Auxiliary Language Information [21.250763472985824]
自己教師型多言語音声表現学習は,多言語自動音声認識の性能向上に成功している。
しかし、教師付き学習と同様、多言語事前学習も言語干渉に悩まされる可能性がある。
本稿では,補助言語情報を活用することで,自己教師付き多言語事前学習を改善するためのいくつかの手法を提案する。
論文 参考訳(メタデータ) (2022-12-07T06:18:59Z) - Towards continually learning new languages [66.36852845415916]
言語のバッチ学習は経済的に有益だが、大きな課題は破滅的な忘れ方だ。
我々は,破滅的忘れを抑えるために,重量分解特性と弾性重みの固化特性を組み合わせる。
私たちは、すべての言語をゼロからトレーニングするのに比べ、破滅的な忘れものもなく、合理的なパフォーマンスで26の言語を達成しています。
論文 参考訳(メタデータ) (2022-11-21T18:24:34Z) - M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for
Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。
非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文 参考訳(メタデータ) (2022-11-02T14:54:45Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Analyzing the Mono- and Cross-Lingual Pretraining Dynamics of
Multilingual Language Models [73.11488464916668]
本研究では,多言語事前学習プロセスのダイナミクスについて検討する。
我々は,XLM-Rプレトレーニング全体から抽出したチェックポイントを,一連の言語的タスクを用いて探索する。
分析の結果,より複雑なものよりも低レベルな言語スキルが得られ,早期に高い言語性能が得られることがわかった。
論文 参考訳(メタデータ) (2022-05-24T03:35:00Z) - Phylogeny-Inspired Adaptation of Multilingual Models to New Languages [43.62238334380897]
我々は、言語系統情報を用いて、密接に関連する言語を活用する言語間移動を改善する方法を示す。
我々は,多言語(ゲルマン語,ウルリック語,トゥピ語,ウト・アステカン語)の言語をアダプタベースで学習し,構文的・意味的タスクの評価を行う。
論文 参考訳(メタデータ) (2022-05-19T15:49:19Z) - Match the Script, Adapt if Multilingual: Analyzing the Effect of
Multilingual Pretraining on Cross-lingual Transferability [26.553524219316188]
事前訓練された多言語モデルは、目に見えない言語でもゼロショット学習を可能にする。
事前学習中の言語に対するゼロショット学習に事前学習言語数がどのような影響を及ぼすかは明らかでない。
論文 参考訳(メタデータ) (2022-03-21T06:52:38Z) - Discovering Representation Sprachbund For Multilingual Pre-Training [139.05668687865688]
多言語事前学習モデルから言語表現を生成し、言語分析を行う。
すべての対象言語を複数のグループにクラスタリングし、表現のスプラックバンドとして各グループに名前を付ける。
言語間ベンチマークで実験を行い、強いベースラインと比較して大幅な改善が達成された。
論文 参考訳(メタデータ) (2021-09-01T09:32:06Z) - CLSRIL-23: Cross Lingual Speech Representations for Indic Languages [0.0]
CLSRIL-23は、23のIndic言語にまたがる生音声から言語間の音声表現を学習する自己教師付き学習ベースモデルである。
wav2vec 2.0の上に構築され、マスク付き潜在音声表現よりも対照的なタスクを訓練することで解決される。
単言語と多言語による事前学習の効果を比較するために,事前学習における言語障害の比較を行った。
論文 参考訳(メタデータ) (2021-07-15T15:42:43Z) - Improved Language Identification Through Cross-Lingual Self-Supervised
Learning [37.32193095549614]
我々は、事前訓練されたモデルを用いて、言語識別に関する以前の自己教師型研究を拡張した。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
論文 参考訳(メタデータ) (2021-07-08T19:37:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。