論文の概要: Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining
- arxiv url: http://arxiv.org/abs/2301.07295v1
- Date: Wed, 18 Jan 2023 03:57:53 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 16:54:43.071146
- Title: Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining
- Title(参考訳): 多言語微調整と継続事前学習による新しいアンダーリソース言語に対する多言語音声表現モデルの適用
- Authors: Karol Nowakowski, Michal Ptaszynski, Kyoko Murasaki, Jagna Nieuwa\.zny
- Abstract要約: 既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
- 参考スコア(独自算出の注目度): 2.3513645401551333
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In recent years, neural models learned through self-supervised pretraining on
large scale multilingual text or speech data have exhibited promising results
for underresourced languages, especially when a relatively large amount of data
from related language(s) is available. While the technology has a potential for
facilitating tasks carried out in language documentation projects, such as
speech transcription, pretraining a multilingual model from scratch for every
new language would be highly impractical. We investigate the possibility for
adapting an existing multilingual wav2vec 2.0 model for a new language,
focusing on actual fieldwork data from a critically endangered tongue: Ainu.
Specifically, we (i) examine the feasibility of leveraging data from similar
languages also in fine-tuning; (ii) verify whether the model's performance can
be improved by further pretraining on target language data. Our results show
that continued pretraining is the most effective method to adapt a wav2vec 2.0
model for a new language and leads to considerable reduction in error rates.
Furthermore, we find that if a model pretrained on a related speech variety or
an unrelated language with similar phonological characteristics is available,
multilingual fine-tuning using additional data from that language can have
positive impact on speech recognition performance when there is very little
labeled data in the target language.
- Abstract(参考訳): 近年,大規模多言語テキストや音声データによる自己教師付き事前学習を通じて学習されたニューラルモデルは,特に関連言語からの比較的大量のデータが利用可能である場合に,低リソース言語に対して有望な結果を示した。
この技術は、音声の書き起こしなど、言語ドキュメントプロジェクトで実行されるタスクを促進する可能性があるが、新しい言語毎にスクラッチから多言語モデルを事前学習することは、非常に非現実的だろう。
新しい言語に既存の多言語wav2vec 2.0モデルを適用する可能性について検討し、危惧言語であるアイヌのフィールドワークデータに着目した。
具体的には
(i)微調整における類似言語のデータ活用の可能性について検討する。
(ii)対象言語データの事前学習により、モデルの性能が向上できるかどうかを検証する。
その結果, 継続事前学習はwav2vec 2.0モデルを新しい言語に適応させる最も効果的な手法であり, エラー率を著しく低下させることがわかった。
さらに、関連する音声種類や類似した音韻特性を有する非関連言語に事前学習されたモデルが利用可能であれば、その言語からの付加データを用いた多言語微調整は、対象言語にラベル付きデータが少ない場合に音声認識性能に正の影響を与える可能性がある。
関連論文リスト
- A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。
そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。
以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T12:53:01Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Language-Family Adapters for Low-Resource Multilingual Neural Machine
Translation [129.99918589405675]
自己超越で訓練された大規模多言語モデルは、幅広い自然言語処理タスクにおいて最先端の結果を達成する。
マルチリンガルな微調整は低リソース言語のパフォーマンスを向上させるが、モデル全体を変更する必要があるため、極めて高価である。
言語間移動を容易にするため,mBART-50上で言語ファミリーアダプタを訓練する。
論文 参考訳(メタデータ) (2022-09-30T05:02:42Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Improved Language Identification Through Cross-Lingual Self-Supervised
Learning [37.32193095549614]
我々は、事前訓練されたモデルを用いて、言語識別に関する以前の自己教師型研究を拡張した。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
論文 参考訳(メタデータ) (2021-07-08T19:37:06Z) - Multilingual transfer of acoustic word embeddings improves when training
on languages related to the target zero-resource language [32.170748231414365]
たった一つの関連言語でトレーニングを行うことで、最大の利益が得られます。
また、関係のない言語からのデータを追加することは、一般的にパフォーマンスを損なわないこともわかりました。
論文 参考訳(メタデータ) (2021-06-24T08:37:05Z) - Unsupervised Domain Adaptation of a Pretrained Cross-Lingual Language
Model [58.27176041092891]
最近の研究は、大規模未ラベルテキストに対する言語間言語モデルの事前学習が、大幅な性能向上をもたらすことを示唆している。
本稿では,絡み合った事前学習した言語間表現からドメイン固有の特徴を自動的に抽出する,教師なし特徴分解手法を提案する。
提案モデルでは、相互情報推定を利用して、言語間モデルによって計算された表現をドメイン不変部分とドメイン固有部分に分解する。
論文 参考訳(メタデータ) (2020-11-23T16:00:42Z) - Comparison of Interactive Knowledge Base Spelling Correction Models for
Low-Resource Languages [81.90356787324481]
低リソース言語に対する正規化の推進は、パターンの予測が難しいため、難しい作業である。
この研究は、ターゲット言語データに様々な量を持つニューラルモデルとキャラクタ言語モデルの比較を示す。
我々の利用シナリオは、ほぼゼロのトレーニング例によるインタラクティブな修正であり、より多くのデータが収集されるにつれてモデルを改善する。
論文 参考訳(メタデータ) (2020-10-20T17:31:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。