論文の概要: On the Cross-lingual Transferability of Pre-trained wav2vec2-based Models
- arxiv url: http://arxiv.org/abs/2511.21704v1
- Date: Sun, 16 Nov 2025 19:09:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.343737
- Title: On the Cross-lingual Transferability of Pre-trained wav2vec2-based Models
- Title(参考訳): 事前学習wav2vec2モデルにおける言語間移動性について
- Authors: Jonatas Grosman, Cassio Almeida, Guilherme Schardong, Hélio Lopes,
- Abstract要約: 最近提案された大規模事前学習モデルであるwav2vec 2.0は、音声データに対する大規模モデルの事前学習において重要な役割を担っている。
以前の研究は、これらのwav2vec2ベースのモデルの事前トレーニングで使用されるデータが、下流タスクにおけるモデルのパフォーマンスに影響を及ぼすことを示した。
本研究の目的は,これらのwav2vec2ベースモデルの言語間移動性を検討することである。
- 参考スコア(独自算出の注目度): 1.5749416770494709
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Using representations provided by a large pre-trained model has become the primary strategy for achieving state-of-the-art results in a wide range of tasks. A recently proposed large pre-trained model, wav2vec 2.0, was seminal for several other works on pre-training large models on speech data. Many models are being pre-trained using the same architecture as wav2vec 2.0 and are getting state-of-the-art in various speech-related tasks. Previous work has demonstrated that the data used during the pre-training of these wav2vec2-based models can impact the model's performance in downstream tasks, and this should be taken into consideration before utilizing these models. However, few works have proposed investigating further how the transfer knowledge of these pre-trained models behaves in different languages, even when the target language differs from the one used during the model's pre-training. Our work aims to investigate the cross-lingual transferability of these wav2vec2-based models. We performed several fine-tuning experiments on the speech recognition task in 18 languages using 15 large pre-trained models. The results of our experiments showed us that the size of data used during the pre-training of these models is not as important to the final performance as the diversity. We noticed that the performance of Indo-European languages is superior to non-Indo-European languages in the evaluated models. We have observed a positive cross-lingual transfer of knowledge using monolingual models, which was evident in all the languages we used, but more pronounced when the language used during pre-training was more similar to the downstream task language. With these findings, we aim to assist the scientific community in utilizing existing wav2vec2-based pre-trained models, as well as facilitate the pre-training of new ones.
- Abstract(参考訳): 大規模な事前学習モデルによって提供される表現を使用することは、幅広いタスクにおいて最先端の成果を達成するための主要な戦略となっている。
最近提案された大規模事前学習モデルであるwav2vec 2.0は、音声データに対する大規模モデルの事前学習において重要な役割を担っている。
多くのモデルはwav2vec 2.0と同じアーキテクチャで事前訓練されており、様々な音声関連タスクで最先端のものになっている。
以前の研究では、これらのwav2vec2ベースのモデルの事前トレーニングで使用されるデータが、下流タスクにおけるモデルのパフォーマンスに影響を与えることが示されており、これらのモデルを利用する前に考慮する必要がある。
しかしながら、これらの事前訓練されたモデルの伝達知識が異なる言語でどのように振る舞うかをさらに調査する研究は、たとえ対象言語が事前学習で使用されるものと異なる場合でも、ほとんど行われていない。
本研究の目的は,これらのwav2vec2ベースモデルの言語間移動性を検討することである。
15個の大規模事前学習モデルを用いて18言語で音声認識タスクの微調整実験を行った。
実験の結果、これらのモデルの事前トレーニングで使用するデータのサイズは、多様性よりも最終的なパフォーマンスには重要でないことがわかった。
評価モデルでは,インド・ヨーロッパ語の性能は非インド・ヨーロッパ語よりも優れていることがわかった。
我々は、モノリンガルモデルを用いた知識の言語間移動を積極的に観察してきたが、事前学習で使用する言語が下流タスク言語とより類似している場合、より顕著である。
本研究の目的は,既存のwav2vec2をベースとした事前学習モデルの活用と,新たなモデルの事前学習の促進である。
関連論文リスト
- Pretraining Language Models to Ponder in Continuous Space [50.52734567589996]
単一のトークン生成ステップ内で,前処理を繰り返し呼び出すことによって,この思考プロセスを言語モデルに導入する。
人間のアノテーションを使わずに、自己教師付き学習を通じて、この方法でモデルを学習できることが示される。
論文 参考訳(メタデータ) (2025-05-27T03:47:33Z) - A Comparison of Language Modeling and Translation as Multilingual Pretraining Objectives [13.581385765600265]
プレトレーニング言語モデル(PLM)は優れたパフォーマンスを示し、NLPコミュニティの注目を集めている。
本稿では,制御された方法論環境における多言語事前学習目標の比較を提案する。
論文 参考訳(メタデータ) (2024-07-22T09:16:30Z) - Investigating Pre-trained Language Models on Cross-Domain Datasets, a
Step Closer to General AI [0.8889304968879164]
本研究では、事前学習された言語モデルが、異なる非言語タスクに一般化する能力について検討する。
私たちが使用した4つの事前訓練モデル、T5、BART、BERT、GPT-2は優れた結果を得た。
論文 参考訳(メタデータ) (2023-06-21T11:55:17Z) - Cross-Lingual Supervision improves Large Language Models Pre-training [36.932380291416365]
自己教師型言語モデリング目標と教師型機械翻訳目標の混合による事前学習により,文脈内学習能力のよいモデルが得られることを示す。
事前学習は非常に資源集約的なプロセスであり、2つの目標間の最良の混合比のグリッド探索は違法にコストがかかるため、事前学習時に学習するためのシンプルで効果的な戦略を提案する。
論文 参考訳(メタデータ) (2023-05-19T16:14:07Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - From Good to Best: Two-Stage Training for Cross-lingual Machine Reading
Comprehension [51.953428342923885]
モデル性能を向上させるための2段階のアプローチを開発する。
我々は、トップk予測が正確な答えを含む確率を最大化するために、ハードラーニング(HL)アルゴリズムを設計する。
第2段階では, 正解と他の候補との微妙な違いを学習するために, 解答を意識したコントラスト学習機構が開発された。
論文 参考訳(メタデータ) (2021-12-09T07:31:15Z) - bert2BERT: Towards Reusable Pretrained Language Models [51.078081486422896]
本稿では,既存のより小さな事前学習モデルの知識を大規模モデルに効果的に伝達できるbert2BERTを提案する。
bert2BERTは、ほぼ半分の大きさのモデルを再利用することで、BERT_BASEとGPT_BASEの事前トレーニングに約45%と47%の計算コストを節約する。
論文 参考訳(メタデータ) (2021-10-14T04:05:25Z) - Paraphrastic Representations at Scale [134.41025103489224]
私たちは、英語、アラビア語、ドイツ語、フランス語、スペイン語、ロシア語、トルコ語、中国語の訓練されたモデルをリリースします。
我々はこれらのモデルを大量のデータでトレーニングし、元の論文から大幅に性能を向上した。
論文 参考訳(メタデータ) (2021-04-30T16:55:28Z) - Cross-lingual Visual Pre-training for Multimodal Machine Translation [36.4592103797139]
我々は、言語間および視覚的事前学習法を組み合わせて、言語間表現を学習する。
マルチモーダル機械翻訳のための微調整を行うと、これらのモデルが最先端の性能を得ることを示す。
論文 参考訳(メタデータ) (2021-01-25T12:46:41Z) - InfoXLM: An Information-Theoretic Framework for Cross-Lingual Language
Model Pre-Training [135.12061144759517]
本稿では,言語間言語モデルの事前学習を定式化する情報理論フレームワークを提案する。
コントラスト学習に基づく新しい事前学習課題を提案する。
単言語コーパスと並列コーパスの両方を活用することで、事前訓練されたモデルの言語間変換性を向上させるために、プレテキストを共同で訓練する。
論文 参考訳(メタデータ) (2020-07-15T16:58:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。