論文の概要: Simple and Effective Zero-shot Cross-lingual Phoneme Recognition
- arxiv url: http://arxiv.org/abs/2109.11680v1
- Date: Thu, 23 Sep 2021 22:50:32 GMT
- ステータス: 処理完了
- システム内更新日: 2021-09-27 14:22:07.350825
- Title: Simple and Effective Zero-shot Cross-lingual Phoneme Recognition
- Title(参考訳): 単純かつ効果的なゼロショットクロスリンガル音素認識
- Authors: Qiantong Xu, Alexei Baevski, Michael Auli
- Abstract要約: 本稿では,複数言語で事前訓練されたwav2vec 2.0モデルを微調整し,未知の言語を転写することで,ゼロショット・クロスリンガル変換学習に関するこれまでの研究を拡張した。
実験によると、この単純な手法はタスク固有のアーキテクチャを導入した以前の作業よりも大幅に優れていた。
- 参考スコア(独自算出の注目度): 46.76787843369816
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent progress in self-training, self-supervised pretraining and
unsupervised learning enabled well performing speech recognition systems
without any labeled data. However, in many cases there is labeled data
available for related languages which is not utilized by these methods. This
paper extends previous work on zero-shot cross-lingual transfer learning by
fine-tuning a multilingually pretrained wav2vec 2.0 model to transcribe unseen
languages. This is done by mapping phonemes of the training languages to the
target language using articulatory features. Experiments show that this simple
method significantly outperforms prior work which introduced task-specific
architectures and used only part of a monolingually pretrained model.
- Abstract(参考訳): 自己学習,自己教師あり事前学習,教師なし学習の最近の進歩は,ラベル付きデータ無しの音声認識システムの実現を可能にした。
しかし、多くの場合、これらの手法では利用できない関連言語で利用可能なラベル付きデータが存在する。
本稿では,多言語に事前学習されたwav2vec 2.0モデルを微調整することにより,ゼロショット言語間転送学習に関する先行研究を拡張した。
これは、調音機能を用いて訓練言語の音素を対象言語にマッピングすることで行われる。
実験により、この単純な手法は、タスク固有のアーキテクチャを導入し、単言語で事前学習されたモデルの一部のみを使用する以前の作業を大幅に上回ることがわかった。
関連論文リスト
- Soft Language Clustering for Multilingual Model Pre-training [57.18058739931463]
本稿では,インスタンスを条件付きで符号化するためのフレキシブルガイダンスとして,コンテキスト的にプロンプトを検索するXLM-Pを提案する。
我々のXLM-Pは、(1)言語間における言語不変および言語固有知識の軽量なモデリングを可能にし、(2)他の多言語事前学習手法との容易な統合を可能にする。
論文 参考訳(メタデータ) (2023-06-13T08:08:08Z) - Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。
我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。
1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文 参考訳(メタデータ) (2023-03-14T17:05:08Z) - Adapting Multilingual Speech Representation Model for a New,
Underresourced Language through Multilingual Fine-tuning and Continued
Pretraining [2.3513645401551333]
既存の多言語wav2vec 2.0モデルを新しい言語に適用する可能性を検討する。
この結果から, 継続事前学習がwav2vec 2.0モデルを新しい言語に適応させる最も効果的な方法であることが示唆された。
関連言語の種類や類似した音韻特性を持つ非関連言語で事前訓練されたモデルが利用可能である場合,その言語からの付加データを用いた多言語微調整は,音声認識性能に肯定的な影響を及ぼす可能性がある。
論文 参考訳(メタデータ) (2023-01-18T03:57:53Z) - Multilingual Zero Resource Speech Recognition Base on Self-Supervise
Pre-Trained Acoustic Models [14.887781621924255]
本稿では,事前学習モデルの使用を単語レベルのゼロリソース音声認識に拡張するための最初の試みである。
IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。
Wav2vec 2.0とHuBERTモデルの実験により、この手法は一部の言語で単語誤り率を20%以下に抑えることができることが示された。
論文 参考訳(メタデータ) (2022-10-13T12:11:18Z) - Improved Language Identification Through Cross-Lingual Self-Supervised
Learning [37.32193095549614]
我々は、事前訓練されたモデルを用いて、言語識別に関する以前の自己教師型研究を拡張した。
25言語のセットアップ結果から、言語毎にラベル付きデータの10分で、言語横断的に事前訓練されたモデルが93%以上の精度を達成できることが示された。
論文 参考訳(メタデータ) (2021-07-08T19:37:06Z) - Improving Cross-Lingual Reading Comprehension with Self-Training [62.73937175625953]
現在の最新モデルは、いくつかのベンチマークで人間のパフォーマンスを上回っています。
前作では、ゼロショットのクロスリンガル読解のための事前訓練された多言語モデルの能力を明らかにしている。
本稿では,ラベルのないデータを利用して性能を向上する。
論文 参考訳(メタデータ) (2021-05-08T08:04:30Z) - Improving the Lexical Ability of Pretrained Language Models for
Unsupervised Neural Machine Translation [127.81351683335143]
クロスリンガルプリトレーニングは、2つの言語の語彙的表現と高レベル表現を整列させるモデルを必要とする。
これまでの研究では、これは表現が十分に整合していないためです。
本稿では,語彙レベルの情報で事前学習するバイリンガルマスク言語モデルを,型レベルのクロスリンガルサブワード埋め込みを用いて強化する。
論文 参考訳(メタデータ) (2021-03-18T21:17:58Z) - Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。
我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。
事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文 参考訳(メタデータ) (2020-06-24T19:16:02Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。