Fugu-MT 論文翻訳(概要): Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision

論文の概要: Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision

arxiv url: http://arxiv.org/abs/2406.02166v1
Date: Tue, 4 Jun 2024 09:56:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-05 16:51:53.737764
Title: Whistle: Data-Efficient Multilingual and Crosslingual Speech Recognition via Weakly Phonetic Supervision
Title（参考訳）: Whistle:弱音声による多言語・多言語間音声認識
Authors: Saierdaer Yusuyin, Te Ma, Hao Huang, Wenbo Zhao, Zhijian Ou,
Abstract要約: 本稿では,データ効率のよい自動音声認識(MCLASR)に対する音声指導の弱い事前学習のアプローチについて検討する。我々は,LanguageNet grapheme-to-phoneme(G2P)モデルを活用して,ゴールドスタンダードな人間検証音声書き起こしの要求を緩和し,国際音声アルファベット(IPA)に基づく書き起こしを得る。 MCL-ASRにおける音素モデルの有効性を示す実験では, 未知言語に対する音声認識, 数ショットのデータ量の違いによる言語間のクロスリンガル性能, 破滅的な忘れ込み, 訓練効率を克服した。
参考スコア（独自算出の注目度）: 16.992058149317753
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: There exist three approaches for multilingual and crosslingual automatic speech recognition (MCL-ASR) - supervised pre-training with phonetic or graphemic transcription, and self-supervised pre-training. We find that pre-training with phonetic supervision has been underappreciated so far for MCL-ASR, while conceptually it is more advantageous for information sharing between different languages. This paper explores the approach of pre-training with weakly phonetic supervision towards data-efficient MCL-ASR, which is called Whistle. We relax the requirement of gold-standard human-validated phonetic transcripts, and obtain International Phonetic Alphabet (IPA) based transcription by leveraging the LanguageNet grapheme-to-phoneme (G2P) models. We construct a common experimental setup based on the CommonVoice dataset, called CV-Lang10, with 10 seen languages and 2 unseen languages. A set of experiments are conducted on CV-Lang10 to compare, as fair as possible, the three approaches under the common setup for MCL-ASR. Experiments demonstrate the advantages of phoneme-based models (Whistle) for MCL-ASR, in terms of speech recognition for seen languages, crosslingual performance for unseen languages with different amounts of few-shot data, overcoming catastrophic forgetting, and training efficiency.It is found that when training data is more limited, phoneme supervision can achieve better results compared to subword supervision and self-supervision, thereby providing higher data-efficiency. To support reproducibility and promote future research along this direction, we will release the code, models and data for the whole pipeline of Whistle at https://github.com/thu-spmi/CAT upon publication.
Abstract（参考訳）: 多言語・多言語自動音声認識(MCL-ASR)には3つのアプローチがある。 MCL-ASRの事前学習は,MCL-ASRでは不十分であり,概念的には異なる言語間の情報共有には有利である。本稿では,Whistle と呼ばれるデータ効率の高い MCL-ASR に対する音声指導の弱い事前学習手法について検討する。我々は,LanguageNet grapheme-to-phoneme(G2P)モデルを活用して,ゴールドスタンダードな人間検証音声書き起こしの要求を緩和し,国際音声アルファベット(IPA)に基づく書き起こしを得る。 CV-Lang10と呼ばれるCommonVoiceデータセットをベースとした,共通的な実験環境を構築した。 CV-Lang10で実験を行い、MCL-ASRの共通設定下での3つのアプローチを可能な限り公平に比較した。 MCL-ASRにおける音素モデル(Whistle)の利点は、見知らぬ言語に対する音声認識、無意味な数ショットデータに対するクロスリンガル性能、破滅的な忘れ、訓練効率を克服し、訓練データに制限がある場合、サブワードの監督や自己監督よりも音素監督の方が優れた結果が得られることを示し、高いデータ効率を提供する。再現性をサポートし、この方向に沿って将来の研究を促進するため、我々は、Whistleのパイプライン全体のためのコード、モデル、データを、公開時にhttps://github.com/thu-spmi/CATでリリースします。

関連論文リスト

Low-Resourced Speech Recognition for Iu Mien Language via Weakly-Supervised Phoneme-based Multilingual Pre-training [12.460425460648516]
本研究は,10時間未満のIu Mien言語を用いて,Iu Mien音声認識における3つのアプローチについて検討・比較する。その結果,音素の監督はサブワードの監督や自己監督よりも優れた結果が得られることがわかった。
論文参考訳（メタデータ） (2024-07-18T08:46:47Z)
Multilingual self-supervised speech representations improve the speech recognition of low-resource African languages with codeswitching [65.74653592668743]
微細な自己教師型多言語表現は絶対単語誤り率を最大20%削減する。訓練データに制限のある状況では、自己教師付き表現を微調整することが、より良いパフォーマンスと実行可能なソリューションである。
論文参考訳（メタデータ） (2023-11-25T17:05:21Z)
Towards a Deep Understanding of Multilingual End-to-End Speech Translation [52.26739715012842]
我々は22言語以上で訓練された多言語エンドツーエンド音声翻訳モデルで学習した表現を解析する。我々は分析から3つの大きな発見を得た。
論文参考訳（メタデータ） (2023-10-31T13:50:55Z)
Learning Cross-lingual Visual Speech Representations [108.68531445641769]
言語横断的な自己監督型視覚表現学習は、ここ数年、研究トピックとして成長している。我々は最近提案したRAVEn(Raw Audio-Visual Speechs)フレームワークを用いて,未ラベルデータを用いた音声-視覚モデルの事前学習を行う。 1)データ量が多いマルチ言語モデルはモノリンガルモデルよりも優れているが、データの量を維持すると、モノリンガルモデルの性能が向上する傾向にある。
論文参考訳（メタデータ） (2023-03-14T17:05:08Z)
M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval [56.49878599920353]
本研究は,多言語画像音声検索におけるCLIPとHuBERTの大規模,英語のみの事前学習モデル(CLIPとHuBERT)の利用について検討する。非英語画像音声検索では、各言語毎に個別のモデルを訓練する場合と、3言語すべてで音声を処理する1つのモデルの両方において、最先端のパフォーマンスを幅広いマージンで上回ります。
論文参考訳（メタデータ） (2022-11-02T14:54:45Z)
Pretraining Approaches for Spoken Language Recognition: TalTech Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文参考訳（メタデータ） (2022-05-14T15:17:08Z)
Discovering Phonetic Inventories with Crosslingual Automatic Speech Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文参考訳（メタデータ） (2022-01-26T22:12:55Z)
Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer in ASR [13.726142328715897]
本稿では、ターゲット言語からの全く転写されていないトレーニングデータを用いて、ASRシステムの言語間訓練を行う方法を提案する。提案手法は,対象言語からの未ペア音声とテキストデータのみを演算する復号アルゴリズムの新たな適用法である。
論文参考訳（メタデータ） (2021-11-12T16:16:46Z)
Simple and Effective Zero-shot Cross-lingual Phoneme Recognition [46.76787843369816]
本稿では,複数言語で事前訓練されたwav2vec 2.0モデルを微調整し,未知の言語を転写することで,ゼロショット・クロスリンガル変換学習に関するこれまでの研究を拡張した。実験によると、この単純な手法はタスク固有のアーキテクチャを導入した以前の作業よりも大幅に優れていた。
論文参考訳（メタデータ） (2021-09-23T22:50:32Z)
Multilingual Jointly Trained Acoustic and Written Word Embeddings [22.63696520064212]
このアイデアを複数の低リソース言語に拡張します。我々は、複数の言語から音声で書き起こされたデータを用いて、AWEモデルとAGWEモデルを共同で訓練する。事前トレーニングされたモデルは、目に見えないゼロリソース言語や、低リソース言語のデータを微調整するために使用することができる。
論文参考訳（メタデータ） (2020-06-24T19:16:02Z)
That Sounds Familiar: an Analysis of Phonetic Representations Transfer Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文参考訳（メタデータ） (2020-05-16T22:28:09Z)
Universal Phone Recognition with a Multilingual Allophone System [135.2254086165086]
言語に依存しない音素分布と言語に依存しない音素分布の連成モデルを提案する。 11言語での多言語ASR実験では、このモデルにより2%の音素誤り率でテスト性能が向上することがわかった。我々の認識器は17%以上の精度向上を実現し、世界中のすべての言語で音声認識に一歩近づいた。
論文参考訳（メタデータ） (2020-02-26T21:28:57Z)
Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文参考訳（メタデータ） (2020-02-26T20:38:42Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。