論文の概要: Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer
in ASR
- arxiv url: http://arxiv.org/abs/2111.06799v1
- Date: Fri, 12 Nov 2021 16:16:46 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-15 14:21:38.514220
- Title: Deciphering Speech: a Zero-Resource Approach to Cross-Lingual Transfer
in ASR
- Title(参考訳): 音声の解読:ASRにおける言語間移動へのゼロリソースアプローチ
- Authors: Ondrej Klejch, Electra Wallington, Peter Bell
- Abstract要約: 本稿では、ターゲット言語からの全く転写されていないトレーニングデータを用いて、ASRシステムの言語間訓練を行う方法を提案する。
提案手法は,対象言語からの未ペア音声とテキストデータのみを演算する復号アルゴリズムの新たな適用法である。
- 参考スコア(独自算出の注目度): 13.726142328715897
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a method for cross-lingual training an ASR system using absolutely
no transcribed training data from the target language, and with no phonetic
knowledge of the language in question. Our approach uses a novel application of
a decipherment algorithm, which operates given only unpaired speech and text
data from the target language. We apply this decipherment to phone sequences
generated by a universal phone recogniser trained on out-of-language speech
corpora, which we follow with flat-start semi-supervised training to obtain an
acoustic model for the new language. To the best of our knowledge, this is the
first practical approach to zero-resource cross-lingual ASR which does not rely
on any hand-crafted phonetic information. We carry out experiments on read
speech from the GlobalPhone corpus, and show that it is possible to learn a
decipherment model on just 20 minutes of data from the target language. When
used to generate pseudo-labels for semi-supervised training, we obtain WERs
that range from 25% to just 5% absolute worse than the equivalent fully
supervised models trained on the same data.
- Abstract(参考訳): 本稿では,対象言語から文字変換された訓練データをまったく使用せず,その言語に関する音声的知識も持たないasrシステムの言語横断学習手法を提案する。
提案手法は,対象言語から与えられた非ペア音声とテキストデータのみを演算する復号化アルゴリズムの新たな応用を用いる。
本手法は,言語外音声コーパスを訓練したユニバーサル・フォン・リコーディネータが生成した音声シーケンスに適用し,フラットスタート半教師訓練を行い,新たな言語のための音響モデルを得る。
我々の知る限りでは、これは手作りの音声情報に依存しないゼロ・リソース・クロスランガル ASR に対する最初の実践的アプローチである。
我々は,グローバルホンコーパスから読み上げ音声の実験を行い,対象言語からわずか20分間のデータから解読モデルを学ぶことができることを示した。
半教師付きトレーニングのために擬似ラベルを生成する際には、同一データ上でトレーニングされた同等の完全教師付きモデルよりも25%からわずか5%悪いWERが得られる。
関連論文リスト
- TIPAA-SSL: Text Independent Phone-to-Audio Alignment based on Self-Supervised Learning and Knowledge Transfer [3.9981390090442694]
本稿では,音素認識,表現学習,知識伝達に基づくテキスト独立型音声アライメントのための新しいアプローチを提案する。
我々は、TIMITデータセットとSCRIBEデータセットの合成ネイティブデータを用いて、アメリカ英語とイギリス英語のモデルを評価する。
提案手法は,統計的指標における最先端(シャルシウ)よりも優れ,言語学習や音声処理システムに応用されている。
論文 参考訳(メタデータ) (2024-05-03T14:25:21Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Low-Resource Multilingual and Zero-Shot Multispeaker TTS [25.707717591185386]
5分間のトレーニングデータを用いて,新しい言語を学習することが可能であることを示す。
提案手法を,対象話者との親密性,自然性,類似性の観点から示す。
論文 参考訳(メタデータ) (2022-10-21T20:03:37Z) - Pretraining Approaches for Spoken Language Recognition: TalTech
Submission to the OLR 2021 Challenge [0.0]
この論文は、東洋言語認識2021チャレンジへの提案に基づいています。
制約トラックに対しては,まず,多言語自動音声認識のためのコンバータベースのエンコーダデコーダモデルを訓練した。
制約のないタスクでは、外部で利用可能な事前訓練されたモデルと外部データの両方を頼りにしました。
論文 参考訳(メタデータ) (2022-05-14T15:17:08Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Simple and Effective Zero-shot Cross-lingual Phoneme Recognition [46.76787843369816]
本稿では,複数言語で事前訓練されたwav2vec 2.0モデルを微調整し,未知の言語を転写することで,ゼロショット・クロスリンガル変換学習に関するこれまでの研究を拡張した。
実験によると、この単純な手法はタスク固有のアーキテクチャを導入した以前の作業よりも大幅に優れていた。
論文 参考訳(メタデータ) (2021-09-23T22:50:32Z) - Acoustics Based Intent Recognition Using Discovered Phonetic Units for
Low Resource Languages [51.0542215642794]
本稿では,検出された音素単位を意図分類に用いる新しい音響に基づく意図認識システムを提案する。
我々は,2つの言語群 – インディカル言語とロマンス言語 – に対する2つの異なる意図認識タスクの結果を提示する。
論文 参考訳(メタデータ) (2020-11-07T00:35:31Z) - Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation [63.16500026845157]
本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
論文 参考訳(メタデータ) (2020-06-09T19:34:11Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Towards Zero-shot Learning for Automatic Phonemic Transcription [82.9910512414173]
より難しい問題は、トレーニングデータをゼロにする言語のための音素変換器を構築することだ。
我々のモデルは、トレーニングデータなしで、ターゲット言語で見知らぬ音素を認識できる。
標準的な多言語モデルよりも平均して7.7%の音素誤り率を実現している。
論文 参考訳(メタデータ) (2020-02-26T20:38:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。