論文の概要: Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation
- arxiv url: http://arxiv.org/abs/2006.05474v2
- Date: Fri, 9 Oct 2020 04:07:38 GMT
- ステータス: 処理完了
- システム内更新日: 2022-11-23 15:19:51.117639
- Title: Improving Cross-Lingual Transfer Learning for End-to-End Speech
Recognition with Speech Translation
- Title(参考訳): 音声翻訳によるエンドツーエンド音声認識における言語間変換学習の改善
- Authors: Changhan Wang, Juan Pino, Jiatao Gu
- Abstract要約: 本稿では,対象言語に関する追加知識を組み込む補助課題として,音声からテキストへの翻訳を導入する。
人間の翻訳によるSTの訓練は必要ないことを示す。
低リソースMT(200K例)の擬似ラベルであっても、ST強化転送は直接転送に対して最大8.9%のWER還元をもたらす。
- 参考スコア(独自算出の注目度): 63.16500026845157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transfer learning from high-resource languages is known to be an efficient
way to improve end-to-end automatic speech recognition (ASR) for low-resource
languages. Pre-trained or jointly trained encoder-decoder models, however, do
not share the language modeling (decoder) for the same language, which is
likely to be inefficient for distant target languages. We introduce
speech-to-text translation (ST) as an auxiliary task to incorporate additional
knowledge of the target language and enable transferring from that target
language. Specifically, we first translate high-resource ASR transcripts into a
target low-resource language, with which a ST model is trained. Both ST and
target ASR share the same attention-based encoder-decoder architecture and
vocabulary. The former task then provides a fully pre-trained model for the
latter, bringing up to 24.6% word error rate (WER) reduction to the baseline
(direct transfer from high-resource ASR). We show that training ST with human
translations is not necessary. ST trained with machine translation (MT)
pseudo-labels brings consistent gains. It can even outperform those using human
labels when transferred to target ASR by leveraging only 500K MT examples. Even
with pseudo-labels from low-resource MT (200K examples), ST-enhanced transfer
brings up to 8.9% WER reduction to direct transfer.
- Abstract(参考訳): 高リソース言語からの伝達学習は、低リソース言語のためのエンドツーエンド自動音声認識(ASR)を改善する効率的な方法として知られている。
しかし、訓練済みまたは共同で訓練されたエンコーダ-デコーダモデルは、同じ言語のための言語モデリング(デコーダ)を共有していない。
本稿では,目的言語に関する追加知識を取り入れ,その対象言語からの変換を可能にする補助タスクとして,音声からテキストへの翻訳(st)を導入する。
具体的には、まず高出力のASR文字をターゲットとする低リソース言語に翻訳し、STモデルを訓練する。
STとターゲットASRは同じアテンションベースのエンコーダデコーダアーキテクチャと語彙を共有している。
前者のタスクは後者に対して完全に事前訓練されたモデルを提供し、24.6%のワードエラー率(WER)をベースライン(高リソースのASRからの直接転送)に還元する。
人間の翻訳によるSTの訓練は必要ないことを示す。
機械翻訳(MT)で訓練されたSTは、一貫した利得をもたらす。
ターゲットのASRに転送される場合、500K MTのサンプルのみを活用することで、人間のラベルを使用する場合よりもパフォーマンスが向上する。
低リソースmt(200k例)からの擬似ラベルであっても、st-enhanced transferは8.9%の直接転送削減をもたらす。
関連論文リスト
- Self-Augmentation Improves Zero-Shot Cross-Lingual Transfer [92.80671770992572]
言語間移動は多言語NLPにおける中心的なタスクである。
このタスクの以前の作業では、並列コーパス、バイリンガル辞書、その他の注釈付きアライメントデータを使用していた。
ゼロショットの言語間移動を改善するため, 単純で効果的なSALT法を提案する。
論文 参考訳(メタデータ) (2023-09-19T19:30:56Z) - Learning Cross-lingual Mappings for Data Augmentation to Improve
Low-Resource Speech Recognition [31.575930914290762]
言語間リソースの爆発は、低リソース言語のデータの不足を補う効果的な方法である。
エンドツーエンド音声認識のための学習可能な言語間マッピングの概念を拡張した。
その結果,任意のソース言語 ASR モデルを用いて,低リソースターゲット言語認識を行うことが可能であることが示唆された。
論文 参考訳(メタデータ) (2023-06-14T15:24:31Z) - Strategies for improving low resource speech to text translation relying
on pre-trained ASR models [59.90106959717875]
本稿では,テキスト翻訳(ST)における低音源音声の性能向上のための技術と知見について述べる。
本研究は,英語とポルトガル語,タマシェク語とフランス語の2つの言語対について,シミュレーションおよび実低資源設定について実験を行った。
論文 参考訳(メタデータ) (2023-05-31T21:58:07Z) - Cross-lingual Knowledge Transfer and Iterative Pseudo-labeling for
Low-Resource Speech Recognition with Transducers [6.017182111335404]
言語間知識伝達と反復的擬似ラベル化は、ASRシステムの精度向上に成功していることを示す2つの手法である。
そこで本研究では,ハイブリッドシステムで作成したテキストを用いてトレーニングしたTransducerシステムが,単語誤り率の18%の削減を実現していることを示す。
論文 参考訳(メタデータ) (2023-05-23T03:50:35Z) - Back Translation for Speech-to-text Translation Without Transcripts [11.13240570688547]
単言語対象データから擬似STデータを合成するためのST(BT4ST)の逆変換アルゴリズムを開発した。
短時間から長期にわたる生成と一対一のマッピングによる課題を解消するため,自己管理型離散単位を導入した。
合成STデータを用いて、MuST-C En-De、En-Fr、En-Esデータセット上で平均2.3BLEUを達成する。
論文 参考訳(メタデータ) (2023-05-15T15:12:40Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Parameter-Efficient Neural Reranking for Cross-Lingual and Multilingual
Retrieval [66.69799641522133]
最先端のニューラルランカーは、お腹が空いていることで悪名高い。
現在のアプローチでは、英語データに基づいて訓練されたローダを、多言語エンコーダを用いて他の言語や言語間設定に転送するのが一般的である。
本研究では,Sparse Fine-Tuning Masks (SFTMs) とAdapters (Adapters) の2つのパラメータ効率のアプローチにより,より軽量で効果的なゼロショット転送が可能となることを示す。
論文 参考訳(メタデータ) (2022-04-05T15:44:27Z) - Semi-supervised transfer learning for language expansion of end-to-end
speech recognition models to low-resource languages [19.44975351652865]
低音源言語における音声認識精度向上のための3段階学習手法を提案する。
我々は、翻訳学習、TS拡張、SSLを用いて、よく訓練された英語モデル、ラベルなしテキストコーパス、ラベルなしオーディオコーパスを利用する。
第1パスにおけるモノトニック・チャンクワイド・アテンション(MoA)を用いた2パス音声認識システムでは,ベースラインに対するWERの42%削減を実現している。
論文 参考訳(メタデータ) (2021-11-19T05:09:16Z) - From Zero to Hero: On the Limitations of Zero-Shot Cross-Lingual
Transfer with Multilingual Transformers [62.637055980148816]
言語モデリングの目的によって事前訓練された多言語トランスフォーマーは、NLPの事実上のデフォルト転送パラダイムとなっている。
膨大な多言語変換器による言語間変換は,リソースリーンシナリオや遠方言語では著しく効果が低いことを示す。
論文 参考訳(メタデータ) (2020-05-01T22:04:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。