論文の概要: A Survey of Multilingual Models for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2202.12576v1
- Date: Fri, 25 Feb 2022 09:31:40 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-28 20:34:56.456643
- Title: A Survey of Multilingual Models for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のための多言語モデルの検討
- Authors: Hemant Yadav, Sunayana Sitaram
- Abstract要約: 言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
- 参考スコア(独自算出の注目度): 6.657361001202456
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Although Automatic Speech Recognition (ASR) systems have achieved human-like
performance for a few languages, the majority of the world's languages do not
have usable systems due to the lack of large speech datasets to train these
models. Cross-lingual transfer is an attractive solution to this problem,
because low-resource languages can potentially benefit from higher-resource
languages either through transfer learning, or being jointly trained in the
same multilingual model. The problem of cross-lingual transfer has been well
studied in ASR, however, recent advances in Self Supervised Learning are
opening up avenues for unlabeled speech data to be used in multilingual ASR
models, which can pave the way for improved performance on low-resource
languages. In this paper, we survey the state of the art in multilingual ASR
models that are built with cross-lingual transfer in mind. We present best
practices for building multilingual models from research across diverse
languages and techniques, discuss open questions and provide recommendations
for future work.
- Abstract(参考訳): 自動音声認識(asr)システムはいくつかの言語で人間ライクな性能を達成しているが、ほとんどの言語は、これらのモデルを訓練するための大きな音声データセットがないため、利用可能なシステムを持っていない。
低リソース言語は、転送学習または同じ多言語モデルで共同で訓練されることにより、高リソース言語の恩恵を受ける可能性がある。
言語間移動の問題は、ASRにおいてよく研究されているが、近年の自己監督学習の進歩は、低リソース言語の性能向上の道筋をたどる多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
本稿では,言語間移動を念頭に構築された多言語ASRモデルにおける技術の現状を調査する。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示し、オープンな質問を議論し、今後の作業に推奨する。
関連論文リスト
- A multilingual training strategy for low resource Text to Speech [5.109810774427171]
ソーシャルメディアからのデータを、小さなTSデータセット構築に利用することができるか、また、言語間移動学習がこの種のデータに有効かどうかを検討する。
そこで本稿では,対象とする低リソース言語に対するTSモデルをトレーニングするために,外国語からのデータをどのように選択し,プールするかを検討する。
以上の結果から,多言語事前学習は単言語事前学習よりも,生成した音声の明瞭さと自然性を高めることが示唆された。
論文 参考訳(メタデータ) (2024-09-02T12:53:01Z) - Towards Building an End-to-End Multilingual Automatic Lyrics Transcription Model [14.39119862985503]
利用可能なデータセットを用いた多言語ALTシステムの構築を目指している。
英語のALTに有効であることが証明されたアーキテクチャにヒントを得て,これらの手法を多言語シナリオに適用する。
単言語モデルと比較して,多言語モデルの性能を評価する。
論文 参考訳(メタデータ) (2024-06-25T15:02:32Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Transfer to a Low-Resource Language via Close Relatives: The Case Study
on Faroese [54.00582760714034]
言語間のNLP転送は、高ソース言語のデータとモデルを活用することで改善できる。
我々は、名前付きエンティティ認識(NER)、セマンティックテキスト類似性(STS)、スカンジナビア全言語で訓練された新しい言語モデルのためのFaroeseデータセットとFaroeseデータセットの新しいWebコーパスをリリースする。
論文 参考訳(メタデータ) (2023-04-18T08:42:38Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - Distilling a Pretrained Language Model to a Multilingual ASR Model [3.4012007729454816]
教師のテキストモデルに埋め込まれた豊富な知識を学生の音声モデルに蒸留する。
我々は,100時間未満の音声データを持つCommonVoiceデータセットの低リソース言語20言語に対して,本手法の優位性を示す。
論文 参考訳(メタデータ) (2022-06-25T12:36:11Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - Cross-lingual Transfer for Speech Processing using Acoustic Language
Similarity [81.51206991542242]
言語間の移動は、このデジタル分割を橋渡しする魅力的な方法を提供する。
現在の言語間アルゴリズムは、テキストベースのタスクや音声関連タスクを低リソース言語で実現している。
本稿では,数百の言語をまたがる音響的言語間移動対を効率的に同定する言語類似性手法を提案する。
論文 参考訳(メタデータ) (2021-11-02T01:55:17Z) - Exploring Teacher-Student Learning Approach for Multi-lingual
Speech-to-Intent Classification [73.5497360800395]
複数の言語をサポートするエンドツーエンドシステムを開発した。
我々は、事前訓練された多言語自然言語処理モデルからの知識を利用する。
論文 参考訳(メタデータ) (2021-09-28T04:43:11Z) - Cross-lingual Machine Reading Comprehension with Language Branch
Knowledge Distillation [105.41167108465085]
言語間機械読解(CLMRC)は、ローソース言語に大規模なデータセットがないため、依然として難しい問題である。
本稿では,Language Branch Machine Reading (LBMRC) という新しい拡張手法を提案する。
LBMRCは、個々の言語に精通したMultiple Machine Read comprehension (MRC)モデルを訓練する。
複数の言語分岐モデルから全ての対象言語に対する単一モデルへのアマルガメート知識の多言語蒸留アプローチを考案する。
論文 参考訳(メタデータ) (2020-10-27T13:12:17Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。