論文の概要: CL-MASR: A Continual Learning Benchmark for Multilingual ASR
- arxiv url: http://arxiv.org/abs/2310.16931v1
- Date: Wed, 25 Oct 2023 18:55:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-27 23:45:25.557534
- Title: CL-MASR: A Continual Learning Benchmark for Multilingual ASR
- Title(参考訳): CL-MASR:多言語ASRの連続学習ベンチマーク
- Authors: Luca Della Libera, Pooneh Mousavi, Salah Zaiem, Cem Subakan, Mirco
Ravanelli
- Abstract要約: 連続学習環境における多言語自動音声認識のベンチマークであるCL-MASRを提案する。
CL-MASRは、大規模事前訓練されたASRモデル上に実装された多種多様な連続学習手法と共通のメトリクスを提供する。
我々の知る限り、CL-MASRは多言語ASRタスクのための最初の連続学習ベンチマークである。
- 参考スコア(独自算出の注目度): 15.974765568276615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Modern multilingual automatic speech recognition (ASR) systems like Whisper
have made it possible to transcribe audio in multiple languages with a single
model. However, current state-of-the-art ASR models are typically evaluated on
individual languages or in a multi-task setting, overlooking the challenge of
continually learning new languages. There is insufficient research on how to
add new languages without losing valuable information from previous data.
Furthermore, existing continual learning benchmarks focus mostly on vision and
language tasks, leaving continual learning for multilingual ASR largely
unexplored. To bridge this gap, we propose CL-MASR, a benchmark designed for
studying multilingual ASR in a continual learning setting. CL-MASR provides a
diverse set of continual learning methods implemented on top of large-scale
pretrained ASR models, along with common metrics to assess the effectiveness of
learning new languages while addressing the issue of catastrophic forgetting.
To the best of our knowledge, CL-MASR is the first continual learning benchmark
for the multilingual ASR task. The code is available at
https://github.com/speechbrain/benchmarks.
- Abstract(参考訳): 現代の多言語自動音声認識(asr)システムでは、単一のモデルで複数の言語で音声を書き起こせるようになった。
しかし、現在の最先端のASRモデルは通常、個々の言語やマルチタスク設定で評価され、新しい言語を継続的に学習するという課題を見越す。
以前のデータから貴重な情報を失うことなく、新しい言語を追加する方法に関する研究が不十分である。
さらに、既存の連続学習ベンチマークは、主に視覚と言語タスクに焦点を当てており、多言語ASRに対する連続学習はほとんど探索されていない。
このギャップを埋めるために,多言語ASRを連続学習環境で研究するためのベンチマークであるCL-MASRを提案する。
cl-masrは、大規模な事前学習されたasrモデル上に実装された多様な連続学習方法と、新しい言語を学習することの有効性を評価するための一般的なメトリクスを提供する。
我々の知る限り、CL-MASRは多言語ASRタスクのための最初の連続学習ベンチマークである。
コードはhttps://github.com/speechbrain/benchmarksで入手できる。
関連論文リスト
- Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - Learning ASR pathways: A sparse multilingual ASR model [31.147484652643282]
ASR経路は、言語固有のサブネットワーク(パス)を活性化するスパース多言語ASRモデルである。
重なり合うサブネットワークにより、共有パラメータは、共同でマルチリンガルトレーニングをすることで、低リソース言語への知識伝達を可能にする。
提案したASR経路は,高密度モデルと言語に依存しないプルーニングモデルの両方より優れ,低リソース言語の性能向上を実現している。
論文 参考訳(メタデータ) (2022-09-13T05:14:08Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Adaptive Activation Network For Low Resource Multilingual Speech
Recognition [30.460501537763736]
ASRモデルの上位層に適応的アクティベーションネットワークを導入する。
また,(1)クロス言語学習,(2)アクティベーション関数をソース言語からターゲット言語に置き換える,(2)多言語学習という2つの手法を提案する。
IARPA Babelデータセットに関する実験により、我々のアプローチは、オフスクラッチトレーニングや従来のボトルネック機能に基づく手法よりも優れていることを示した。
論文 参考訳(メタデータ) (2022-05-28T04:02:59Z) - A Survey of Multilingual Models for Automatic Speech Recognition [6.657361001202456]
言語間移動は多言語自動音声認識の課題に対する魅力的な解法である。
自己監督学習の最近の進歩は、多言語ASRモデルで使用されるラベルなし音声データへの道を開いた。
多様な言語や技術の研究から多言語モデルを構築するためのベストプラクティスを提示する。
論文 参考訳(メタデータ) (2022-02-25T09:31:40Z) - IGLUE: A Benchmark for Transfer Learning across Modalities, Tasks, and
Languages [87.5457337866383]
画像認識言語理解評価ベンチマークについて紹介する。
IGLUEは、視覚的質問応答、クロスモーダル検索、グラウンドド推論、20言語にわたるグラウンドドエンターテイメントタスクをまとめて提供する。
翻訳-テストの転送はゼロショットの転送よりも優れており、少数ショットの学習は多くのタスクに役立てることが難しい。
論文 参考訳(メタデータ) (2022-01-27T18:53:22Z) - Discovering Phonetic Inventories with Crosslingual Automatic Speech
Recognition [71.49308685090324]
本稿では,未知言語における音声認識における異なる要因(モデルアーキテクチャ,音韻モデル,音声表現の種類)の影響について検討する。
独特な音、類似した音、トーン言語は、音声による在庫発見の大きな課題である。
論文 参考訳(メタデータ) (2022-01-26T22:12:55Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - That Sounds Familiar: an Analysis of Phonetic Representations Transfer
Across Languages [72.9927937955371]
我々は、他言語に存在するリソースを用いて、多言語自動音声認識モデルを訓練する。
我々は,多言語設定における全言語間での大幅な改善と,多言語設定におけるスターク劣化を観察した。
分析の結果、ひとつの言語に固有の電話でさえ、他の言語からのトレーニングデータを追加することで大きなメリットがあることがわかった。
論文 参考訳(メタデータ) (2020-05-16T22:28:09Z) - Meta-Transfer Learning for Code-Switched Speech Recognition [72.84247387728999]
低リソース環境下でのコード切替音声認識システムにおける学習を伝達するメタトランスファー学習法を提案する。
本モデルでは,コードスイッチングデータに最適化を条件付けることにより,個々の言語を識別し,混合言語音声をよりよく認識できるように変換する。
論文 参考訳(メタデータ) (2020-04-29T14:27:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。