論文の概要: LoRA-Whisper: Parameter-Efficient and Extensible Multilingual ASR
- arxiv url: http://arxiv.org/abs/2406.06619v1
- Date: Fri, 7 Jun 2024 08:01:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 21:04:26.871751
- Title: LoRA-Whisper: Parameter-Efficient and Extensible Multilingual ASR
- Title(参考訳): LoRA-Whisper:パラメータ効率の良い拡張可能な多言語ASR
- Authors: Zheshu Song, Jianheng Zhuo, Yifan Yang, Ziyang Ma, Shixiong Zhang, Xie Chen,
- Abstract要約: 本稿では,多言語ASRのためのWhisperにLoRA行列を組み込んだLoRA-Whisperを提案する。
8言語にまたがる実世界のタスクの実験により,提案したLoRA-Whisperは,多言語ASRおよび言語拡張のためのベースラインシステムに対して,それぞれ18.5%と23.0%の相対的な利得が得られることが示された。
- 参考スコア(独自算出の注目度): 16.85491995510297
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed significant progress in multilingual automatic speech recognition (ASR), driven by the emergence of end-to-end (E2E) models and the scaling of multilingual datasets. Despite that, two main challenges persist in multilingual ASR: language interference and the incorporation of new languages without degrading the performance of the existing ones. This paper proposes LoRA-Whisper, which incorporates LoRA matrix into Whisper for multilingual ASR, effectively mitigating language interference. Furthermore, by leveraging LoRA and the similarities between languages, we can achieve better performance on new languages while upholding consistent performance on original ones. Experiments on a real-world task across eight languages demonstrate that our proposed LoRA-Whisper yields a relative gain of 18.5% and 23.0% over the baseline system for multilingual ASR and language expansion respectively.
- Abstract(参考訳): 近年、エンドツーエンド(E2E)モデルの出現と多言語データセットのスケーリングにより、多言語自動音声認識(ASR)の進歩が見られた。
それにもかかわらず、言語干渉と、既存の言語の性能を劣化させることなく、新しい言語を取り入れることという2つの大きな課題が、多言語ASRで続いている。
本稿では,多言語ASRのためのWhisperにLoRA行列を組み込んだLoRA-Whisperを提案する。
さらに、LoRAと言語間の類似性を活用して、元の言語で一貫したパフォーマンスを維持しながら、新しい言語でのより良いパフォーマンスを達成することができる。
8言語にまたがる実世界のタスクの実験により,提案したLoRA-Whisperは,多言語ASRおよび言語拡張のためのベースラインシステムに対して,それぞれ18.5%と23.0%の相対的な利得が得られることが示された。
関連論文リスト
- Language Imbalance Driven Rewarding for Multilingual Self-improving [35.1576728251478]
大規模言語モデル(LLM)は多くのタスクで最先端のパフォーマンスを達成した。
この不均衡は、より広範なアプリケーションを制限する一方で、言語間の自然な選好ランキングを生成する。
我々は、支配的言語と非支配的言語との間の固有の不均衡を報酬信号として活用する、$textitLanguage Im Balance Driven Rewarding$を提案する。
論文 参考訳(メタデータ) (2024-10-11T16:32:05Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - Enhancing Multilingual Capabilities of Large Language Models through
Self-Distillation from Resource-Rich Languages [60.162717568496355]
大規模言語モデル(LLM)は多言語コーパスで事前訓練されている。
彼らのパフォーマンスは、いくつかのリソース豊富な言語と比較して、ほとんどの言語でまだ遅れています。
論文 参考訳(メタデータ) (2024-02-19T15:07:32Z) - Multilingual DistilWhisper: Efficient Distillation of Multi-task Speech
Models via Language-Specific Experts [14.999359332108767]
表現不足言語に対するASRの性能ギャップを埋めるため、DistilWhisperを提案する。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
その結果,本手法は通常のファインチューニングやLoRAアダプタよりも効果的であることがわかった。
論文 参考訳(メタデータ) (2023-11-02T08:37:30Z) - CL-MASR: A Continual Learning Benchmark for Multilingual ASR [15.974765568276615]
連続学習環境における多言語自動音声認識のベンチマークであるCL-MASRを提案する。
CL-MASRは、大規模事前訓練されたASRモデル上に実装された多種多様な連続学習手法と共通のメトリクスを提供する。
我々の知る限り、CL-MASRは多言語ASRタスクのための最初の連続学習ベンチマークである。
論文 参考訳(メタデータ) (2023-10-25T18:55:40Z) - Adapting Multi-Lingual ASR Models for Handling Multiple Talkers [63.151811561972515]
最先端の大規模音声モデル(USM)は、複数のドメインや言語にまたがる適切な自動音声認識(ASR)性能を示す。
マルチストーカーASRに対するUSMの適応手法を提案する。
まず,マルチストーカーASRと発話タイムスタンプ予測を共同で行うシリアライズ出力訓練の強化版を開発する。
論文 参考訳(メタデータ) (2023-05-30T05:05:52Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Multilingual and code-switching ASR challenges for low resource Indian
languages [59.2906853285309]
インドの7つの言語に関連する2つのサブタスクを通じて、多言語およびコードスイッチングASRシステムの構築に重点を置いている。
これらの言語では、列車とテストセットからなる600時間分の音声データを合計で提供します。
また,マルチリンガルサブタスクとコードスイッチサブタスクのテストセットでは,それぞれ30.73%と32.45%という,タスクのベースラインレシピも提供しています。
論文 参考訳(メタデータ) (2021-04-01T03:37:01Z) - How Phonotactics Affect Multilingual and Zero-shot ASR Performance [74.70048598292583]
Transformer encoder-decoderモデルは、トレーニング中に提示された言語のIPA転写において、多言語データをうまく活用することが示されている。
我々は,エンコーダデコーダをAMとLMを分離したハイブリッドASRシステムに置き換える。
交叉音韻律のモデル化による利得は限定的であり,強すぎるモデルがゼロショット転送を損なう可能性があることを示す。
論文 参考訳(メタデータ) (2020-10-22T23:07:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。