論文の概要: Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2505.20006v1
- Date: Mon, 26 May 2025 13:57:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-27 16:58:43.485374
- Title: Mixture of LoRA Experts for Low-Resourced Multi-Accent Automatic Speech Recognition
- Title(参考訳): 低音源マルチアクセント音声認識のためのLoRAエキスパートの混合
- Authors: Raphaël Bagat, Irina Illina, Emmanuel Vincent,
- Abstract要約: 特定のアクセントを専門とする低ランク適応(LoRA)の専門家の混合を利用した微調整手法であるMAS-LoRAを紹介する。
L2-ARCTICコーパスでWhisperを用いて行った実験は、通常のLoRAに比べて単語誤り率が大きく改善され、アクセントが不明な場合にはフル微調整が可能であった。
私たちの知る限りでは、非ネイティブなマルチアクセントASRにLoRAの専門家が混在するのはこれが初めてです。
- 参考スコア(独自算出の注目度): 15.95301904926759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We aim to improve the robustness of Automatic Speech Recognition (ASR) systems against non-native speech, particularly in low-resourced multi-accent settings. We introduce Mixture of Accent-Specific LoRAs (MAS-LoRA), a fine-tuning method that leverages a mixture of Low-Rank Adaptation (LoRA) experts, each specialized in a specific accent. This method can be used when the accent is known or unknown at inference time, without the need to fine-tune the model again. Our experiments, conducted using Whisper on the L2-ARCTIC corpus, demonstrate significant improvements in Word Error Rate compared to regular LoRA and full fine-tuning when the accent is unknown. When the accent is known, the results further improve. Furthermore, MAS-LoRA shows less catastrophic forgetting than the other fine-tuning methods. To the best of our knowledge, this is the first use of a mixture of LoRA experts for non-native multi-accent ASR.
- Abstract(参考訳): 我々は非ネイティブ音声に対する自動音声認識(ASR)システムのロバスト性を改善することを目的としており、特に低リソースマルチアセント設定において。
特定のアクセントを専門とする低ランク適応(LoRA)の専門家の混合を利用した微調整法であるMAS-LoRA(Mixture of Accent-Specific LoRAs)を紹介する。
この方法は、アクセントが推論時に未知または未知のときに使用することができ、モデルを再微調整する必要がない。
実験では,L2-ARCTICコーパス上でWhisperを用いて,通常のLoRAに比べて単語誤り率が大きく改善し,アクセントが不明な場合にはフル微調整を行った。
アクセントがわかると、その結果はさらに改善される。
さらに、MAS-LoRAは、他の微調整方法よりも破滅的な忘れ方が少ない。
私たちの知る限りでは、非ネイティブなマルチアクセントASRにLoRAの専門家が混在するのはこれが初めてです。
関連論文リスト
- LoRASculpt: Sculpting LoRA for Harmonizing General and Specialized Knowledge in Multimodal Large Language Models [61.96237184081951]
Low-Rank Adaptation (LoRA)はマルチモーダル大規模言語モデル(MLLM)における専門知識の獲得に広く利用されている。
LoRAは、視覚的インストラクションチューニング中にかなり有害な冗長性を導入し、一般的な知識の忘れを悪化させ、下流のタスク性能を低下させる。
有害な冗長パラメータを排除し,一般知識と専門知識の調和を図るため,LoRASculptを提案する。
論文 参考訳(メタデータ) (2025-03-21T04:31:09Z) - Enhancing AAC Software for Dysarthric Speakers in e-Health Settings: An Evaluation Using TORGO [0.13108652488669734]
脳性麻痺 (CP) と筋萎縮性側索硬化症 (ALS) の患者は, 関節症に悩まされ, 変形性関節症, 非典型的発声パターンを呈する。
我々は、Whisper や Wav2vec2.0 のような最先端の音声認識(SOTA)技術が、訓練データがないために非定型話者を疎外することがわかった。
我々の研究は、SOTA ASRとドメイン固有のエラー訂正を活用することを目指している。
論文 参考訳(メタデータ) (2024-11-01T19:11:54Z) - Learning Attentional Mixture of LoRAs for Language Model Continual Learning [5.405488709294211]
Low-Rank Adaption (LoRA) を用いた細調整型大規模言語モデル (LLM) は,新しいタスクに対する継続的な学習に有効なアプローチとして広く認められている。
LLMに適した連続学習手法であるLoRA(Attentional Mixture of LoRAs, AM-LoRA)を提案する。
論文 参考訳(メタデータ) (2024-09-29T08:34:54Z) - Mixture-of-Subspaces in Low-Rank Adaptation [19.364393031148236]
計算効率が高く,実装が容易で,大規模言語,マルチモーダル,拡散モデルにも容易に適用可能なサブスペースインスパイアされたローランド適応法(LoRA)を提案する。
より柔軟にするために、元のLoRA重みとミキサーを併用して学習し、Mixture-of-Subspaces LoRAと呼ぶ。
MoSLoRAは、コモンセンス推論、ビジュアルインストラクションチューニング、主観駆動のテキスト・ツー・イメージ生成など、異なるモードのタスクでLoRAを一貫して上回っている。
論文 参考訳(メタデータ) (2024-06-16T14:19:49Z) - DoRA: Weight-Decomposed Low-Rank Adaptation [57.68678247436207]
本稿では,FTとLoRAの相違点を明らかにするために,新しい重み分解解析法を提案する。
本研究は、FTの学習能力に類似することを目的として、重量分解低ランク適応(DoRA)を提案する。
DoRAは、事前訓練された重量を、微調整のための大きさと方向の2つの構成要素に分解する。
論文 参考訳(メタデータ) (2024-02-14T17:59:34Z) - SiRA: Sparse Mixture of Low Rank Adaptation [63.926732717719354]
我々は「スパース」計算を活用することの重要性について検討し、低ランクのスパース混合SiRAを提案する。
具体的には、各専門家が処理できるトークンの最大数を制限するキャパシティ制限付きの、トップ$k$のエキスパートルーティングを強制する。
論文 参考訳(メタデータ) (2023-11-15T18:15:37Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Multi-task Language Modeling for Improving Speech Recognition of Rare
Words [14.745696312889763]
音声認識性能を向上させるために,意図やスロット予測などのセマンティックターゲットを利用するマルチタスク学習を用いた第2パスシステムを提案する。
マルチタスク LM を用いた ASR システムは,レアワード認識のための RNN Transducer のみの ASR ベースラインと比較して,4.6% の WERR 推論を示す。
論文 参考訳(メタデータ) (2020-11-23T20:40:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。