論文の概要: Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition
- arxiv url: http://arxiv.org/abs/2603.17558v1
- Date: Wed, 18 Mar 2026 10:04:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.634347
- Title: Zipper-LoRA: Dynamic Parameter Decoupling for Speech-LLM based Multilingual Speech Recognition
- Title(参考訳): Zipper-LoRA:音声LLMに基づく多言語音声認識のための動的パラメータ分離
- Authors: Yuxiang Mei, Delai Qiu, Shengping Liu, Jiaen Liang, Yanhua Long,
- Abstract要約: 音声大言語モデル(Speech-LLMs)は,音声エンコーダを大規模言語モデルに整合させることにより,音声認識(ASR)のための強力なアプローチとして登場した。
Zipper-LoRAは3つの変種を持つランクレベルのデカップリングフレームワークで、共有および言語固有のサブスペースからLoRA更新を動的に合成する。
- 参考スコア(独自算出の注目度): 17.54059569452676
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Speech Large Language Models (Speech-LLMs) have emerged as a powerful approach for automatic speech recognition (ASR) by aligning speech encoders with large language models. However, adapting these systems to multilingual settings with imbalanced data distributions remains challenging. In such scenarios, a stability-plasticity dilemma often arises: fully shared Parameter-Efficient Fine-Tuning (PEFT) can cause negative inter-lingual interference for under-represented languages, while fully language-specific tuning limits the cross-lingual beneficial knowledge transfer needed for low-resource tasks. To address this, we propose Zipper-LoRA, a novel rank-level decoupling framework with three variants (Static, Hard, and Soft) that dynamically synthesizes LoRA updates from shared and language-specific subspaces. By using a lightweight language-conditioned router, Zipper-LoRA dynamically controls the contribution of each subspace at the LoRA rank level, enabling fine-grained sharing where languages are compatible and strict decoupling when conflicts occur. To further stabilize optimization under imbalanced data, we propose a two-stage training strategy with an Initial-B warm start that significantly accelerates convergence. Experiments on a 12-language mixed-resource setting show that Zipper-LoRA consistently outperforms both fully shared and independent baselines, particularly in extremely low-resource scenarios. Moreover, we demonstrate that these gains are robust across both chunked and non-chunked encoder configurations, confirming the framework's reliability for practical, large-scale multilingual ASR. Our code and data will be available at https://github.com/YuCeong-May/Zipper-LoRA for reproducibility.
- Abstract(参考訳): 音声大言語モデル(Speech-LLMs)は,音声エンコーダを大規模言語モデルに整合させることにより,音声認識(ASR)のための強力なアプローチとして登場した。
しかし、これらのシステムを不均衡なデータ分散を伴う多言語設定に適応させることは依然として困難である。
完全に共有されたパラメータ効率の良いファインチューニング(PEFT)は、非表現言語に対して負の言語間干渉を引き起こすが、完全に言語固有のチューニングは、低リソースタスクに必要な言語間有益な知識伝達を制限する。
これを解決するためにZipper-LoRAを提案する。これは3つの変種(Static, Hard, Soft)を持つ新しいランクレベルのデカップリングフレームワークで、共有および言語固有のサブ空間からLoRA更新を動的に合成する。
軽量な言語条件のルータを使用することで、Zipper-LoRAはLoRAランクレベルで各サブスペースのコントリビューションを動的に制御し、言語が互換性があり、競合が発生した時に厳密な疎結合を可能にする。
不均衡なデータ下での最適化をさらに安定化するために, 収束を著しく加速する初期Bウォームスタートを用いた2段階のトレーニング戦略を提案する。
12言語による混合リソース設定の実験では、Zipper-LoRAは、特に極低リソースのシナリオにおいて、完全に共有されたベースラインと独立したベースラインの両方を一貫して上回っている。
さらに、これらのゲインがチャンク化および非チャンク化エンコーダ構成の両方で堅牢であることを示し、実用的な大規模多言語ASRに対するフレームワークの信頼性を確認した。
私たちのコードとデータは再現性のためにhttps://github.com/YuCeong-May/Zipper-LoRAで公開されます。
関連論文リスト
- MiLorE-SSL: Scaling Multilingual Capabilities in Self-Supervised Models without Forgetting [69.6938830307759]
MiLorE-SSLは、LoRAモジュールとソフトミキシング・オブ・エキスパート・メカニズムを組み合わせて、効率的な連続多言語トレーニングを行う軽量フレームワークである。
LoRAは効率的な低ランク適応を提供するが、ソフトなMoEは言語間のフレキシブルな専門家共有を促進し、言語間の干渉を減らす。
ML-SUPERBの実験では、MiLorE-SSLは新しい言語で高いパフォーマンスを実現し、2.14%のトレーニング可能なパラメータで既存の言語での性能を向上させることが示されている。
論文 参考訳(メタデータ) (2026-01-28T06:48:52Z) - Language Family Matters: Evaluating LLM-Based ASR Across Linguistic Boundaries [5.770962296305264]
大言語モデル (LLM) を利用した自動音声認識 (ASR) システムは限られた資源で高い性能を達成する。
本稿では,言語家族のメンバーシップに基づく,効率的で斬新なコネクタ共有戦略を提案する。
論文 参考訳(メタデータ) (2026-01-26T19:11:03Z) - A Language-Agnostic Hierarchical LoRA-MoE Architecture for CTC-based Multilingual ASR [15.703835740288504]
Whisper のような大規模多言語 ASR (mASR) モデルは高い性能を実現するが、高い計算コストと遅延コストがかかる。
ドメイン適応型CTCアーキテクチャに基づく,軽量かつ言語に依存しない多言語ASRシステムを提案する。
論文 参考訳(メタデータ) (2026-01-02T04:08:39Z) - SFMS-ALR: Script-First Multilingual Speech Synthesis with Adaptive Locale Resolution [0.0]
文内多言語音声合成 (code-switching TTS) は、急激な言語シフト、様々なスクリプト、言語間の不一致の韻律による大きな課題である。
本稿では,適応的局所分解を用いたスクリプトファースト多言語合成(SFMS-ALR)を提案する。
論文 参考訳(メタデータ) (2025-10-27T21:39:07Z) - LiRA: Linguistic Robust Anchoring for Cross-lingual Large Language Models [16.504397960476584]
LiRA(Linguistic Robust Anchoring for Large Language Models)は、低リソース条件下での言語間表現を改善するトレーニングフレームワークである。
東南アジア5言語と東南アジア2言語を対象とした多言語製品検索データセットを作成した。
論文 参考訳(メタデータ) (2025-10-16T09:08:24Z) - Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。
LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。
実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文 参考訳(メタデータ) (2025-06-11T07:06:27Z) - MSA-ASR: Efficient Multilingual Speaker Attribution with frozen ASR Models [59.80042864360884]
話者分布自動音声認識(SA-ASR)は,対応する話者に文字を正確に割り当てながら音声を転写することを目的としている。
本稿では,凍結した多言語ASRモデルを用いて話者属性を転写に組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-27T09:01:08Z) - Efficient Compression of Multitask Multilingual Speech Models [0.0]
DistilWhisperは、マルチタスクとマルチ言語機能の利点を維持しながら、これらの言語におけるASRのパフォーマンスギャップを埋めることができる。
提案手法は, 言語専門家を用いた軽量モジュール型ASR微調整と, ささやかな大口径v2からの知識蒸留の2つの戦略を含む。
論文 参考訳(メタデータ) (2024-05-02T03:11:59Z) - Low-Rank Adaptation for Multilingual Summarization: An Empirical Study [60.541168233698194]
私たちはその可能性を調査する。
多言語要約領域におけるローランド適応(LoRA)に着目した効率的なファインチューニング
ハイデータやローデータの設定、言語間転送など、さまざまなデータ可用性シナリオに関する広範な調査を行います。
以上の結果から,LoRAは大量のデータでトレーニングされた場合の完全な微調整と競合し,低データシナリオや言語間転送に優れることがわかった。
論文 参考訳(メタデータ) (2023-11-14T22:32:39Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。