論文の概要: A Language-Agnostic Hierarchical LoRA-MoE Architecture for CTC-based Multilingual ASR
- arxiv url: http://arxiv.org/abs/2601.00557v1
- Date: Fri, 02 Jan 2026 04:08:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-05 15:04:33.5146
- Title: A Language-Agnostic Hierarchical LoRA-MoE Architecture for CTC-based Multilingual ASR
- Title(参考訳): CTCに基づく多言語ASRのための言語に依存しない階層型LoRA-MoEアーキテクチャ
- Authors: Yuang Zheng, Yuxiang Mei, Dongxing Xu, Jie Chen, Yanhua Long,
- Abstract要約: Whisper のような大規模多言語 ASR (mASR) モデルは高い性能を実現するが、高い計算コストと遅延コストがかかる。
ドメイン適応型CTCアーキテクチャに基づく,軽量かつ言語に依存しない多言語ASRシステムを提案する。
- 参考スコア(独自算出の注目度): 15.703835740288504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large-scale multilingual ASR (mASR) models such as Whisper achieve strong performance but incur high computational and latency costs, limiting their deployment on resource-constrained edge devices. In this study, we propose a lightweight and language-agnostic multilingual ASR system based on a CTC architecture with domain adaptation. Specifically, we introduce a Language-agnostic Hierarchical LoRA-MoE (HLoRA) framework integrated into an mHuBERT-CTC model, enabling end-to-end decoding via LID-posterior-driven LoRA routing. The hierarchical design consists of a multilingual shared LoRA for learning language-invariant acoustic representations and language-specific LoRA experts for modeling language-dependent characteristics. The proposed routing mechanism removes the need for prior language identity information or explicit language labels during inference, achieving true language-agnostic decoding. Experiments on MSR-86K and the MLC-SLM 2025 Challenge datasets demonstrate that HLoRA achieves competitive performance with state-of-the-art two-stage inference methods using only single-pass decoding, significantly improving decoding efficiency for low-resource mASR applications.
- Abstract(参考訳): Whisper のような大規模多言語 ASR (mASR) モデルは、強力なパフォーマンスを実現するが、高い計算コストと遅延コストを伴い、リソース制約のあるエッジデバイスへの展開を制限している。
本研究では,ドメイン適応型CTCアーキテクチャに基づく,軽量かつ言語に依存しない多言語ASRシステムを提案する。
具体的には,言語に依存しない階層型LoRA-MoE(HLoRA)フレームワークをmHuBERT-CTCモデルに統合し,LID-posterior-driven LoRAルーティングによるエンドツーエンドデコーディングを実現する。
階層設計は言語不変音響表現を学習するための多言語共有LoRAと言語依存特性をモデル化するための言語固有のLoRA専門家で構成されている。
提案したルーティング機構は、推論中に事前の言語識別情報や明示的な言語ラベルの必要性を排除し、真の言語に依存しないデコーディングを実現する。
MSR-86KとLC-SLM 2025 Challengeデータセットの実験により、HLoRAはシングルパスデコードのみを用いた最先端の2段階推論手法と競合し、低リソースのmASRアプリケーションのデコード効率を大幅に向上することを示した。
関連論文リスト
- LiRA: Linguistic Robust Anchoring for Cross-lingual Large Language Models [16.504397960476584]
LiRA(Linguistic Robust Anchoring for Large Language Models)は、低リソース条件下での言語間表現を改善するトレーニングフレームワークである。
東南アジア5言語と東南アジア2言語を対象とした多言語製品検索データセットを作成した。
論文 参考訳(メタデータ) (2025-10-16T09:08:24Z) - Efficient Multilingual ASR Finetuning via LoRA Language Experts [59.27778147311189]
本稿では,WhisperをベースとしたLoRA言語エキスパートによる多言語ASRをカスタマイズするための効率的な微調整フレームワークを提案する。
LoRAエキスパート融合や知識蒸留により,本手法は従来の微調整法よりも目標言語での認識性能が向上する。
実験の結果,提案モデルでは,言語認識および言語認識のシナリオにおいて,約10%と15%の性能向上が得られた。
論文 参考訳(メタデータ) (2025-06-11T07:06:27Z) - LUSIFER: Language Universal Space Integration for Enhanced Multilingual Embeddings with Large Language Models [89.13128402847943]
LUSIFERは,LLMをベースとした多言語タスクの埋め込みモデルに,多言語監視を必要とせずに適用可能なゼロショット方式である。
LUSIFERのアーキテクチャは多言語エンコーダを組み、言語ユニバーサル学習者として機能し、埋め込み固有のタスクに最適化されたLLMベースの埋め込みモデルと組み合わせている。
5つの主要な埋め込みタスク、123の多様なデータセット、14言語にわたるカバレッジを含む新しいベンチマークを導入する。
論文 参考訳(メタデータ) (2025-01-01T15:43:07Z) - Efficient Spoken Language Recognition via Multilabel Classification [53.662747523872305]
我々のモデルは,現在の最先端手法よりも桁違いに小さく,高速でありながら,競争力のある結果が得られることを示す。
我々のマルチラベル戦略は、マルチクラス分類よりも非ターゲット言語の方が堅牢である。
論文 参考訳(メタデータ) (2023-06-02T23:04:19Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - LAE: Language-Aware Encoder for Monolingual and Multilingual ASR [87.74794847245536]
言語固有の情報を混在させることにより,両状況に対処する新しい言語対応エンコーダ (LAE) アーキテクチャを提案する。
マンダリン・イングリッシュ・コードスウィッチ音声を用いた実験により,LAEはフレームレベルで異なる言語を識別できることが示唆された。
論文 参考訳(メタデータ) (2022-06-05T04:03:12Z) - Evaluating Multilingual Text Encoders for Unsupervised Cross-Lingual
Retrieval [51.60862829942932]
本稿では,言語間文書・文検索タスクにおける最先端多言語エンコーダの適合性に着目した体系的実証研究を行う。
文レベルのCLIRでは、最先端のパフォーマンスが達成できることを実証する。
しかし、ピーク性能は、汎用の多言語テキストエンコーダをオフ・ザ・シェルフで使うのではなく、文の理解タスクにさらに特化したバリエーションに依存している。
論文 参考訳(メタデータ) (2021-01-21T00:15:38Z) - Streaming End-to-End Bilingual ASR Systems with Joint Language
Identification [19.09014345299161]
本稿では,ASRと言語識別の両方を実行するストリーミング,エンドツーエンド,バイリンガルシステムを提案する。
提案手法は、アメリカ合衆国で話される英語とスペイン語、インドで話される英語とヒンディー語という2つの言語対に適用される。
論文 参考訳(メタデータ) (2020-07-08T05:00:25Z) - Streaming Language Identification using Combination of Acoustic
Representations and ASR Hypotheses [13.976935216584298]
多言語音声認識の一般的なアプローチは、複数の単言語ASRシステムを並列に実行することである。
本研究では,音響レベルの表現とASR仮説に基づく埋め込みを学習し,組み合わせる手法を提案する。
処理コストとレイテンシを低減するため,我々はストリーミングアーキテクチャを利用して音声言語を早期に識別する。
論文 参考訳(メタデータ) (2020-06-01T04:08:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。