論文の概要: MLMA: Towards Multilingual ASR With Mamba-based Architectures
- arxiv url: http://arxiv.org/abs/2510.18684v2
- Date: Thu, 23 Oct 2025 09:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:13.738048
- Title: MLMA: Towards Multilingual ASR With Mamba-based Architectures
- Title(参考訳): MLMA:Mambaベースのアーキテクチャによる多言語ASRを目指して
- Authors: Mohamed Nabih Ali, Daniele Falavigna, Alessio Brutti,
- Abstract要約: A(Multilingual Language Modeling with Mamba for ASR)を紹介する。
Mambaアーキテクチャは、ASRのための効率的な状態空間シーケンス処理である。
AはTransformerベースのアーキテクチャと比較して競争力がある。
- 参考スコア(独自算出の注目度): 15.883924147497817
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multilingual automatic speech recognition (ASR) remains a challenging task, especially when balancing performance across high- and low-resource languages. Recent advances in sequence modeling suggest that architectures beyond Transformers may offer better scalability and efficiency. In this work, we introduce MLMA (Multilingual Language Modeling with Mamba for ASR), a new approach that leverages the Mamba architecture -- an efficient state-space model optimized for long-context sequence processing -- for multilingual ASR. Using Mamba, MLMA implicitly incorporates language-aware conditioning and shared representations to support robust recognition across diverse languages. Experiments on standard multilingual benchmarks show that MLMA achieves competitive performance compared to Transformer-based architectures. These results highlight Mamba's potential as a strong backbone for scalable, efficient, and accurate multilingual speech recognition.
- Abstract(参考訳): ASR(Multilingual Automatic Speech Recognition)は、特にハイソース言語と低リソース言語のパフォーマンスのバランスをとる場合、依然として難しい課題である。
シーケンスモデリングの最近の進歩は、トランスフォーマー以外のアーキテクチャがより良いスケーラビリティと効率をもたらすことを示唆している。
本稿では,MLMA(Multilingual Language Modeling with Mamba for ASR)を紹介する。MLMAは,多言語ASRに対して,長文シーケンス処理に最適化された効率的な状態空間モデルであるMambaアーキテクチャを活用する新しいアプローチである。
Mambaを使用することで、MLMAは暗黙的に言語対応の条件付けと共有表現を導入し、多様な言語間の堅牢な認識をサポートする。
標準多言語ベンチマークの実験では、MLMAはTransformerベースのアーキテクチャと比較して競合性能を達成している。
これらの結果は、スケーラブルで効率的で正確な多言語音声認識のための強力なバックボーンとして、Mambaの可能性を浮き彫りにしている。
関連論文リスト
- TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [66.80624029365448]
本稿では,Transformer事前学習知識の再利用を容易にするクロスアーキテクチャな知識伝達パラダイムであるTransMambaを提案する。
本稿では,マンバをベースとしたモデルのトレーニングを高速化する2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - Extrapolating Large Language Models to Non-English by Aligning Languages [109.09051737966178]
既存の大きな言語モデルは、異なる言語間で異なる能力を示す。
本稿では,言語間のセマンティックアライメントを構築することで,英語以外の言語に事前学習したLLMを強化する。
論文 参考訳(メタデータ) (2023-08-09T13:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。