論文の概要: Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR
- arxiv url: http://arxiv.org/abs/2603.16184v1
- Date: Tue, 17 Mar 2026 07:09:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.13986
- Title: Polyglot-Lion: Efficient Multilingual ASR for Singapore via Balanced Fine-Tuning of Qwen3-ASR
- Title(参考訳): Polyglot-Lion:Qwen3-ASRのバランスきめ細調整によるシンガポールのための効率的な多言語ASR
- Authors: Quy-Anh Dang, Chris Ngo,
- Abstract要約: 本稿ではシンガポールの言語景観に合わせたコンパクトな多言語自動音声認識(ASR)モデルであるPolyglot-Lionを紹介する。
提案手法は,Qwen3-ASR-0.6BとQwen3-ASR-1.7Bを公開音声コーパスのみに微調整することで得られる。
4つの言語にまたがる12のベンチマークで、Polyglot-Lion-1.7Bは平均エラーレート14.85に達し、MERaLiON-2-10B-ASR (14.32)と競合する。
推論スループットはMERaLiONの0.10 s/sampleより約20倍速い
- 参考スコア(独自算出の注目度): 1.7802147489386628
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Polyglot-Lion, a family of compact multilingual automatic speech recognition (ASR) models tailored for the linguistic landscape of Singapore, covering English, Mandarin, Tamil, and Malay. Our models are obtained by fine-tuning Qwen3-ASR-0.6B and Qwen3-ASR-1.7B exclusively on publicly available speech corpora, using a balanced sampling strategy that equalizes the number of training utterances per language and deliberately omits language-tag conditioning so that the model learns to identify languages implicitly from audio. On 12 benchmarks spanning the four target languages, Polyglot-Lion-1.7B achieves an average error rate of 14.85, competitive with MERaLiON-2-10B-ASR (14.32) - a model 6x larger - while incurring a training cost of \$81 on a single RTX PRO 6000 GPU compared to \$18,862 for the 128-GPU baseline. Inference throughput is approximately 20x faster than MERaLiON at 0.10 s/sample versus 2.02 s/sample. These results demonstrate that linguistically balanced fine-tuning of moderate-scale pretrained models can yield deployment-ready multilingual ASR at a fraction of the cost of larger specialist systems.
- Abstract(参考訳): 本稿では,シンガポールの言語景観に適した,コンパクトな多言語自動音声認識(ASR)モデルであるPolyglot-Lionについて紹介する。
我々のモデルは、Qwen3-ASR-0.6BとQwen3-ASR-1.7Bを公用音声コーパスのみに微調整することで得られる。
4つのターゲット言語にまたがる12のベンチマークでは、Polyglot-Lion-1.7Bは平均エラーレート14.85で、MeRaLiON-2-10B-ASR (14.32)と競合する。
推論スループットはMERaLiONの0.10 s/sampleと2.02 s/sampleの約20倍高速である。
これらの結果は、中規模事前訓練モデルの言語的にバランスの取れた微調整により、より大きな専門システムのコストのごく一部で、展開可能な多言語ASRが得られることを示している。
関連論文リスト
- Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - Flavors of Moonshine: Tiny Specialized ASR Models for Edge Devices [1.4625828590961276]
そこで本研究では,未表現言語に特化している小型自動音声認識(ASR)モデルについて述べる。
私たちは、パーミッシブなオープンソースライセンスの下で、アラビア語、中国語、日本語、韓国語、ウクライナ語、ベトナム語モデルをリリースします。
論文 参考訳(メタデータ) (2025-09-02T17:22:54Z) - Efficient Adaptation of Multilingual Models for Japanese ASR [0.0]
本研究では,多言語ASR(Automatic Speech Recognition)モデル,特にOpenAIのWhisper-Tinyを用いて,日本語のパフォーマンス向上について検討する。
日本語固有のデータセットとローランド適応(LoRA)とエンドツーエンド(E2E)トレーニングを使用して、Whisper-Tinyを微調整して、このギャップを埋めた。
その結果,Whisper-Tiny のキャラクタエラーレート (CER) は LoRA では 32.7 から 20.8 に減少し,エンドツーエンドのファインチューニングでは 14.7 に低下し,Whisper-Base の CER は 20。
論文 参考訳(メタデータ) (2024-12-14T06:32:16Z) - Breaking Language Barriers in Multilingual Mathematical Reasoning: Insights and Observations [59.056367787688146]
本稿では, マルチリンガル数学推論 (xMR) LLM の探索と学習の先駆者である。
我々は10の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
翻訳を利用して、10個の異なる言語を含む最初の多言語数学推論命令データセットMGSM8KInstructを構築した。
論文 参考訳(メタデータ) (2023-10-31T08:09:20Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Few-shot Learning with Multilingual Language Models [66.49496434282564]
多様な言語群をカバーするバランスの取れたコーパス上で,多言語の自動回帰言語モデルを訓練する。
私たちの最大のモデルは、20以上の代表言語で数ショットの学習において、新しい最先端の技術を定めています。
本稿では,モデルがどこで成功し,失敗するかを詳細に分析し,特に言語間の文脈内学習を可能にすることを示す。
論文 参考訳(メタデータ) (2021-12-20T16:52:35Z) - XLS-R: Self-supervised Cross-lingual Speech Representation Learning at
Scale [48.0390317915984]
XLS-Rはwav2vec 2.0に基づく言語間音声表現学習のための大規模モデルである。
128の言語で50万時間近く、最大2Bパラメータを持つモデルをトレーニングします。
論文 参考訳(メタデータ) (2021-11-17T18:49:42Z) - Unsupervised Cross-lingual Representation Learning for Speech
Recognition [63.85924123692923]
XLSRは、複数の言語における音声の生波形から1つのモデルを事前学習することで、言語間音声表現を学習する。
我々は、マスク付き潜在音声表現よりも対照的なタスクを解くことで訓練されたwav2vec 2.0を構築した。
実験により、言語間事前学習はモノリンガル事前訓練よりも著しく優れていることが示された。
論文 参考訳(メタデータ) (2020-06-24T18:25:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。