論文の概要: Qwen3-ASR Technical Report
- arxiv url: http://arxiv.org/abs/2601.21337v1
- Date: Thu, 29 Jan 2026 06:58:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.631171
- Title: Qwen3-ASR Technical Report
- Title(参考訳): Qwen3-ASR技術報告
- Authors: Xian Shi, Xiong Wang, Zhifang Guo, Yongqi Wang, Pei Zhang, Xinyu Zhang, Zishan Guo, Hongkun Hao, Yu Xi, Baosong Yang, Jin Xu, Jingren Zhou, Junyang Lin,
- Abstract要約: 2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
- 参考スコア(独自算出の注目度): 71.87071808763484
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this report, we introduce Qwen3-ASR family, which includes two powerful all-in-one speech recognition models and a novel non-autoregressive speech forced alignment model. Qwen3-ASR-1.7B and Qwen3-ASR-0.6B are ASR models that support language identification and ASR for 52 languages and dialects. Both of them leverage large-scale speech training data and the strong audio understanding ability of their foundation model Qwen3-Omni. We conduct comprehensive internal evaluation besides the open-sourced benchmarks as ASR models might differ little on open-sourced benchmark scores but exhibit significant quality differences in real-world scenarios. The experiments reveal that the 1.7B version achieves SOTA performance among open-sourced ASR models and is competitive with the strongest proprietary APIs while the 0.6B version offers the best accuracy-efficiency trade-off. Qwen3-ASR-0.6B can achieve an average TTFT as low as 92ms and transcribe 2000 seconds speech in 1 second at a concurrency of 128. Qwen3-ForcedAligner-0.6B is an LLM based NAR timestamp predictor that is able to align text-speech pairs in 11 languages. Timestamp accuracy experiments show that the proposed model outperforms the three strongest force alignment models and takes more advantages in efficiency and versatility. To further accelerate the community research of ASR and audio understanding, we release these models under the Apache 2.0 license.
- Abstract(参考訳): 本稿では、2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
どちらも、大規模音声訓練データと、基礎モデルQwen3-Omniの強力な音声理解能力を活用している。
ASRモデルは、オープンソースのベンチマークスコアではほとんど異なりませんが、実際のシナリオでは大きな品質差を示します。
実験によると、1.7BバージョンはオープンソースのASRモデル間でSOTAのパフォーマンスを達成し、最強のプロプライエタリAPIと競合する一方で、0.6Bバージョンは最高の精度と効率のトレードオフを提供する。
Qwen3-ASR-0.6B は平均 TTFT を92ms で達成し、128 の並行処理で1秒で 2000 秒の音声を書き起こせる。
Qwen3-ForcedAligner-0.6Bは、11言語でテキストと音声のペアを調整できるLLMベースのNARタイムスタンプ予測器である。
タイムスタンプ精度実験により、提案モデルは3つの最強力アライメントモデルより優れ、効率性と汎用性においてより有利であることが示された。
ASRとオーディオ理解に関するコミュニティの研究をさらに加速するため、これらのモデルをApache 2.0ライセンスでリリースします。
関連論文リスト
- Adaptability of ASR Models on Low-Resource Language: A Comparative Study of Whisper and Wav2Vec-BERT on Bangla [0.0]
本研究では,2つの最先端自動音声認識(ASR)モデル,OpenAIのWhisper(Small & Large-V2)とFacebookのWav2Vec-BERT(Bangla)の性能について検討した。
論文 参考訳(メタデータ) (2025-07-02T17:44:54Z) - Nexus: An Omni-Perceptive And -Interactive Model for Language, Audio, And Vision [83.0622534215881]
本研究は, 聴覚, 視覚, 言語的モダリティを統合した, 産業レベルのOmni-Modal Large Language Model (LLM) パイプラインを提案する。
まず、様々なエンコーダ-LLM-デコーダアーキテクチャの柔軟な構成を可能にするモジュラーフレームワークです。
第二に、最先端のビジョン言語モデルであるQwen2.5-VLのオーディオ言語アライメントを事前訓練する軽量なトレーニング戦略である。
第三に、様々な現実世界のシナリオから高品質な音声テキストデータを生成するオーディオ合成パイプライン。
論文 参考訳(メタデータ) (2025-02-26T17:26:36Z) - End-to-End Transformer-based Automatic Speech Recognition for Northern Kurdish: A Pioneering Approach [1.3689715712707342]
本稿では、中東で話されている低リソース言語である北クルド語(クルマンジ語)に対する事前訓練されたASRモデルであるWhisperの有効性について検討する。
約68時間の検証データを含む北クルド語微調整音声コーパスを用いて,追加のモジュール微調整戦略がASR精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-19T11:46:30Z) - Improving Multilingual ASR in the Wild Using Simple N-best Re-ranking [68.77659513993507]
我々は,多言語ASRの精度を向上させるため,単純かつ効果的なN-best再分類手法を提案する。
その結果, 音声認識の精度は8.7%, 6.1%, 単語誤り率は3.3%, 単語誤り率は2.0%であった。
論文 参考訳(メタデータ) (2024-09-27T03:31:32Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - A Fine-tuned Wav2vec 2.0/HuBERT Benchmark For Speech Emotion
Recognition, Speaker Verification and Spoken Language Understanding [0.9023847175654603]
我々は,3つの非ASR音声タスクに対するwav2vec 2.0およびHuBERT事前学習モデルにおける部分的微調整と全微調整について検討する。
単純なダウンストリームフレームワークでは、最高のスコアはIEMOCAPの音声感情認識の79.58%、VoxCeleb1の話者検証の2.36%、Intent Classificationの87.51%、SLURPのスロットフィリングの75.32%のF1に達する。
論文 参考訳(メタデータ) (2021-11-04T10:39:06Z) - LRSpeech: Extremely Low-Resource Speech Synthesis and Recognition [148.43282526983637]
データコストの低い言語のためのTLSおよびASRシステムであるLSpeechを開発した。
実験言語(英語)と真の低リソース言語(リトアニア語)で実験を行い,LRSpeechの有効性を検証する。
現在、より稀な言語でTSをサポートするために、商用のクラウド音声サービスにLSpeechをデプロイしています。
論文 参考訳(メタデータ) (2020-08-09T08:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。