論文の概要: Canary-1B-v2 & Parakeet-TDT-0.6B-v3: Efficient and High-Performance Models for Multilingual ASR and AST
- arxiv url: http://arxiv.org/abs/2509.14128v1
- Date: Wed, 17 Sep 2025 16:08:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-18 18:41:50.914207
- Title: Canary-1B-v2 & Parakeet-TDT-0.6B-v3: Efficient and High-Performance Models for Multilingual ASR and AST
- Title(参考訳): Canary-1B-v2 & Parakeet-TDT-0.6B-v3:マルチリンガルASRとASTの効率的・高性能モデル
- Authors: Monica Sekoyan, Nithin Rao Koluguri, Nune Tadevosyan, Piotr Zelasko, Travis Bartley, Nick Karpov, Jagadeesh Balam, Boris Ginsburg,
- Abstract要約: Canary-1B-v2は、自動音声認識(ASR)と音声テキスト翻訳(AST)のための高速で堅牢な多言語モデルである
FastConformerエンコーダとTransformerデコーダで構築され、主にヨーロッパ25言語をサポートしている。
動的データバランシングを伴う2段階の事前学習および微調整プロセスとnGPTエンコーダを用いた実験について述べる。
- 参考スコア(独自算出の注目度): 38.47923199791667
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: This report introduces Canary-1B-v2, a fast, robust multilingual model for Automatic Speech Recognition (ASR) and Speech-to-Text Translation (AST). Built with a FastConformer encoder and Transformer decoder, it supports 25 languages primarily European. The model was trained on 1.7M hours of total data samples, including Granary and NeMo ASR Set 3.0, with non-speech audio added to reduce hallucinations for ASR and AST. We describe its two-stage pre-training and fine-tuning process with dynamic data balancing, as well as experiments with an nGPT encoder. Results show nGPT scales well with massive data, while FastConformer excels after fine-tuning. For timestamps, Canary-1B-v2 uses the NeMo Forced Aligner (NFA) with an auxiliary CTC model, providing reliable segment-level timestamps for ASR and AST. Evaluations show Canary-1B-v2 outperforms Whisper-large-v3 on English ASR while being 10x faster, and delivers competitive multilingual ASR and AST performance against larger models like Seamless-M4T-v2-large and LLM-based systems. We also release Parakeet-TDT-0.6B-v3, a successor to v2, offering multilingual ASR across the same 25 languages with just 600M parameters.
- Abstract(参考訳): 本稿では,自動音声認識(ASR)と音声テキスト翻訳(AST)のための高速で堅牢な多言語モデルであるCanary-1B-v2を紹介する。
FastConformerエンコーダとTransformerデコーダで構築され、主にヨーロッパ25言語をサポートしている。
このモデルはグラナリーやNeMo ASR Set 3.0を含む合計1.7M時間で訓練され、非音声オーディオが加わり、ASRとASTの幻覚が軽減された。
動的データバランシングを伴う2段階の事前学習および微調整プロセスとnGPTエンコーダを用いた実験について述べる。
結果は、nGPTが大量のデータとうまく対応していることを示しているが、FastConformerは微調整後に優れている。
タイムスタンプのカナリア-1B-v2はNeMo Forced Aligner (NFA) を補助的なCTCモデルで使用し、ASRとASTの信頼性の高いセグメントレベルのタイムスタンプを提供する。
Canary-1B-v2は、英語のASRでWhisper-large-v3よりも10倍高速であり、Seamless-M4T-v2-largeやLLMベースのシステムと競合する多言語ASRとASTのパフォーマンスを提供する。
私たちはまた、v2の後継であるParakeet-TDT-0.6B-v3をリリースしました。
関連論文リスト
- Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper [3.717584661565119]
我々は,ストリーミングトランスフォーマー・トランスデューサ(TT)モデルを,教師付きデータなしでゼロからトレーニングできることを実証した。
これにより、1つの段階で堅牢なASRモデルをトレーニングでき、大きなデータと計算予算を必要としない。
The proposed framework on 6 languages from CommonVoice and proposed multiple filters to filter out hallucinated PLs。
論文 参考訳(メタデータ) (2024-09-20T13:38:59Z) - SimpleSpeech 2: Towards Simple and Efficient Text-to-Speech with Flow-based Scalar Latent Transformer Diffusion Models [64.40250409933752]
我々は、SimpleSpeech 2.0と呼ばれるシンプルで効率的な非自己回帰(NAR)TSフレームワークを実装することで、過去の出版物の上に構築した。
SimpleSpeech 2は、自己回帰(AR)法と非自己回帰(NAR)法の両方の長所を効果的に組み合わせている。
我々は,従来の作業と他の大規模TSモデル(SOTA)と比較して,生成性能と生成速度が大幅に向上したことを示す。
論文 参考訳(メタデータ) (2024-08-25T17:07:39Z) - GigaSpeech 2: An Evolving, Large-Scale and Multi-domain ASR Corpus for Low-Resource Languages with Automated Crawling, Transcription and Refinement [36.29371629234269]
GigaSpeech 2は大規模多言語音声認識コーパスである。
タイ語、インドネシア語、ベトナム語を含む約3万時間の音声が自動で書き起こされる。
論文 参考訳(メタデータ) (2024-06-17T13:44:20Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - RedApt: An Adaptor for wav2vec 2 Encoding \\ Faster and Smaller Speech
Translation without Quality Compromise [66.92823764664206]
我々は,任意のトランスフォーマーベース音声符号化アーキテクチャにシームレスに統合可能な,新しいReduceer AdaptorブロックRedAptを提案する。
事前訓練されたwav2vec 2音声エンコーダをRedAptbrings 41%の高速化、33%のメモリ削減、24%のFLOPを推論で削減した。
論文 参考訳(メタデータ) (2022-10-16T07:58:25Z) - Improving Low-Resource Speech Recognition with Pretrained Speech Models:
Continued Pretraining vs. Semi-Supervised Training [6.523198497365586]
wav2vec 2.0やHuBERTのような自己教師型トランスフォーマーベースモデルは、音声認識(ASR)に対する既存のアプローチよりも大幅に改善されている。
単語誤り率 (WER) は半教師あり訓練 (SST) よりも若干優れていた。
さらに, 擬似ラベル付けにCoPTモデルを用い, これらのラベルをSSTで使用することにより, WERのさらなる改善がもたらされることを示す。
論文 参考訳(メタデータ) (2022-07-01T21:02:51Z) - Exploring Capabilities of Monolingual Audio Transformers using Large
Datasets in Automatic Speech Recognition of Czech [0.9653976364051563]
チェコ語単言語音声トランスフォーマーを8万時間以上のラベルなし音声を含む大規模データセットから事前学習する過程について述べる。
2つの公開データセットで評価された様々な微調整設定による実験の大規模なパレットを提示する。
論文 参考訳(メタデータ) (2022-06-15T16:14:37Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Multilingual Speech Translation with Efficient Finetuning of Pretrained
Models [82.22294901727933]
最小限のLNA(LayerNorm and Attention)ファインタニングは、ゼロショットのクロスリンガルおよびクロスモーダリティ転送能力を実現することができる。
本手法は多言語多言語モデルにおいて強いゼロショット性能を示す。
論文 参考訳(メタデータ) (2020-10-24T08:15:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。