論文の概要: Data-Efficient On-Policy Distillation for Automatic Speech Recognition
- arxiv url: http://arxiv.org/abs/2605.28139v1
- Date: Wed, 27 May 2026 08:22:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-28 17:38:55.88878
- Title: Data-Efficient On-Policy Distillation for Automatic Speech Recognition
- Title(参考訳): 自動音声認識のためのデータ効率の良いオンライン蒸留法
- Authors: Yu Lin, Yiming Wang, Runyuan Cai, Xiaodong Zeng,
- Abstract要約: Ark-ASR(Ark-ASR, 0.6B-パラメータ音声調和言語モデル)について検討した。
我々は,強いQwen-ASR教師が,オンライン蒸留を通じて付加的な認識能力を伝達できるかどうかを検討する。
- 参考スコア(独自算出の注目度): 9.538470992436883
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Building competitive automatic speech recognition (ASR) models usually requires large-scale au- dio supervision, which makes reproduction and specialization expensive. We study Ark-ASR, a 0.6B- parameter audio-conditioned language model trained with 100k hours of speech, and examine whether a strong Qwen-ASR teacher can transfer additional recognition capability through on-policy distillation. Across Mandarin and English ASR benchmarks, the proposed training recipe consistently improves over supervised fine-tuning alone and outperforms the same-scale Qwen3-ASR-0.6B baseline on four of five evaluation sets. This is achieved with only 100k hours of speech, compared with the 20M hours of super- vised audio reported for the Qwen3-Omni AuT encoder. The larger Qwen3-ASR-1.7B remains stronger, but the results show that teacher-guided on-policy training can substantially close the gap for compact ASR models under a much smaller audio budget. A support-overlap diagnostic further suggests that the teacher-data stage improves local student-teacher compatibility, matching recent analyses of when on-policy distillation is effective.
- Abstract(参考訳): 競争力のある自動音声認識(ASR)モデルを構築するには、通常、大規模なオー・ディオの監督が必要であり、再生と特殊化は高価である。
Ark-ASRは100k時間で訓練された0.6Bパラメータの音声条件付き言語モデルであり,強いQwen-ASR教師がオンライン蒸留を通じて付加的な認識能力を伝達できるかどうかを検討する。
マンダリンと英語のASRベンチマークでは、提案されたトレーニングレシピは教師付き微調整のみよりも一貫して改善され、5つの評価セットのうち4つで同じスケールのQwen3-ASR-0.6Bベースラインを上回っている。
Qwen3-Omni AuTエンコーダで報告された2000万時間の超可視オーディオと比較すると、これはたった1k時間で達成される。
より大型のQwen3-ASR-1.7Bは依然として強力だが、その結果、教師が指導するオン・ポリティクス・トレーニングは、より小さなオーディオ予算の下でコンパクトなASRモデルのギャップを大幅に埋めることを示した。
さらに, 教師・データ段階は, 生徒・教師の親和性を向上し, オンライン蒸留が有効であった場合の最近の分析と一致することが示唆された。
関連論文リスト
- Self-Distillation Zero: Self-Revision Turns Binary Rewards into Dense Supervision [50.61441331643804]
強化学習(Reinforcement Learning、RLVR)は、広く適用可能で強力であるが、訓練中に緩やかな監督しか提供しない二進的な報酬に依存している。
蒸留は、一般的に外部の教師や高品質なデモンストレーションを使って得られる、密集したトークンレベルの監督を提供する。
自己蒸留ゼロ(SD-Zero)は,RLよりもかなり訓練効率が高く,外部教師や高品質な実演を必要としない手法である。
論文 参考訳(メタデータ) (2026-04-13T19:46:55Z) - Qwen3-ASR Technical Report [71.87071808763484]
2つの強力なオールインワン音声認識モデルと、新しい非自己回帰音声強制アライメントモデルを含むQwen3-ASRファミリを紹介する。
Qwen3-ASR-1.7BとQwen3-ASR-0.6Bは、言語識別と52の言語および方言のASRをサポートするASRモデルである。
論文 参考訳(メタデータ) (2026-01-29T06:58:13Z) - End-to-End Transformer-based Automatic Speech Recognition for Northern Kurdish: A Pioneering Approach [1.3689715712707342]
本稿では、中東で話されている低リソース言語である北クルド語(クルマンジ語)に対する事前訓練されたASRモデルであるWhisperの有効性について検討する。
約68時間の検証データを含む北クルド語微調整音声コーパスを用いて,追加のモジュール微調整戦略がASR精度を大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-10-19T11:46:30Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Analyzing And Improving Neural Speaker Embeddings for ASR [54.30093015525726]
本稿では,コンバータをベースとしたハイブリッドHMM ASRシステムに,ニューラルスピーカーの埋め込みを統合するための取り組みについて述べる。
話者埋め込みを用いたコンフォーマーベースハイブリッドASRシステムは, SWB 300hでのトレーニングにより, Hub5'00 と Hub5'01 で 9.0% WER を達成する。
論文 参考訳(メタデータ) (2023-01-11T16:56:03Z) - Automatic Severity Classification of Dysarthric speech by using
Self-supervised Model with Multi-task Learning [4.947423926765435]
マルチタスク学習と連動した自己教師付きモデルを用いて,変形性音声の自動重大度評価手法を提案する。
Wav2vec 2.0 XLS-Rは重度分類と補助的自動音声認識(ASR)の2つのタスクで訓練される
本モデルでは,F1スコアの相対値が1.25%増加し,従来のベースライン法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-27T12:48:10Z) - Scenario Aware Speech Recognition: Advancements for Apollo Fearless
Steps & CHiME-4 Corpora [70.46867541361982]
本稿では、TRILLと呼ばれる三重項損失に基づく自己監督基準で訓練された一般的な非意味的音声表現について考察する。
我々は、Fearless Stepsの開発と評価のために、+5.42%と+3.18%の相対的なWER改善を観察した。
論文 参考訳(メタデータ) (2021-09-23T00:43:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。