論文の概要: Mixture-of-Experts with Intermediate CTC Supervision for Accented Speech Recognition
- arxiv url: http://arxiv.org/abs/2602.01967v1
- Date: Mon, 02 Feb 2026 11:16:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:34.101991
- Title: Mixture-of-Experts with Intermediate CTC Supervision for Accented Speech Recognition
- Title(参考訳): アクセント音声認識のための中間CTCシュミレーションを用いたMixture-of-Experts
- Authors: Wonjun Lee, Hyounghun Kim, Gary Geunbae Lee,
- Abstract要約: 我々は、専門家の専門化と一般化を共同で推進する中間的なCTC管理を備えたMue-Ctcアーキテクチャを紹介する。
トレーニング中、アクセントを意識したルーティングは、専門家にアクセント固有のパターンをキャプチャするよう促す。
Mcv-Accentベンチマークの実験では、低リソースと高リソースの条件下で、見かけと見えないアクセントの両方で一貫した利得を示し、FastConformerベースラインよりも29.3%の相対的なWER削減を実現している。
- 参考スコア(独自算出の注目度): 21.893229843453458
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Accented speech remains a persistent challenge for automatic speech recognition (ASR), as most models are trained on data dominated by a few high-resource English varieties, leading to substantial performance degradation for other accents. Accent-agnostic approaches improve robustness yet struggle with heavily accented or unseen varieties, while accent-specific methods rely on limited and often noisy labels. We introduce Moe-Ctc, a Mixture-of-Experts architecture with intermediate CTC supervision that jointly promotes expert specialization and generalization. During training, accent-aware routing encourages experts to capture accent-specific patterns, which gradually transitions to label-free routing for inference. Each expert is equipped with its own CTC head to align routing with transcription quality, and a routing-augmented loss further stabilizes optimization. Experiments on the Mcv-Accent benchmark demonstrate consistent gains across both seen and unseen accents in low- and high-resource conditions, achieving up to 29.3% relative WER reduction over strong FastConformer baselines.
- Abstract(参考訳): アクセント付き音声認識(ASR)は、ほとんどのモデルは、いくつかの高解像度の英語の変種が支配するデータに基づいて訓練されており、他のアクセントに対してかなりの性能劣化をもたらすため、引き続き永続的な課題である。
アクセントに依存しないアプローチは頑丈さを改善するが、アクセントに強くアクセントを付けたり、目に見えない品種に苦しむ一方で、アクセント固有の手法は制限された、しばしばうるさいラベルに依存している。
我々は、専門家の専門化と一般化を共同で推進する中間的なCTC管理を備えたMue-Ctcアーキテクチャを紹介する。
トレーニング中、アクセントを意識したルーティングは、専門家にアクセント固有のパターンをキャプチャするよう促す。
各エキスパートは、独自のCTCヘッドを備えて、ルーティングと転写品質を調整し、ルーティング強化された損失はさらに最適化を安定化する。
Mcv-Accentベンチマークの実験では、低リソースと高リソースの条件下で、見かけと見えないアクセントの両方で一貫した利得を示し、FastConformerベースラインよりも29.3%の相対的なWER削減を実現している。
関連論文リスト
- HENT-SRT: Hierarchical Efficient Neural Transducer with Self-Distillation for Joint Speech Recognition and Translation [19.997594859651233]
HENT-SRTは、ASRと翻訳タスクを分解して、再注文の処理を改善する新しいフレームワークである。
ASRトランスデューサのベストプラクティスを取り入れて計算効率を向上させる。
提案手法は,アラビア語,スペイン語,マンダリンの3つの会話データセットを用いて評価した。
論文 参考訳(メタデータ) (2025-06-02T18:37:50Z) - Improving Self-supervised Pre-training using Accent-Specific Codebooks [48.409296549372414]
自己教師型学習のためのアクセント認識適応技術
Mozilla Common Voiceデータセットでは、提案手法は他のアクセント適応手法よりも優れています。
論文 参考訳(メタデータ) (2024-07-04T08:33:52Z) - Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Accented Speech Recognition With Accent-specific Codebooks [53.288874858671576]
音声アクセントは最先端の自動音声認識(ASR)システムに重大な課題をもたらす。
あまり表現されないアクセントによる性能低下は、ASRの包括的採用に対する深刻な抑止力である。
トレーニング可能なコードブックを用いたクロスアテンションを用いた,エンドツーエンドのASRシステムに対するアクセント適応手法を提案する。
論文 参考訳(メタデータ) (2023-10-24T16:10:58Z) - Multi-pass Training and Cross-information Fusion for Low-resource
End-to-end Accented Speech Recognition [12.323309756880581]
低リソースアクセント型音声認識は、現在のASR技術で直面する重要な課題の1つである。
本研究では,非アクセントと限定的なアクセント付きトレーニングデータから得られた音響情報を活用するために,Aformerと呼ばれるコンフォーマーベースのアーキテクチャを提案する。
論文 参考訳(メタデータ) (2023-06-20T06:08:09Z) - Audio-Visual Efficient Conformer for Robust Speech Recognition [91.3755431537592]
本稿では,近年提案されている高能率コンバータ接続性時間分類アーキテクチャの雑音を,音声と視覚の両方を処理して改善することを提案する。
実験の結果,音声と視覚のモダリティを用いることで,環境騒音の存在下での音声の認識が向上し,トレーニングが大幅に加速し,WERが4倍のトレーニングステップで低下することが確認された。
論文 参考訳(メタデータ) (2023-01-04T05:36:56Z) - CTC Alignments Improve Autoregressive Translation [145.90587287444976]
我々はCTCが共同のCTC/アテンションフレームワークに適用された場合、実際に翻訳に意味があることを論じる。
提案した共同CTC/アテンションモデルは6つのベンチマーク翻訳タスクにおいて純粋アテンションベースラインを上回った。
論文 参考訳(メタデータ) (2022-10-11T07:13:50Z) - Investigating the Reordering Capability in CTC-based Non-Autoregressive
End-to-End Speech Translation [62.943925893616196]
接続型時間分類(CTC)を用いた非回帰型音声-テキスト翻訳モデルの構築の可能性について検討する。
CTCの翻訳における成功は単調な仮定のため直感に反するため,再順序化能力の解析を行う。
解析の結果、トランスフォーマーエンコーダは単語の順序を変えることができることがわかった。
論文 参考訳(メタデータ) (2021-05-11T07:48:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。