論文の概要: Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR
- arxiv url: http://arxiv.org/abs/2602.12546v1
- Date: Fri, 13 Feb 2026 02:53:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-16 23:37:53.822047
- Title: Decoder-only Conformer with Modality-aware Sparse Mixtures of Experts for ASR
- Title(参考訳): ASRエキスパートのモダリティを考慮したスパースミキサー付きデコーダオンコンバータ
- Authors: Jaeyoung Lee, Masato Mimura,
- Abstract要約: 本稿では,外部の音声エンコーダや事前訓練された大言語モデル(LLM)を使わずに,音声とテキストを単一のスタックで処理する,自動音声認識(ASR)のためのデコーダのみのコンバータを提案する。
モデルは、モダリティを意識した専門家のスパース混合(MoE: Disjoint expert pools for speech and text with hard routing and top-1 selection, embedded in hybrid-causality Conformer block)を使用する。
5言語に1つの多言語モデルを持つCommon Voice 16.1では、平均WERを12.2%から10.6%に削減する。
- 参考スコア(独自算出の注目度): 9.626217175791572
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We present a decoder-only Conformer for automatic speech recognition (ASR) that processes speech and text in a single stack without external speech encoders or pretrained large language models (LLM). The model uses a modality-aware sparse mixture of experts (MoE): disjoint expert pools for speech and text with hard routing and top-1 selection, embedded in hybrid-causality Conformer blocks (bidirectional for speech, causal for text). Training combines CTC on speech positions with label-smoothed cross-entropy for text generation. Our 113M-parameter model consistently improves WER over a 139M AED baseline on Librispeech (2.8% vs. 3.2% test-clean; 5.6% vs. 6.0% test-other). On Common Voice 16.1 with a single multilingual model across five languages, our approach reduces average WER from 12.2% to 10.6%. To our knowledge, this is the first randomly initialized decoder-only ASR that surpasses strong AED baselines via modality-aware routing and sparse MoE, achieving better accuracy with fewer active parameters and without alignment/adaptation modules.
- Abstract(参考訳): 本稿では,外部の音声エンコーダや事前訓練された大言語モデル(LLM)を使わずに,音声とテキストを単一のスタックで処理する,自動音声認識(ASR)のためのデコーダのみのコンバータを提案する。
モデルは、モダリティを意識した専門家のスパース混合物(MoE: Disjoint expert pools for speech and text with hard routing and top-1 selection, embedded in hybrid-causality Conformer blocks (bidirectional for speech, causal for text)を使用する。
訓練はテキスト生成のための音声位置のCTCとラベル平滑なクロスエントロピーを組み合わせる。
我々の1300Mパラメータモデルは、リブリスペーチの139M AEDベースライン(2.8%対3.2%、テストクリーン5.6%対6.0%)よりも一貫してWERを改善する。
5言語に1つの多言語モデルを持つCommon Voice 16.1では、平均WERを12.2%から10.6%に削減する。
我々の知る限り、これは最初のランダム初期化デコーダのみのASRであり、モダリティ対応ルーティングとスパースMoEによって強力なAEDベースラインを超え、より少ないアクティブパラメータで精度良く、アライメント/アダプテーションモジュールなしで実現できる。
関連論文リスト
- Large-Scale Aspect-Based Sentiment Analysis with Reasoning-Infused LLMs [1.4732811715354455]
Arctic-ABSAは、現実のアスペクトベースの感情分析(ABSA)のための強力なモデルの集合体である
当社のモデルは,大規模な公開データコーパスと慎重に生成された合成データに基づいてトレーニングされた商用ニーズに合わせて調整されているため,SemEval14の20倍のデータセットが生成される。
単一の多言語モデルは、英語のパフォーマンスを低下させることなく、6つの言語で87-91%の精度を維持している。
論文 参考訳(メタデータ) (2026-01-07T13:58:29Z) - Exploring SSL Discrete Speech Features for Zipformer-based Contextual ASR [74.38242498079627]
自己教師付き学習(SSL)に基づく離散音声表現は、非常にコンパクトで、ドメイン適応性が高い。
本稿では、Zipformer-Transducer ASRシステムにおいて、WavLMモデルから抽出したSSL離散音声特徴を追加の発話音響コンテキスト特徴として用いた。
論文 参考訳(メタデータ) (2024-09-13T13:01:09Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Scaling Up Deliberation for Multilingual ASR [36.860327600638705]
多言語音声認識のための第2パス検討について検討する。
テキストエンコーダは複数の言語からの仮説テキストをエンコードし,デコーダは多言語テキストと音声に付随する。
検討の結果,9言語の平均 WER はシングルパスモデルと比較して4% 向上していることがわかった。
論文 参考訳(メタデータ) (2022-10-11T21:07:00Z) - You Do Not Need More Data: Improving End-To-End Speech Recognition by
Text-To-Speech Data Augmentation [59.31769998728787]
我々は、ASRトレーニングデータベース上にTSシステムを構築し、合成音声でデータを拡張し、認識モデルを訓練する。
テストクリーンはWER 4.3%,他のテストクリーンは13.5%で、このシステムはLibriSpeechトレインクリーン100で訓練されたエンドツーエンドASRの競争結果を確立している。
論文 参考訳(メタデータ) (2020-05-14T17:24:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。