論文の概要: SC-MoE: Switch Conformer Mixture of Experts for Unified Streaming and Non-streaming Code-Switching ASR
- arxiv url: http://arxiv.org/abs/2406.18021v1
- Date: Wed, 26 Jun 2024 02:32:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-27 14:57:54.652867
- Title: SC-MoE: Switch Conformer Mixture of Experts for Unified Streaming and Non-streaming Code-Switching ASR
- Title(参考訳): SC-MoE:Unified Streaming and Non-streaming Code-Switching ASRの専門家のスイッチコンバータミックス
- Authors: Shuaishuai Ye, Shunfei Chen, Xinhui Hu, Xinkang Xu,
- Abstract要約: SC-MoE というスイッチコンフォーマーベースの MoE システムを提案する。
我々は,マンダリン,英語,空白に対応する3つの言語専門家からなるストリーミングMoE層を設計する。
テキストに埋め込まれた言語情報をさらに活用するために、SC-MoEのデコーダにMoE層を組み込む。
- 参考スコア(独自算出の注目度): 9.089663393256945
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we propose a Switch-Conformer-based MoE system named SC-MoE for unified streaming and non-streaming code-switching (CS) automatic speech recognition (ASR), where we design a streaming MoE layer consisting of three language experts, which correspond to Mandarin, English, and blank, respectively, and equipped with a language identification (LID) network with a Connectionist Temporal Classification (CTC) loss as a router in the encoder of SC-MoE to achieve a real-time streaming CS ASR system. To further utilize the language information embedded in text, we also incorporate MoE layers into the decoder of SC-MoE. In addition, we introduce routers into every MoE layer of the encoder and the decoder and achieve better recognition performance. Experimental results show that the SC-MoE significantly improves CS ASR performances over baseline with comparable computational efficiency.
- Abstract(参考訳): 本研究では,SC-MoE の符号化におけるルータとして接続時分類 (CTC) の損失を持つ言語識別 (LID) ネットワークと,マンダリン, 英語, 空白の3つの言語専門家からなるストリーミング MoE 層を設計し, SC-MoE の符号化器のルータとして, SC-MoE の符号化と非ストリーミングコードスイッチング (CS) 自動音声認識 (ASR) を実現するスイッチコンフォーマーベースの MoE システムを提案する。
テキストに埋め込まれた言語情報をさらに活用するために、SC-MoEのデコーダにMoE層を組み込む。
さらに、エンコーダとデコーダのすべてのMoE層にルータを導入し、より優れた認識性能を実現する。
実験結果から,SC-MoEはベースラインよりもCS ASR性能を有意に向上し,計算効率は同等であった。
関連論文リスト
- Visual Language Model based Cross-modal Semantic Communication Systems [42.321208020228894]
本稿では,視覚言語モデルに基づくクロスモーダル・セマンティックコミュニケーションシステムを提案する。
VLM−CSCは、3つの新規成分を含む。
実験により, CSCシステムの有効性, 適応性, 堅牢性を検証した。
論文 参考訳(メタデータ) (2024-05-06T08:59:16Z) - UniEnc-CASSNAT: An Encoder-only Non-autoregressive ASR for Speech SSL
Models [23.383924361298874]
CTCとCASS-NATの利点を組み合わせた新しいエンコーダベースのNASRUniEnc-CASSNATを提案する。
提案したUniEnc-CASSNATは、最先端のNASR結果を実現し、エンコーダのみでCASS-NATに匹敵する。
論文 参考訳(メタデータ) (2024-02-14T02:11:04Z) - Cross-Speaker Encoding Network for Multi-Talker Speech Recognition [74.97576062152709]
Cross-MixSpeaker
ネットワークは、話者間の表現を集約することでSIMOモデルの制限に対処する。
ネットワークはSOTと統合され、SIMOとSISOの両方の利点を利用する。
論文 参考訳(メタデータ) (2024-01-08T16:37:45Z) - Hybrid Transducer and Attention based Encoder-Decoder Modeling for
Speech-to-Text Tasks [28.440232737011453]
そこで本稿では,Transducer と Attention based AED-Decoder (TAED) を組み合わせることで,音声からテキストへ変換する手法を提案する。
本手法は,Transducerのストリーミング特性を維持しつつ,非単調シーケンスにおけるTransducerの強度をシーケンス学習に活用する。
提案手法をtextscMuST-C データセットで評価し,TAED が Transducer よりもオフライン自動音声認識(ASR) や 音声からテキストへの変換(ST) 処理に優れていることを示す。
論文 参考訳(メタデータ) (2023-05-04T18:34:50Z) - A Language Agnostic Multilingual Streaming On-Device ASR System [40.01902403540186]
オンデバイス・エンド・ツー・エンド(E2E)モデルは、品質とレイテンシの両方において、英語音声検索タスクの従来のモデルよりも改善されている。
単言語モデルに匹敵する品質とレイテンシを持つデバイス上で完全に動作するストリーミングマルチリンガルE2E ASRシステムを提案する。
論文 参考訳(メタデータ) (2022-08-29T22:34:59Z) - Joint Encoder-Decoder Self-Supervised Pre-training for ASR [0.0]
自己教師型学習は、様々な音声関連下流タスクで大きな成功を収めている。
本稿では,自己教師型学習におけるデコーダのパワーを活用した新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2022-06-09T12:45:29Z) - Adjacent Context Coordination Network for Salient Object Detection in
Optical Remote Sensing Images [102.75699068451166]
本稿では,光RSI-SODのためのエンコーダ・デコーダアーキテクチャにおいて,隣接した特徴のコーディネートを探索するための新しいアジャセントコンテキストコーディネートネットワーク(ACCoNet)を提案する。
提案されたACCoNetは、9つの評価基準の下で22の最先端メソッドを上回り、1つのNVIDIA Titan X GPU上で81fpsで動作する。
論文 参考訳(メタデータ) (2022-03-25T14:14:55Z) - Fast-MD: Fast Multi-Decoder End-to-End Speech Translation with
Non-Autoregressive Hidden Intermediates [59.678108707409606]
我々は、接続性時間分類(CTC)出力に基づいて非自己回帰デコードによりHIを生成する高速MDモデルであるFast-MDを提案し、続いてASRデコーダを提案する。
高速MDは、GPUとCPUの「単純なMDモデル」よりも2倍、4倍高速なデコード速度を実現した。
論文 参考訳(メタデータ) (2021-09-27T05:21:30Z) - Non-autoregressive End-to-end Speech Translation with Parallel
Autoregressive Rescoring [83.32560748324667]
本稿では,非自己回帰モデルに基づく効率的なエンドツーエンド音声翻訳(E2E-ST)フレームワークについて述べる。
我々は,共有エンコーダ上にNARデコーダと補助的な浅層ARデコーダを備えた,Orthrosと呼ばれる統一NAR E2E-STフレームワークを提案する。
論文 参考訳(メタデータ) (2021-09-09T16:50:16Z) - Non-autoregressive Mandarin-English Code-switching Speech Recognition
with Pinyin Mask-CTC and Word Embedding Regularization [61.749126838659315]
マンダリン・イングリッシュ・コード・スイッチング (CS) は東アジアや東南アジアでよく使われている。
近年の非自己回帰(NAR)ASRモデルは、自己回帰(AR)モデルにおける左から右へのビームデコードの必要性を排除している。
エンコーダの出力目標をpinyinに変更してエンコーダトレーニングを高速化し,文脈情報学習のためのpinyin-to-mandarinデコーダを提案する。
論文 参考訳(メタデータ) (2021-04-06T03:01:09Z) - Streaming automatic speech recognition with the transformer model [59.58318952000571]
本稿では,ストリーミングASRのためのトランスフォーマーに基づくエンドツーエンドASRシステムを提案する。
本研究では,エンコーダに時間制限付き自己アテンションを適用し,エンコーダ・デコーダのアテンション機構に注意を喚起する。
提案したストリーミングトランスアーキテクチャは,LibriSpeechの「クリーン」および「他の」テストデータに対して,2.8%と7.2%のWERを実現する。
論文 参考訳(メタデータ) (2020-01-08T18:58:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。