論文の概要: Building a great multi-lingual teacher with sparsely-gated mixture of
experts for speech recognition
- arxiv url: http://arxiv.org/abs/2112.05820v1
- Date: Fri, 10 Dec 2021 20:37:03 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-18 18:47:05.104619
- Title: Building a great multi-lingual teacher with sparsely-gated mixture of
experts for speech recognition
- Title(参考訳): 音声認識の専門家の密接な混合による優れた多言語教師の構築
- Authors: Kenichi Kumatani, Robert Gmyr, Felipe Cruz Salinas, Linquan Liu, Wei
Zuo, Devang Patel, Eric Sun and Yu Shi
- Abstract要約: Mixture of Experts (MoE) は、計算量が少ないネットワーク容量を拡大することができる。
本稿では,S2S-T(Sequence-to-Sequence Transformer)とT-T(Transformer Transducer)の2種類のネットワークに適用する。
- 参考スコア(独自算出の注目度): 13.64861164899787
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The sparsely-gated Mixture of Experts (MoE) can magnify a network capacity
with a little computational complexity. In this work, we investigate how
multi-lingual Automatic Speech Recognition (ASR) networks can be scaled up with
a simple routing algorithm in order to achieve better accuracy. More
specifically, we apply the sparsely-gated MoE technique to two types of
networks: Sequence-to-Sequence Transformer (S2S-T) and Transformer Transducer
(T-T). We demonstrate through a set of ASR experiments on multiple language
data that the MoE networks can reduce the relative word error rates by 16.5\%
and 4.7\% with the S2S-T and T-T, respectively. Moreover, we thoroughly
investigate the effect of the MoE on the T-T architecture in various
conditions: streaming mode, non-streaming mode, the use of language ID and the
label decoder with the MoE.
- Abstract(参考訳): 狭義のMixture of Experts (MoE)は、計算量が少ないネットワーク容量を増大させることができる。
本研究では,asr(multi-lingual automatic speech recognition)ネットワークを単純なルーティングアルゴリズムでスケールアップし,精度を向上させる方法について検討する。
具体的には,Sequence-to-Sequence Transformer (S2S-T) とTransformer Transducer (T-T) の2種類のネットワークに適用する。
本研究では,s2s-t と t-t を用いて,単語誤り率を 16.5 % と 4.7 % に削減できることを,複数の言語データに対する asr 実験により実証した。
さらに,ストリーミングモード,非ストリーミングモード,言語IDの使用,ラベルデコーダなど,様々な条件下でのT-Tアーキテクチャに対するMoEの影響について詳細に検討する。
関連論文リスト
- Fast Streaming Transducer ASR Prototyping via Knowledge Distillation with Whisper [3.717584661565119]
我々は,ストリーミングトランスフォーマー・トランスデューサ(TT)モデルを,教師付きデータなしでゼロからトレーニングできることを実証した。
これにより、1つの段階で堅牢なASRモデルをトレーニングでき、大きなデータと計算予算を必要としない。
The proposed framework on 6 languages from CommonVoice and proposed multiple filters to filter out hallucinated PLs。
論文 参考訳(メタデータ) (2024-09-20T13:38:59Z) - Mechanistic Interpretability of Binary and Ternary Transformers [1.3715396507106912]
完全精度の変圧器ネットワークと比較して,二進変圧器ネットワークと三進変圧器ネットワークが明らかに異なるアルゴリズムや類似のアルゴリズムを学習するかどうかを検討する。
これは、Large Language Modelsの設定において、より解釈可能な代替手段としてバイナリと3次ネットワークを使用する可能性を示す証拠を提供する。
論文 参考訳(メタデータ) (2024-05-27T23:22:23Z) - U2++ MoE: Scaling 4.7x parameters with minimal impact on RTF [10.81723269312202]
Mixture-of-Experts (MoE) は、より大きく、より有能な言語モデルへのエネルギー効率の良い経路として提案されている。
提案したモデルを大規模インナーソースデータセット(160k時間)でベンチマークする。
論文 参考訳(メタデータ) (2024-04-25T08:34:21Z) - Deformable Mixer Transformer with Gating for Multi-Task Learning of
Dense Prediction [126.34551436845133]
CNNとTransformerには独自の利点があり、MTL(Multi-task Learning)の高密度予測に広く使われている。
本稿では,変形可能なCNNと問合せベースのTransformerの長所を共用したMTLモデルを提案する。
論文 参考訳(メタデータ) (2023-08-10T17:37:49Z) - DeMT: Deformable Mixer Transformer for Multi-Task Learning of Dense
Prediction [40.447092963041236]
変形可能なCNNとクエリベースのTransformerの利点を組み合わせた新しいMTLモデルを提案する。
提案手法は, 単純かつ効率的なエンコーダ・デコーダアーキテクチャに基づいている。
我々のモデルはGFLOPを少なくし、現在のTransformerやCNNベースの競合モデルよりも大幅に優れています。
論文 参考訳(メタデータ) (2023-01-09T16:00:15Z) - LAMASSU: Streaming Language-Agnostic Multilingual Speech Recognition and
Translation Using Neural Transducers [71.76680102779765]
自動音声認識(ASR)と音声翻訳(ST)はどちらもモデル構造としてニューラルトランスデューサを使用することができる。
ニューラルトランスデューサを用いた多言語音声認識および翻訳モデルであるLAMASSUを提案する。
論文 参考訳(メタデータ) (2022-11-05T04:03:55Z) - A Multi-Stage Multi-Codebook VQ-VAE Approach to High-Performance Neural
TTS [52.51848317549301]
高速なTTS合成のためのマルチステージマルチコードブック(MSMC)手法を提案する。
ベクトル量子化可変オートエンコーダ(VQ-VAE)に基づく特徴解析器を用いて,音声訓練データのメルスペクトルを符号化する。
合成において、ニューラルネットワークは予測されたSMCRを最終的な音声波形に変換する。
論文 参考訳(メタデータ) (2022-09-22T09:43:17Z) - SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文 参考訳(メタデータ) (2021-05-07T02:38:23Z) - Dual-decoder Transformer for Joint Automatic Speech Recognition and
Multilingual Speech Translation [71.54816893482457]
自動音声認識(ASR)と多言語音声翻訳(ST)を共同で行う新しいモデルアーキテクチャであるデュアルデコーダトランスフォーマを導入する。
我々のモデルはオリジナルのTransformerアーキテクチャに基づいているが、2つのデコーダで構成されており、それぞれが1つのタスク(ASRまたはST)を担っている。
論文 参考訳(メタデータ) (2020-11-02T04:59:50Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - MetricUNet: Synergistic Image- and Voxel-Level Learning for Precise CT
Prostate Segmentation via Online Sampling [66.01558025094333]
本稿では,前立腺領域を高速に局在させる第1段階と,前立腺領域を正確に区分する第2段階の2段階のフレームワークを提案する。
マルチタスクネットワークにおけるボクセルワイドサンプリングによる新しいオンラインメトリック学習モジュールを提案する。
本手法は,従来のクロスエントロピー学習法やDice損失学習法と比較して,より代表的なボクセルレベルの特徴を効果的に学習することができる。
論文 参考訳(メタデータ) (2020-05-15T10:37:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。