論文の概要: SpeechMoE2: Mixture-of-Experts Model with Improved Routing
- arxiv url: http://arxiv.org/abs/2111.11831v1
- Date: Tue, 23 Nov 2021 12:53:16 GMT
- ステータス: 処理完了
- システム内更新日: 2021-11-24 21:54:34.577698
- Title: SpeechMoE2: Mixture-of-Experts Model with Improved Routing
- Title(参考訳): speechmoe2:ルーティングを改善したエキスパートの混合モデル
- Authors: Zhao You, Shulin Feng, Dan Su and Dong Yu
- Abstract要約: 適応性を高めるために,新たなグローバルドメインとアクセントをルータ入力に組み込むルータアーキテクチャを提案する。
実験の結果,提案したSpeechMoE2は,比較パラメータの低い文字誤り率(CER)を実現することができた。
- 参考スコア(独自算出の注目度): 29.582683923988203
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Mixture-of-experts based acoustic models with dynamic routing mechanisms have
proved promising results for speech recognition. The design principle of router
architecture is important for the large model capacity and high computational
efficiency. Our previous work SpeechMoE only uses local grapheme embedding to
help routers to make route decisions. To further improve speech recognition
performance against varying domains and accents, we propose a new router
architecture which integrates additional global domain and accent embedding
into router input to promote adaptability. Experimental results show that the
proposed SpeechMoE2 can achieve lower character error rate (CER) with
comparable parameters than SpeechMoE on both multi-domain and multi-accent
task. Primarily, the proposed method provides up to 1.6% - 4.8% relative CER
improvement for the multidomain task and 1.9% - 17.7% relative CER improvement
for the multi-accent task respectively. Besides, increasing the number of
experts also achieves consistent performance improvement and keeps the
computational cost constant.
- Abstract(参考訳): 動的ルーティング機構の混合実験に基づく音響モデルは音声認識に有望な結果を証明している。
ルータアーキテクチャの設計原理は、大きなモデル容量と高い計算効率のために重要である。
前回の研究SpeechMoEは、ルータのルート決定を支援するためにのみ、ローカルグラフの埋め込みを使用しました。
様々なドメインやアクセントに対する音声認識性能をさらに向上するために,新たなグローバルドメインとアクセントをルータ入力に組み込んで適応性を高めるルータアーキテクチャを提案する。
実験結果から,提案したSpeechMoE2は,マルチドメインタスクとマルチアクセントタスクの両方において,SpeechMoEよりも低いパラメータで文字誤り率(CER)を実現することができた。
提案手法は,マルチドメインタスクに対して最大1.6%~4.8%,マルチドメインタスクに対して1.9%~17.7%の相対CER改善を提供する。
さらに、専門家数の増加は、一貫したパフォーマンス改善を達成し、計算コストを一定に保つ。
関連論文リスト
- Qifusion-Net: Layer-adapted Stream/Non-stream Model for End-to-End Multi-Accent Speech Recognition [1.0690007351232649]
本稿では,ターゲットアクセントに関する事前知識を必要としないQifusion-Netと呼ばれる層適応核融合モデルを提案する。
実験の結果,提案手法は,複数のアクセントテストデータセットに対して,22.1$%と17.2$%の文字誤り率(CER)を相対的に低減し,ベースラインを上回った。
論文 参考訳(メタデータ) (2024-07-03T11:35:52Z) - Intuition-aware Mixture-of-Rank-1-Experts for Parameter Efficient Finetuning [50.73666458313015]
大規模言語モデル(LLM)はマルチメディアアプリケーションで複数のタスクを実行する上で大きな可能性を証明している。
MoEは、効率的なタスクデカップリングのためのスパースアーキテクチャによる有望なソリューションとして登場した。
Intuition-MoR1Eは14のパブリックデータセットで優れた効率と2.15%の全体的な精度向上を実現している。
論文 参考訳(メタデータ) (2024-04-13T12:14:58Z) - Multilingual Audio-Visual Speech Recognition with Hybrid CTC/RNN-T Fast Conformer [59.57249127943914]
本稿では,複数の改良を加えた多言語音声認識モデルを提案する。
我々は、6つの異なる言語に対する音声視覚訓練データの量を増やし、重複しない多言語データセットの自動書き起こしを生成する。
提案モデルでは, LRS3データセット上での新たな最先端性能を実現し, WERは0.8%に達した。
論文 参考訳(メタデータ) (2024-03-14T01:16:32Z) - ROSE: A Recognition-Oriented Speech Enhancement Framework in Air Traffic Control Using Multi-Objective Learning [6.60571587618006]
無線音声エコー(Radio speech echo)は、空気交通制御(ATC)領域において特定の現象であり、音声品質を低下させ、自動音声認識(ASR)の精度に影響を与える。
本研究では,時間領域認識指向音声強調フレームワークを提案し,音声認識能力の向上とASR精度の向上を図る。
このフレームワークはATCシナリオのプラグイン・アンド・プレイツールとして機能し、ASRモデルのさらなる再トレーニングを必要としない。
論文 参考訳(メタデータ) (2023-12-11T04:51:41Z) - From English to More Languages: Parameter-Efficient Model Reprogramming
for Cross-Lingual Speech Recognition [50.93943755401025]
言語間音声認識のためのニューラルモデル再プログラミングに基づく新しいパラメータ効率学習フレームワークを提案する。
我々は、学習可能な事前学習機能強化に焦点を当てた、異なる補助的ニューラルネットワークアーキテクチャを設計する。
提案手法は,既存のASRチューニングアーキテクチャとその拡張性能を自己監督的損失で向上させる。
論文 参考訳(メタデータ) (2023-01-19T02:37:56Z) - Enhancing and Adversarial: Improve ASR with Speaker Labels [49.73714831258699]
そこで本研究では,チューニングを伴わない安定かつ効果的な対向訓練のための適応的勾配反転層を提案する。
ASRニューラルネットワーク(NN)の最適な位置を示すために、詳細な分析と実験的検証を行い、話者強化と対向訓練を適用した。
最高のスピーカーベースのMTLは、Switchboard Hub5'00の相対的な改善を7%達成しています。
論文 参考訳(メタデータ) (2022-11-11T17:40:08Z) - Multi-turn RNN-T for streaming recognition of multi-party speech [2.899379040028688]
この研究は、モデル設計における第一優先事項としてリアルタイム適用性を求め、マルチスピーカリカレントニューラルネットワークトランスデューサ(MS-RNN-T)に関する以前の研究におけるいくつかの課題に対処する。
トレーニング中に重なり合う音声シミュレーションを導入し、LibriSpeechMixテストセットの相対単語誤り率(WER)を14%改善した。
本稿では,モデルアーキテクチャの変更を伴わずに任意の話者数に一般化する重畳型ターゲットアレンジメント戦略を備えた,新しいマルチターンRNN-T(MT-RNN-T)モデルを提案する。
論文 参考訳(メタデータ) (2021-12-19T17:22:58Z) - SpeechMoE: Scaling to Large Acoustic Models with Dynamic Routing Mixture
of Experts [29.582683923988203]
Mixture of Experts (MoE)ベースのTransformerは多くの領域で有望な結果を示している。
本研究では,音声認識のためのモデルであるSpeechMoEについて検討する。
新しいルータアーキテクチャは、共有埋め込みネットワークからの情報を同時に利用できるSpeechMoEで使用されている。
論文 参考訳(メタデータ) (2021-05-07T02:38:23Z) - Many-to-Many Voice Transformer Network [55.17770019619078]
本稿では,S2S学習フレームワークに基づく音声変換(VC)手法を提案する。
これにより、音声特性、ピッチ輪郭、入力音声の持続時間の同時変換が可能となる。
論文 参考訳(メタデータ) (2020-05-18T04:02:08Z) - Deep Speaker Embeddings for Far-Field Speaker Recognition on Short
Utterances [53.063441357826484]
深層話者埋め込みに基づく話者認識システムは,制御条件下での大幅な性能向上を実現している。
制御されていない雑音環境下での短い発話に対する話者検証は、最も困難で要求の高いタスクの1つである。
本稿では,a)環境騒音の有無による遠距離話者検証システムの品質向上,b)短時間発話におけるシステム品質劣化の低減という2つの目標を達成するためのアプローチを提案する。
論文 参考訳(メタデータ) (2020-02-14T13:34:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。