論文の概要: 3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech
recognition
- arxiv url: http://arxiv.org/abs/2204.03178v1
- Date: Thu, 7 Apr 2022 03:10:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-04-09 05:22:29.579751
- Title: 3M: Multi-loss, Multi-path and Multi-level Neural Networks for speech
recognition
- Title(参考訳): 3m:音声認識のためのマルチロス、マルチパス、マルチレベルニューラルネットワーク
- Authors: Zhao You, Shulin Feng, Dan Su, Dong Yu
- Abstract要約: 我々は、ASRタスクのさらなる改善を実現するために、いくつかのアプローチを特定し、統合する。
特に、マルチロスは共同CTC/AED損失を指し、マルチパスはMixture-of-Experts(MoE)アーキテクチャを表す。
WenetSpeechデータセットを用いて提案手法の評価を行い,提案手法がCERの相対的改善を12.2%-17.6%に与えることを示す。
- 参考スコア(独自算出の注目度): 31.992543274210835
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Recently, Conformer based CTC/AED model has become a mainstream architecture
for ASR. In this paper, based on our prior work, we identify and integrate
several approaches to achieve further improvements for ASR tasks, which we
denote as multi-loss, multi-path and multi-level, summarized as "3M" model.
Specifically, multi-loss refers to the joint CTC/AED loss and multi-path
denotes the Mixture-of-Experts(MoE) architecture which can effectively increase
the model capacity without remarkably increasing computation cost. Multi-level
means that we introduce auxiliary loss at multiple level of a deep model to
help training. We evaluate our proposed method on the public WenetSpeech
dataset and experimental results show that the proposed method provides
12.2%-17.6% relative CER improvement over the baseline model trained by Wenet
toolkit. On our large scale dataset of 150k hours corpus, the 3M model has also
shown obvious superiority over the baseline Conformer model.
- Abstract(参考訳): 近年、コンフォーマーベースのCTC/AEDモデルは、ASRの主流アーキテクチャとなっている。
本稿では,先行研究に基づいて,ASRタスクのさらなる改善を実現するために,複数のアプローチを同定・統合し,マルチロス,マルチパス,マルチレベルを「3M」モデルとして記述する。
特に、Multi-lossは共同CTC/AED損失を指し、Mixture-of-Experts(MoE)アーキテクチャは計算コストを大幅に増大させることなくモデル容量を効果的に増加させることができる。
マルチレベルとは、トレーニングを支援するために、深層モデルの複数のレベルで補助損失を導入することを意味する。
提案手法をwenetspeechデータセット上で評価し,提案手法がwenet toolkitでトレーニングされたベースラインモデルに対して12.2%-17.6%の相対的なcer改善をもたらすことを示した。
150k時間コーパスの大規模データセットでは、3mモデルがベースライン適合モデルよりも明らかに優れていることも示しています。
関連論文リスト
- MMEvol: Empowering Multimodal Large Language Models with Evol-Instruct [148.39859547619156]
我々は,新しいマルチモーダル命令データ進化フレームワークであるMMEvolを提案する。
MMEvolは、きめ細かい知覚、認知的推論、相互作用の進化の洗練された組み合わせによって、データ品質を反復的に改善する。
提案手法は,9つのタスクにおいて,最先端モデルに比べて有意に少ない精度でSOTA(State-of-the-art)性能を実現する。
論文 参考訳(メタデータ) (2024-09-09T17:44:00Z) - Efficient Multi-Task Large Model Training via Data Heterogeneity-aware Model Management [35.06717005729781]
最近の基礎モデルは、複数の機械学習(ML)タスクと複数のデータモダリティを統一されたベースモデル構造といくつかの特別なモデルコンポーネントで処理することができる。
このようなマルチタスク(MT)マルチモーダル(MM)モデルの開発は、既存のトレーニングシステムに重要なモデル管理課題をもたらす。
プロトタイプシステムを構築し,様々な大規模MT MMモデル上で評価する。
実験では,最先端のトレーニングシステムと比較して,スピードアップ比が71%まで向上し,システムの性能と効率が向上した。
論文 参考訳(メタデータ) (2024-09-05T09:10:40Z) - The Power of Noise: Toward a Unified Multi-modal Knowledge Graph Representation Framework [46.69058301083775]
マルチモーダルな知識グラフ(MMKG)表現学習フレームワークは,構造化された知識を大規模に多モーダルな言語モデル(LLM)に統合するために重要である。
モードレベルのノイズマスキングを備えたトランスフォーマーアーキテクチャを用いた新しいSNAG手法を提案する。
提案手法は,その堅牢性と汎用性を実証し,合計10データセットにわたるSOTA性能を実現する。
論文 参考訳(メタデータ) (2024-03-11T15:48:43Z) - When Parameter-efficient Tuning Meets General-purpose Vision-language
Models [65.19127815275307]
PETALは、一意のモード近似技術によって達成される全パラメータの0.5%しか必要とせず、トレーニングプロセスに革命をもたらす。
実験の結果,PETALは現状の手法をほとんどのシナリオで上回るだけでなく,完全な微調整モデルよりも優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-16T17:13:08Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - Mixture-of-Expert Conformer for Streaming Multilingual ASR [33.14594179710925]
本稿では,マルチランガル・コンバータによるマルチランガル・コンバータを提案する。
提案したMoE層は、専門家の数が増加するにつれて、一定の数のパラメータを活性化することで効率的な推論を提供する。
提案したモデルを12言語で評価し,ベースラインよりも平均11.9%の相対的な改善を実現した。
論文 参考訳(メタデータ) (2023-05-25T02:16:32Z) - An Empirical Study of Multimodal Model Merging [148.48412442848795]
モデルマージは、異なるタスクでトレーニングされた複数のモデルを融合してマルチタスクソリューションを生成するテクニックである。
我々は、モダリティ固有のアーキテクチャのビジョン、言語、およびクロスモーダルトランスフォーマーをマージできる新しい目標に向けて研究を行っている。
本稿では,重み間の距離を推定し,マージ結果の指標となる2つの指標を提案する。
論文 参考訳(メタデータ) (2023-04-28T15:43:21Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Accurate and Lightweight Image Super-Resolution with Model-Guided Deep
Unfolding Network [63.69237156340457]
我々は、モデル誘導深部展開ネットワーク(MoG-DUN)と呼ばれるSISRに対する説明可能なアプローチを提示し、提唱する。
MoG-DUNは正確(エイリアスを少なくする)、計算効率(モデルパラメータを減らした)、多用途(多重劣化を処理できる)である。
RCAN, SRDNF, SRFBNを含む既存の最先端画像手法に対するMoG-DUN手法の優位性は、いくつかの一般的なデータセットと様々な劣化シナリオに関する広範な実験によって実証されている。
論文 参考訳(メタデータ) (2020-09-14T08:23:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。