論文の概要: End-to-End Automatic Speech Recognition with Deep Mutual Learning
- arxiv url: http://arxiv.org/abs/2102.08154v1
- Date: Tue, 16 Feb 2021 13:52:06 GMT
- ステータス: 処理完了
- システム内更新日: 2021-02-17 15:19:13.662630
- Title: End-to-End Automatic Speech Recognition with Deep Mutual Learning
- Title(参考訳): 深層相互学習によるエンドツーエンド自動音声認識
- Authors: Ryo Masumura, Mana Ihori, Akihiko Takashima, Tomohiro Tanaka, Takanori
Ashihara
- Abstract要約: この論文は、エンドツーエンドASRモデルに深層相互学習を適用する最初のものである。
DMLでは、トレーニングプロセス全体を通して互いに模倣することで、複数のモデルを同時および共同でトレーニングします。
従来の学習法と比較して,dmlは両方のモデリング設定のasr性能が向上することを示す。
- 参考スコア(独自算出の注目度): 29.925641799136663
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper is the first study to apply deep mutual learning (DML) to
end-to-end ASR models. In DML, multiple models are trained simultaneously and
collaboratively by mimicking each other throughout the training process, which
helps to attain the global optimum and prevent models from making
over-confident predictions. While previous studies applied DML to simple
multi-class classification problems, there are no studies that have used it on
more complex sequence-to-sequence mapping problems. For this reason, this paper
presents a method to apply DML to state-of-the-art Transformer-based end-to-end
ASR models. In particular, we propose to combine DML with recent representative
training techniques. i.e., label smoothing, scheduled sampling, and
SpecAugment, each of which are essential for powerful end-to-end ASR models. We
expect that these training techniques work well with DML because DML has
complementary characteristics. We experimented with two setups for Japanese ASR
tasks: large-scale modeling and compact modeling. We demonstrate that DML
improves the ASR performance of both modeling setups compared with conventional
learning methods including knowledge distillation. We also show that combining
DML with the existing training techniques effectively improves ASR performance.
- Abstract(参考訳): 本論文は,エンドツーエンドのASRモデルに深層相互学習(DML)を適用した最初の研究である。
DMLでは、トレーニングプロセスを通してお互いを模倣することにより、複数のモデルが同時に共同でトレーニングされるため、グローバルな最適を達成し、モデルが過剰な予測を下すのを防ぐのに役立ちます。
従来の研究では、DMLを単純な多クラス分類問題に適用していたが、より複雑なシーケンス対シーケンスマッピング問題に利用した研究はない。
そこで本稿では,DMLを最先端のTransformerベースのエンドツーエンドASRモデルに適用する手法を提案する。
特に,DMLと最近の代表訓練技術を組み合わせることを提案する。
ラベルスムーシング、スケジュールサンプリング、仕様化は、いずれも強力なエンドツーエンドasrモデルに不可欠なものである。
DMLには相補的な特徴があるので,これらのトレーニング手法がDMLとうまく連携することを期待している。
大規模モデリングとコンパクトモデリングの2つのasrタスクについて実験を行った。
我々は,DMLが知識蒸留を含む従来の学習手法と比較して,両方のモデリング装置のASR性能を向上させることを示した。
また,既存のトレーニング手法とDMLを組み合わせることで,ASRの性能が向上することを示す。
関連論文リスト
- LLMs Can Evolve Continually on Modality for X-Modal Reasoning [62.2874638875554]
既存の手法は、モーダル固有の事前訓練とジョイント・モーダルチューニングに大きく依存しており、新しいモーダルへと拡張する際の計算上の負担が大きくなった。
PathWeaveは、Modal-Path sWitchingとExpAnsion機能を備えた柔軟でスケーラブルなフレームワークである。
PathWeaveは最先端のMLLMと互換性があり、パラメータトレーニングの負担を98.73%削減する。
論文 参考訳(メタデータ) (2024-10-26T13:19:57Z) - Efficient Multi-Task Large Model Training via Data Heterogeneity-aware Model Management [35.06717005729781]
最近の基礎モデルは、複数の機械学習(ML)タスクと複数のデータモダリティを統一されたベースモデル構造といくつかの特別なモデルコンポーネントで処理することができる。
このようなマルチタスク(MT)マルチモーダル(MM)モデルの開発は、既存のトレーニングシステムに重要なモデル管理課題をもたらす。
プロトタイプシステムを構築し,様々な大規模MT MMモデル上で評価する。
実験では,最先端のトレーニングシステムと比較して,スピードアップ比が71%まで向上し,システムの性能と効率が向上した。
論文 参考訳(メタデータ) (2024-09-05T09:10:40Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - LLAVADI: What Matters For Multimodal Large Language Models Distillation [77.73964744238519]
本研究では,新しい効率的なモデル構造を提案するのではなく,スクラッチから小規模MLLMを訓練する。
本研究は, 知識蒸留プロセスにおける学習戦略, モデル選択, 蒸留アルゴリズムに関するものである。
異なるベンチマークと適切な戦略を評価することで、2.7Bの小型モデルでも7Bまたは13Bのパラメータを持つ大型モデルと同等に動作することができる。
論文 参考訳(メタデータ) (2024-07-28T06:10:47Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient Fine-Tuning in Deep Metric Learning [13.964106147449051]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Improving Discriminative Multi-Modal Learning with Large-Scale
Pre-Trained Models [51.5543321122664]
本稿では,大規模な事前学習型ユニモーダルモデルを用いて,識別型マルチモーダル学習を向上する方法について検討する。
MMLoRA(Multi-Modal Low-Rank Adaptation Learning)を導入する。
論文 参考訳(メタデータ) (2023-10-08T15:01:54Z) - AdaMerging: Adaptive Model Merging for Multi-Task Learning [68.75885518081357]
本稿では,Adaptive Model Merging (AdaMerging)と呼ばれる革新的な手法を紹介する。
本来のトレーニングデータに頼ることなく、タスクレベルでも階層的にも、モデルマージの係数を自律的に学習することを目指している。
AdaMergingは、現在の最先端のタスク演算のマージ方式と比較すると、パフォーマンスが11%向上している。
論文 参考訳(メタデータ) (2023-10-04T04:26:33Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Adapted Multimodal BERT with Layer-wise Fusion for Sentiment Analysis [84.12658971655253]
本稿では,マルチモーダルタスクのためのBERTベースのアーキテクチャであるAdapted Multimodal BERTを提案する。
アダプタはタスクの事前訓練された言語モデルを手動で調整し、融合層はタスク固有の層ワイドな音声視覚情報とテキストBERT表現を融合させる。
われわれは、このアプローチがより効率的なモデルにつながり、微調整されたモデルよりも優れ、ノイズの入力に堅牢であることを示した。
論文 参考訳(メタデータ) (2022-12-01T17:31:42Z) - Revisiting Training Strategies and Generalization Performance in Deep
Metric Learning [28.54755295856929]
我々は、最も広く使われているDML目的関数を再検討し、重要なパラメータ選択について検討する。
一貫した比較では、DMLの目的は文学で示されるよりもはるかに高い飽和を示す。
これらの知見を公開し、ランキングベースのDMLモデルの性能を確実に向上させるために、単純かつ効果的に正規化を訓練することを提案する。
論文 参考訳(メタデータ) (2020-02-19T22:16:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。