Fugu-MT 論文翻訳(概要): Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition

論文の概要: Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition

arxiv url: http://arxiv.org/abs/2403.19822v1
Date: Thu, 28 Mar 2024 20:23:39 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-01 17:13:56.534859
Title: Multi-Stage Multi-Modal Pre-Training for Automatic Speech Recognition
Title（参考訳）: 自動音声認識のためのマルチステージマルチモーダル事前訓練
Authors: Yash Jain, David Chan, Pranav Dheram, Aparna Khare, Olabanji Shonibare, Venkatesh Ravichandran, Shalini Ghosh,
Abstract要約: 本稿では,マルチモーダルとマルチタスクによる教師なし事前学習と,翻訳に基づく教師付き中間学習を併用した新しい手法を提案する。このような多段階的なアプローチが,Librispeech と SUPERB のベースラインを最大38.45%上回る相対単語誤り率 (WER) の向上につながることを実証的に実証した。
参考スコア（独自算出の注目度）: 10.36399200974439
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in machine learning have demonstrated that multi-modal pre-training can improve automatic speech recognition (ASR) performance compared to randomly initialized models, even when models are fine-tuned on uni-modal tasks. Existing multi-modal pre-training methods for the ASR task have primarily focused on single-stage pre-training where a single unsupervised task is used for pre-training followed by fine-tuning on the downstream task. In this work, we introduce a novel method combining multi-modal and multi-task unsupervised pre-training with a translation-based supervised mid-training approach. We empirically demonstrate that such a multi-stage approach leads to relative word error rate (WER) improvements of up to 38.45% over baselines on both Librispeech and SUPERB. Additionally, we share several important findings for choosing pre-training methods and datasets.
Abstract（参考訳）: 機械学習の最近の進歩は、モデルがユニモーダルタスクで微調整された場合でも、ランダムに初期化されるモデルと比較して、マルチモーダル事前学習が自動音声認識(ASR)性能を改善することを実証している。 ASRタスクの既存のマルチモーダル事前訓練手法は、主に1つの教師なしタスクが事前訓練に使用され、その後下流タスクの微調整が行われるシングルステージ事前訓練に焦点を当てている。本研究では,マルチモーダルとマルチタスクによる教師なし事前学習と,翻訳に基づく教師付き中間学習手法を組み合わせた新しい手法を提案する。このような多段階的なアプローチが,Librispeech と SUPERB のベースラインを最大38.45%上回る相対単語誤り率 (WER) の向上につながることを実証的に実証した。さらに,事前学習方法やデータセットを選択する上で,いくつかの重要な知見を共有している。

関連論文リスト

MultiMAE Meets Earth Observation: Pre-training Multi-modal Multi-task Masked Autoencoders for Earth Observation Tasks [11.359741665798195]
本稿では,地球観測(EO)データに対する,より柔軟なマルチモーダル・マルチタスク事前学習戦略について検討する。具体的には,マルチモーダルなマルチタスク・マスケッド・オートエンコーダ(MultiMAE)を採用し,多様な入力モダリティを再構成することによって事前学習を行う。提案手法は,モダリティ固有の事前学習モデルを必要とせず,多様な入力構成を処理し,高い柔軟性を示す。
論文参考訳（メタデータ） (2025-05-20T22:24:36Z)
Task-Oriented Pre-Training for Drivable Area Detection [5.57325257338134]
本稿では,冗長なセグメンテーションの提案から始まるタスク指向の事前学習手法を提案する。次に、コントラスト言語画像事前学習(CLIP)モデルを微調整するための特定カテゴリー強化微調整(SCEF)戦略を導入する。このアプローチは、手動のアノテートデータを使用してさらに微調整された事前学習モデルの粗いトレーニングデータを生成することができる。
論文参考訳（メタデータ） (2024-09-30T10:25:47Z)
Denoising Pre-Training and Customized Prompt Learning for Efficient Multi-Behavior Sequential Recommendation [69.60321475454843]
マルチビヘイビアシークエンシャルレコメンデーションに適した,最初の事前学習および迅速な学習パラダイムであるDPCPLを提案する。事前学習段階において,複数の時間スケールでノイズを除去する新しい行動マイナ (EBM) を提案する。次に,提案するCustomized Prompt Learning (CPL)モジュールを用いて,事前学習したモデルを高効率にチューニングすることを提案する。
論文参考訳（メタデータ） (2024-08-21T06:48:38Z)
Instruction Pre-Training: Language Models are Supervised Multitask Learners [115.95022434390181]
本稿では,事前学習言語モデル(LM)に対して,命令応答対を用いた大規模生コーパスを付加するフレームワークを提案する。実験では,40以上のタスクカテゴリをカバーする2億の命令応答ペアを合成し,インストラクション事前学習の有効性を検証する。
論文参考訳（メタデータ） (2024-06-20T16:55:33Z)
Towards All-in-one Pre-training via Maximizing Multi-modal Mutual Information [77.80071279597665]
マルチモーダル相互情報事前学習(M3I事前学習)を最大化するオールインワン単段階事前学習手法を提案する。提案手法は,ImageNet分類,オブジェクト検出,LVIS長鎖オブジェクト検出,ADE20kセマンティックセマンティックセマンティックセマンティクスなど,様々なビジョンベンチマークにおける事前学習手法よりも優れた性能を実現する。
論文参考訳（メタデータ） (2022-11-17T18:59:49Z)
Effective Adaptation in Multi-Task Co-Training for Unified Autonomous Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文参考訳（メタデータ） (2022-09-19T12:15:31Z)
Recall and Learn: Fine-tuning Deep Pretrained Language Models with Less Forgetting [66.45372974713189]
本稿では,マルチタスク学習の概念を取り入れたリコール・アンド・ラーニング機構を提案し,事前学習タスクと下流タスクを共同で学習する。実験により,本手法はGLUEベンチマークの最先端性能を実現することが示された。我々はオープンソースのRecAdamを提供し、提案されたメカニズムをAdamに統合し、NLPコミュニティを施設化する。
論文参考訳（メタデータ） (2020-04-27T08:59:57Z)
Pre-training Text Representations as Meta Learning [113.3361289756749]
本稿では,下流タスクを効果的に学習するために,モデルがテキスト表現を学習する能力を直接最適化する学習アルゴリズムを提案する。マルチタスク事前学習とモデル非依存型メタラーニングの間には,一連のメタトレインステップによる本質的な関係があることが示されている。
論文参考訳（メタデータ） (2020-04-12T09:05:47Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。