論文の概要: Improved Multi-Stage Training of Online Attention-based Encoder-Decoder
Models
- arxiv url: http://arxiv.org/abs/1912.12384v1
- Date: Sat, 28 Dec 2019 02:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 12:54:50.014101
- Title: Improved Multi-Stage Training of Online Attention-based Encoder-Decoder
Models
- Title(参考訳): オンラインアテンションに基づくエンコーダデコーダモデルの多段階学習の改善
- Authors: Abhinav Garg, Dhananjaya Gowda, Ankur Kumar, Kwangyoun Kim, Mehul
Kumar and Chanwoo Kim
- Abstract要約: 本稿では,オンラインアテンションベースのエンコーダデコーダモデルの性能向上を目的としたマルチステージマルチタスクトレーニング手法を提案する。
3段階のアーキテクチャ粒度、文字エンコーダ、バイトペアエンコーダ(BPE)ベースのエンコーダ、アテンションデコーダに基づく3段階のトレーニングを提案する。
我々のモデルでは,小モデルと大モデルでそれぞれ5.04%と4.48%の単語誤り率(WER)をLibrispeechテストクリーンデータ上で達成している。
- 参考スコア(独自算出の注目度): 20.81248613653279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a refined multi-stage multi-task training strategy
to improve the performance of online attention-based encoder-decoder (AED)
models. A three-stage training based on three levels of architectural
granularity namely, character encoder, byte pair encoding (BPE) based encoder,
and attention decoder, is proposed. Also, multi-task learning based on
two-levels of linguistic granularity namely, character and BPE, is used. We
explore different pre-training strategies for the encoders including transfer
learning from a bidirectional encoder. Our encoder-decoder models with online
attention show 35% and 10% relative improvement over their baselines for
smaller and bigger models, respectively. Our models achieve a word error rate
(WER) of 5.04% and 4.48% on the Librispeech test-clean data for the smaller and
bigger models respectively after fusion with long short-term memory (LSTM)
based external language model (LM).
- Abstract(参考訳): 本稿では,オンラインアテンションベースのエンコーダデコーダ(AED)モデルの性能向上を目的としたマルチタスク学習手法を提案する。
キャラクタエンコーダ,バイトペアエンコーディング(bpe)ベースのエンコーダ,アテンションデコーダという,アーキテクチャ上の3段階の粒度に基づく3段階のトレーニングを提案する。
また,2段階の言語的粒度,文字とBPEに基づくマルチタスク学習を用いる。
双方向エンコーダからの転送学習を含むエンコーダの事前学習戦略について検討する。
オンライン・アテンションを持つエンコーダ・デコーダモデルでは,小型モデルと大型モデルでは,それぞれベースラインが35%,10%向上した。
本モデルでは,long short-term memory (lstm) ベースの外部言語モデル (lm) との融合後,より小さいモデルに対して,librispeechテストクリーンデータに対して5.4%,4.48%の単語誤り率(wer)を達成する。
関連論文リスト
- 4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。
4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。
さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-06-05T05:18:20Z) - Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。
提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。
アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文 参考訳(メタデータ) (2024-04-23T17:26:34Z) - LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。
LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文 参考訳(メタデータ) (2024-04-09T02:51:05Z) - Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - An Exploration of Encoder-Decoder Approaches to Multi-Label
Classification for Legal and Biomedical Text [20.100081284294973]
マルチラベル分類のための4つの手法を比較し,エンコーダのみに基づく2つの手法と,エンコーダ-デコーダに基づく2つの手法を比較した。
その結果、エンコーダ-デコーダ法はエンコーダのみの手法よりも優れており、より複雑なデータセットに有利であることがわかった。
論文 参考訳(メタデータ) (2023-05-09T17:13:53Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Large-scale Transfer Learning for Low-resource Spoken Language
Understanding [31.013231069185387]
本稿では,3つのエンコーダ拡張戦略とともに,注意に基づく音声言語理解モデルを提案する。
言語間の移動学習とマルチタスク戦略は,ベースラインと比較して最大4:52%,3:89%改善されている。
論文 参考訳(メタデータ) (2020-08-13T03:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。