論文の概要: Improved Multi-Stage Training of Online Attention-based Encoder-Decoder
Models
- arxiv url: http://arxiv.org/abs/1912.12384v1
- Date: Sat, 28 Dec 2019 02:29:33 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-17 12:54:50.014101
- Title: Improved Multi-Stage Training of Online Attention-based Encoder-Decoder
Models
- Title(参考訳): オンラインアテンションに基づくエンコーダデコーダモデルの多段階学習の改善
- Authors: Abhinav Garg, Dhananjaya Gowda, Ankur Kumar, Kwangyoun Kim, Mehul
Kumar and Chanwoo Kim
- Abstract要約: 本稿では,オンラインアテンションベースのエンコーダデコーダモデルの性能向上を目的としたマルチステージマルチタスクトレーニング手法を提案する。
3段階のアーキテクチャ粒度、文字エンコーダ、バイトペアエンコーダ(BPE)ベースのエンコーダ、アテンションデコーダに基づく3段階のトレーニングを提案する。
我々のモデルでは,小モデルと大モデルでそれぞれ5.04%と4.48%の単語誤り率(WER)をLibrispeechテストクリーンデータ上で達成している。
- 参考スコア(独自算出の注目度): 20.81248613653279
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose a refined multi-stage multi-task training strategy
to improve the performance of online attention-based encoder-decoder (AED)
models. A three-stage training based on three levels of architectural
granularity namely, character encoder, byte pair encoding (BPE) based encoder,
and attention decoder, is proposed. Also, multi-task learning based on
two-levels of linguistic granularity namely, character and BPE, is used. We
explore different pre-training strategies for the encoders including transfer
learning from a bidirectional encoder. Our encoder-decoder models with online
attention show 35% and 10% relative improvement over their baselines for
smaller and bigger models, respectively. Our models achieve a word error rate
(WER) of 5.04% and 4.48% on the Librispeech test-clean data for the smaller and
bigger models respectively after fusion with long short-term memory (LSTM)
based external language model (LM).
- Abstract(参考訳): 本稿では,オンラインアテンションベースのエンコーダデコーダ(AED)モデルの性能向上を目的としたマルチタスク学習手法を提案する。
キャラクタエンコーダ,バイトペアエンコーディング(bpe)ベースのエンコーダ,アテンションデコーダという,アーキテクチャ上の3段階の粒度に基づく3段階のトレーニングを提案する。
また,2段階の言語的粒度,文字とBPEに基づくマルチタスク学習を用いる。
双方向エンコーダからの転送学習を含むエンコーダの事前学習戦略について検討する。
オンライン・アテンションを持つエンコーダ・デコーダモデルでは,小型モデルと大型モデルでは,それぞれベースラインが35%,10%向上した。
本モデルでは,long short-term memory (lstm) ベースの外部言語モデル (lm) との融合後,より小さいモデルに対して,librispeechテストクリーンデータに対して5.4%,4.48%の単語誤り率(wer)を達成する。
関連論文リスト
- Extreme Encoder Output Frame Rate Reduction: Improving Computational
Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。
入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文 参考訳(メタデータ) (2024-02-27T03:40:44Z) - Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。
まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。
そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文 参考訳(メタデータ) (2024-02-02T22:19:15Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。
投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文 参考訳(メタデータ) (2023-11-15T14:15:30Z) - DEED: Dynamic Early Exit on Decoder for Accelerating Encoder-Decoder
Transformer Models [22.276574156358084]
我々は,各デコーダ層が妥当な予測を生成できるように,深層監視で訓練されたマルチエキシット・エンコーダ・デコーダ・トランスフォーマモデルを構築した。
提案手法は,ベースラインに比べて精度が向上し,全体の推論遅延を30%から60%削減できることを示す。
論文 参考訳(メタデータ) (2023-11-15T01:01:02Z) - Triple-View Knowledge Distillation for Semi-Supervised Semantic
Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。
このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文 参考訳(メタデータ) (2023-09-22T01:02:21Z) - An Exploration of Encoder-Decoder Approaches to Multi-Label
Classification for Legal and Biomedical Text [20.100081284294973]
マルチラベル分類のための4つの手法を比較し,エンコーダのみに基づく2つの手法と,エンコーダ-デコーダに基づく2つの手法を比較した。
その結果、エンコーダ-デコーダ法はエンコーダのみの手法よりも優れており、より複雑なデータセットに有利であることがわかった。
論文 参考訳(メタデータ) (2023-05-09T17:13:53Z) - UperFormer: A Multi-scale Transformer-based Decoder for Semantic
Segmentation [12.712880544703332]
そこで我々はUperFormerと呼ばれるトランスフォーマーベースのデコーダを提案する。
UperFormerは階層エンコーダ用のプラグイン・アンド・プレイであり、エンコーダアーキテクチャに関係なく高品質なセグメンテーション結果が得られる。
我々の最良のモデルは、50.18のシングルスケールmIoUと、現在の最先端モデルと同等の51.8のマルチスケールmIoUが得られる。
論文 参考訳(メタデータ) (2022-11-25T06:51:07Z) - Z-Code++: A Pre-trained Language Model Optimized for Abstractive
Summarization [108.09419317477986]
Z-Code++は、抽象的なテキスト要約に最適化された、新しいトレーニング済み言語モデルである。
このモデルは、まず、言語理解のためのテキストコーパスを用いて事前訓練され、続いて、接地テキスト生成のための要約コーパス上で継続的に事前訓練される。
パラメータ効率はXSumでは600倍のPaLM-540B,SAMSumでは200倍のGPT3-175Bである。
論文 参考訳(メタデータ) (2022-08-21T01:00:54Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Large-scale Transfer Learning for Low-resource Spoken Language
Understanding [31.013231069185387]
本稿では,3つのエンコーダ拡張戦略とともに,注意に基づく音声言語理解モデルを提案する。
言語間の移動学習とマルチタスク戦略は,ベースラインと比較して最大4:52%,3:89%改善されている。
論文 参考訳(メタデータ) (2020-08-13T03:43:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。