Fugu-MT 論文翻訳(概要): Improved Multi-Stage Training of Online Attention-based Encoder-Decoder Models

論文の概要: Improved Multi-Stage Training of Online Attention-based Encoder-Decoder Models

arxiv url: http://arxiv.org/abs/1912.12384v1
Date: Sat, 28 Dec 2019 02:29:33 GMT
ステータス: 翻訳完了
システム内更新日: 2023-01-17 12:54:50.014101
Title: Improved Multi-Stage Training of Online Attention-based Encoder-Decoder Models
Title（参考訳）: オンラインアテンションに基づくエンコーダデコーダモデルの多段階学習の改善
Authors: Abhinav Garg, Dhananjaya Gowda, Ankur Kumar, Kwangyoun Kim, Mehul Kumar and Chanwoo Kim
Abstract要約: 本稿では,オンラインアテンションベースのエンコーダデコーダモデルの性能向上を目的としたマルチステージマルチタスクトレーニング手法を提案する。 3段階のアーキテクチャ粒度、文字エンコーダ、バイトペアエンコーダ(BPE)ベースのエンコーダ、アテンションデコーダに基づく3段階のトレーニングを提案する。我々のモデルでは,小モデルと大モデルでそれぞれ5.04%と4.48%の単語誤り率(WER)をLibrispeechテストクリーンデータ上で達成している。
参考スコア（独自算出の注目度）: 20.81248613653279
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In this paper, we propose a refined multi-stage multi-task training strategy to improve the performance of online attention-based encoder-decoder (AED) models. A three-stage training based on three levels of architectural granularity namely, character encoder, byte pair encoding (BPE) based encoder, and attention decoder, is proposed. Also, multi-task learning based on two-levels of linguistic granularity namely, character and BPE, is used. We explore different pre-training strategies for the encoders including transfer learning from a bidirectional encoder. Our encoder-decoder models with online attention show 35% and 10% relative improvement over their baselines for smaller and bigger models, respectively. Our models achieve a word error rate (WER) of 5.04% and 4.48% on the Librispeech test-clean data for the smaller and bigger models respectively after fusion with long short-term memory (LSTM) based external language model (LM).
Abstract（参考訳）: 本稿では,オンラインアテンションベースのエンコーダデコーダ(AED)モデルの性能向上を目的としたマルチタスク学習手法を提案する。キャラクタエンコーダ,バイトペアエンコーディング(bpe)ベースのエンコーダ,アテンションデコーダという,アーキテクチャ上の3段階の粒度に基づく3段階のトレーニングを提案する。また,2段階の言語的粒度,文字とBPEに基づくマルチタスク学習を用いる。双方向エンコーダからの転送学習を含むエンコーダの事前学習戦略について検討する。オンライン・アテンションを持つエンコーダ・デコーダモデルでは,小型モデルと大型モデルでは,それぞれベースラインが35%,10%向上した。本モデルでは,long short-term memory (lstm) ベースの外部言語モデル (lm) との融合後,より小さいモデルに対して,librispeechテストクリーンデータに対して5.4%,4.48%の単語誤り率(wer)を達成する。

関連論文リスト

METEOR: Multi-Encoder Collaborative Token Pruning for Efficient Vision Language Models [92.37117312251755]
プログレッシブプルーニングフレームワークであるMulti-Encoder collaboraTivE tOken pRuning (METEOR)を提案する。マルチビジョン符号化では,各エンコーダ内の冗長トークンをランク誘導型協調トークン代入戦略により破棄する。マルチビジョン融合では、異なるエンコーダの視覚的特徴を組み合わせながら、コラボレーティブプルーニングによるクロスエンコーダ冗長性を低減させる。
論文参考訳（メタデータ） (2025-07-28T13:50:53Z)
EVEv2: Improved Baselines for Encoder-Free Vision-Language Models [72.07868838411474]
既存のエンコーダフリービジョン言語モデル(VLM)は、エンコーダベースモデルと性能ギャップを狭めている。我々は,主流のエンコーダをベースとしたVLMと競合するエンコーダフリーVLMの効率的な戦略を開発する。統一モデルにおいて、視覚と言語を適切に階層的に関連付けることで、モダリティ間の干渉を減少させることを示す。
論文参考訳（メタデータ） (2025-02-10T18:59:58Z)
MoVE-KD: Knowledge Distillation for VLMs with Mixture of Visual Encoders [28.22099619211775]
視覚エンコーダは視覚言語モデル(VLM)の基本コンポーネントである近年の研究では、複数のエンコーダを単一のVLMに組み込んでおり、計算コストが大幅に増大している。本稿では、複数の視覚エンコーダのユニークな習熟度を1つの効率的なエンコーダモデルに抽出する新しい枠組みを提案する。
論文参考訳（メタデータ） (2025-01-03T09:10:34Z)
4D ASR: Joint Beam Search Integrating CTC, Attention, Transducer, and Mask Predict Decoders [53.297697898510194]
我々は、4つのデコーダが同一のエンコーダを共有する共同モデリング手法を提案し、これを4Dモデリングと呼ぶ。 4Dモデルを効率的に訓練するために,マルチタスク学習を安定化させる2段階のトレーニング戦略を導入する。さらに,3つのデコーダを組み合わせることで,新しい1パスビーム探索アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-06-05T05:18:20Z)
Efficient Transformer Encoders for Mask2Former-style models [57.54752243522298]
ECO-M2Fは、入力画像上に条件付きエンコーダ内の隠蔽層数を自己選択する戦略である。提案手法は、性能を維持しながら、予測エンコーダの計算コストを削減する。アーキテクチャ構成では柔軟性があり、セグメンテーションタスクを超えてオブジェクト検出まで拡張できる。
論文参考訳（メタデータ） (2024-04-23T17:26:34Z)
LLM2Vec: Large Language Models Are Secretly Powerful Text Encoders [34.421335513040795]
大規模デコーダのみの言語モデル(LLM)は、今日のNLPタスクとベンチマークのほとんどで最先端のモデルである。 LLM2Vecは、任意のデコーダのみのLCMを強力なテキストエンコーダに変換する、単純な教師なしアプローチである。
論文参考訳（メタデータ） (2024-04-09T02:51:05Z)
Extreme Encoder Output Frame Rate Reduction: Improving Computational Latencies of Large End-to-End Models [59.57732929473519]
エンコーダに複数のフレーム削減層を適用し,少数の出力フレームにエンコーダ出力を圧縮する。入力音声の2.56秒毎に1つのエンコーダ出力フレームを生成できることを示す。
論文参考訳（メタデータ） (2024-02-27T03:40:44Z)
Code Representation Learning At Scale [75.04686476303436]
2段階の事前学習スキームを用いて,大量のコードデータを用いてコード表現学習を行う。まず、マスキング言語モデリングにおけるランダム性と、プログラミング言語の構造的側面の両方を活用して、エンコーダを訓練する。そして、教師なしの方法で強陰性かつ強正に構築された対照的な学習を通して表現を強化する。
論文参考訳（メタデータ） (2024-02-02T22:19:15Z)
Speculative Contrastive Decoding [55.378200871224074]
大規模言語モデル(LLM)は、言語タスクにおいて例外的な性能を示すが、その自動回帰推論は高い計算要求のために制限され、露出バイアスにより準最適である。投機的復号法とコントラスト的復号法に着想を得て, 単純かつ強力な復号法である投機的コントラスト的復号法(SCD)を導入する。
論文参考訳（メタデータ） (2023-11-15T14:15:30Z)
Triple-View Knowledge Distillation for Semi-Supervised Semantic Segmentation [54.23510028456082]
半教師付きセマンティックセグメンテーションのためのトリプルビュー知識蒸留フレームワークTriKDを提案する。このフレームワークは、トリプルビューエンコーダとデュアル周波数デコーダを含む。
論文参考訳（メタデータ） (2023-09-22T01:02:21Z)
An Exploration of Encoder-Decoder Approaches to Multi-Label Classification for Legal and Biomedical Text [20.100081284294973]
マルチラベル分類のための4つの手法を比較し,エンコーダのみに基づく2つの手法と,エンコーダ-デコーダに基づく2つの手法を比較した。その結果、エンコーダ-デコーダ法はエンコーダのみの手法よりも優れており、より複雑なデータセットに有利であることがわかった。
論文参考訳（メタデータ） (2023-05-09T17:13:53Z)
Relaxed Attention: A Simple Method to Boost Performance of End-to-End Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。 WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文参考訳（メタデータ） (2021-07-02T21:01:17Z)
Large-scale Transfer Learning for Low-resource Spoken Language Understanding [31.013231069185387]
本稿では,3つのエンコーダ拡張戦略とともに,注意に基づく音声言語理解モデルを提案する。言語間の移動学習とマルチタスク戦略は,ベースラインと比較して最大4:52%,3:89%改善されている。
論文参考訳（メタデータ） (2020-08-13T03:43:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。