論文の概要: Stochastic Attention Head Removal: A simple and effective method for
improving Transformer Based ASR Models
- arxiv url: http://arxiv.org/abs/2011.04004v2
- Date: Tue, 6 Apr 2021 15:29:51 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-28 08:45:27.762857
- Title: Stochastic Attention Head Removal: A simple and effective method for
improving Transformer Based ASR Models
- Title(参考訳): 確率的アテンションヘッド除去:トランスフォーマーに基づくASRモデルの改善のためのシンプルで効果的な方法
- Authors: Shucong Zhang, Erfan Loweimi, Peter Bell, Steve Renals
- Abstract要約: トレーニング中に無作為にアテンションヘッドを取り除き、全てのアテンションヘッドをテスト時に保持し、最終モデルは異なるアーキテクチャを持つモデルのアンサンブルである。
提案手法は,ウォールストリートジャーナル,AISHELL,Switchboard,AMIデータセットにおいて,強力なベースラインよりも一貫したパフォーマンス向上を実現する。
- 参考スコア(独自算出の注目度): 40.991809705930955
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, Transformer based models have shown competitive automatic speech
recognition (ASR) performance. One key factor in the success of these models is
the multi-head attention mechanism. However, for trained models, we have
previously observed that many attention matrices are close to diagonal,
indicating the redundancy of the corresponding attention heads. We have also
found that some architectures with reduced numbers of attention heads have
better performance. Since the search for the best structure is time
prohibitive, we propose to randomly remove attention heads during training and
keep all attention heads at test time, thus the final model is an ensemble of
models with different architectures. The proposed method also forces each head
independently learn the most useful patterns. We apply the proposed method to
train Transformer based and Convolution-augmented Transformer (Conformer) based
ASR models. Our method gives consistent performance gains over strong baselines
on the Wall Street Journal, AISHELL, Switchboard and AMI datasets. To the best
of our knowledge, we have achieved state-of-the-art end-to-end Transformer
based model performance on Switchboard and AMI.
- Abstract(参考訳): 近年,トランスフォーマティブ・モデルが競合型自動音声認識(asr)性能を示している。
これらのモデルの成功の重要な要因の1つは、マルチヘッドアテンションメカニズムである。
しかし, トレーニングモデルでは, 多くの注意行列が対角線に近づき, 対応する注意頭部の冗長性を示している。
また、注目度を減らしたアーキテクチャでは、パフォーマンスが向上していることもわかりました。
最適構造の探索は時間的に禁止されるため、トレーニング中に注意ヘッドをランダムに除去し、全ての注意ヘッドをテスト時に保持することを提案し、最終モデルは異なるアーキテクチャを持つモデルの集合である。
提案手法はまた,各頭部に最も有用なパターンを独立に学習させる。
提案手法は,Transformer ベースと Convolution-augmented Transformer (Conformer) ベースの ASR モデルに応用される。
提案手法は,ウォールストリートジャーナル,AISHELL,Switchboard,AMIデータセットにおいて,強力なベースラインよりも一貫したパフォーマンス向上を実現する。
我々の知る限り、SwitchboardとAMIで最先端のエンドツーエンドトランスフォーマーベースのモデルパフォーマンスを実現しました。
関連論文リスト
- ConvMixFormer- A Resource-efficient Convolution Mixer for Transformer-based Dynamic Hand Gesture Recognition [5.311735227179715]
動的ハンドジェスチャのための新しいConvMixFormerアーキテクチャを探索し,考案する。
提案手法は,NVidia Dynamic Hand Gesture と Briareo のデータセットを用いて評価する。
我々のモデルは、単一およびマルチモーダル入力に対して最先端の結果を得た。
論文 参考訳(メタデータ) (2024-11-11T16:45:18Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Decision Transformer: Reinforcement Learning via Sequence Modeling [102.86873656751489]
本稿では,シーケンスモデリング問題として強化学習(RL)を抽象化するフレームワークを提案する。
本稿では,RLを条件付きシーケンスモデルとして扱うアーキテクチャであるDecision Transformerを提案する。
その単純さにもかかわらず、Decision Transformerは、Atari、OpenAI Gym、Key-to-Doorタスク上での最先端のオフラインRLベースラインのパフォーマンスと一致または超過する。
論文 参考訳(メタデータ) (2021-06-02T17:53:39Z) - Efficient pre-training objectives for Transformers [84.64393460397471]
本研究はトランスフォーマーモデルにおける高効率事前学習目標について検討する。
マスクトークンの除去と損失時のアウトプット全体の考慮が,パフォーマンス向上に不可欠な選択であることを証明する。
論文 参考訳(メタデータ) (2021-04-20T00:09:37Z) - TSNAT: Two-Step Non-Autoregressvie Transformer Models for Speech
Recognition [69.68154370877615]
非自己回帰(NAR)モデルは、出力トークン間の時間的依存関係を排除し、少なくとも1ステップで出力トークン全体を予測することができる。
この2つの問題に対処するため,TSNATと呼ばれる新しいモデルを提案する。
以上の結果から,TSNATはARモデルと競合する性能を示し,複雑なNARモデルよりも優れていた。
論文 参考訳(メタデータ) (2021-04-04T02:34:55Z) - Scaling Local Self-Attention For Parameter Efficient Visual Backbones [29.396052798583234]
自己注意は、パラメータ非依存のスケールとコンテンツ依存の相互作用により、コンピュータビジョンシステムを改善するという約束がある。
私たちは、ImageNet分類ベンチマークのパラメータ制限設定で最新の精度に達する新しいセルフアテンションモデルファミリー、emphHaloNetsを開発しました。
論文 参考訳(メタデータ) (2021-03-23T17:56:06Z) - Transformer-based ASR Incorporating Time-reduction Layer and Fine-tuning
with Self-Knowledge Distillation [11.52842516726486]
本稿では,トランスエンコーダ層に時間削減層を組み込んだTransformer-based ASRモデルを提案する。
また、自己知識蒸留(S-KD)を用いた事前学習型ASRモデルの微調整手法を導入し、ASRモデルの性能をさらに向上させる。
言語モデル(LM)融合により、トランスフォーマーベースのASRモデルのための最新の単語誤り率(WER)結果を達成します。
論文 参考訳(メタデータ) (2021-03-17T21:02:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。