論文の概要: Relaxed Attention for Transformer Models
- arxiv url: http://arxiv.org/abs/2209.09735v1
- Date: Tue, 20 Sep 2022 14:10:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-21 18:02:12.897814
- Title: Relaxed Attention for Transformer Models
- Title(参考訳): 変圧器モデルの緩和注意
- Authors: Timo Lohrenz and Bj\"orn M\"oller and Zhengyang Li and Tim Fingscheidt
- Abstract要約: 本稿では,注意重みの平滑化を簡易かつ容易に行う,リラックスした注意を探索する。
エンコーダの自己注意層に適用した場合,注意の緩和が正規化をもたらすことを示す。
我々は、最近のベンチマーク手法と組み合わせて、いくつかのタスクにまたがって注意を緩めたことの利点を実証する。
- 参考スコア(独自算出の注目度): 29.896876421216373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The powerful modeling capabilities of all-attention-based transformer
architectures often cause overfitting and - for natural language processing
tasks - lead to an implicitly learned internal language model in the
autoregressive transformer decoder complicating the integration of external
language models. In this paper, we explore relaxed attention, a simple and
easy-to-implement smoothing of the attention weights, yielding a two-fold
improvement to the general transformer architecture: First, relaxed attention
provides regularization when applied to the self-attention layers in the
encoder. Second, we show that it naturally supports the integration of an
external language model as it suppresses the implicitly learned internal
language model by relaxing the cross attention in the decoder. We demonstrate
the benefit of relaxed attention across several tasks with clear improvement in
combination with recent benchmark approaches. Specifically, we exceed the
former state-of-the-art performance of 26.90% word error rate on the largest
public lip-reading LRS3 benchmark with a word error rate of 26.31%, as well as
we achieve a top-performing BLEU score of 37.67 on the IWSLT14
(DE$\rightarrow$EN) machine translation task without external language models
and virtually no additional model parameters. Code and models will be made
publicly available.
- Abstract(参考訳): オールアテンションベースのトランスフォーマーアーキテクチャの強力なモデリング能力は、しばしば過剰フィッティングを引き起こし、自然言語処理タスクでは、外部言語モデルの統合を複雑にする自己回帰トランスフォーマーデコーダの内部言語モデルに暗黙的に学習される。
本稿では, 注意重みの簡易な平滑化, 一般変圧器アーキテクチャの2倍の改善を図り, エンコーダの自己保持層に適用した場合, 注意の緩和により正規化が図られることを示す。
第2に,デコーダのクロス注意を緩和することにより,暗黙的に学習される内部言語モデルを抑制することにより,外部言語モデルの統合を自然にサポートすることを示す。
我々は、最近のベンチマーク手法と組み合わせて、いくつかのタスクにまたがって注意を緩める利点を実証する。
具体的には,最大のリップ読み取りlrs3ベンチマークにおいて,26.31%の単語誤り率で26.90%の単語誤り率を,iwslt14 (de$\rightarrow$en) 機械翻訳タスクで37.67という最高パフォーマンスのbleuスコアを,外部言語モデルなしで,実質的にモデルパラメータを必要とせずに達成した。
コードとモデルは公開される予定だ。
関連論文リスト
- Predictor-Corrector Enhanced Transformers with Exponential Moving Average Coefficient Learning [73.73967342609603]
トラクションエラーを最小限に抑えるための予測-相関学習フレームワークを提案する。
また、高次予測器を強化するために、指数関数的移動平均ベース係数学習法を提案する。
我々のモデルは3.8BのDeepNetを平均2.9のSacreBLEUで上回り、1/3のパラメータしか使用していない。
論文 参考訳(メタデータ) (2024-11-05T12:26:25Z) - In-Context Language Learning: Architectures and Algorithms [73.93205821154605]
我々は、文脈言語学習(ICLL)において、私たちが用語する新しいモデル問題群(英語版)のレンズを通してICLを研究する。
我々は,通常のICLLタスクにおいて,多種多様なニューラルシーケンスモデルを評価する。
論文 参考訳(メタデータ) (2024-01-23T18:59:21Z) - On the Analysis of Cross-Lingual Prompt Tuning for Decoder-based
Multilingual Model [49.81429697921861]
多言語自己回帰モデルにおけるパラメータ効率細調整(PEFT)と言語間タスクの相互作用について検討する。
高速チューニングは、微調整よりも低リソース言語の性能向上に有効であることを示す。
論文 参考訳(メタデータ) (2023-11-14T00:43:33Z) - Multi-Head State Space Model for Speech Recognition [44.04124537862432]
状態空間モデル(SSM)は、最近、小規模シーケンスおよび言語モデリングタスクにおいて有望な結果を示した。
本稿では,特殊なゲーティング機構を備えたマルチヘッド状態空間(MH-SSM)アーキテクチャを提案する。
変圧器エンコーダにおけるマルチヘッドアテンションの代替として、この新モデルは、LibriSpeech音声認識コーパスにおいてトランスデューサを著しく上回っている。
論文 参考訳(メタデータ) (2023-05-21T16:28:57Z) - Shapley Head Pruning: Identifying and Removing Interference in
Multilingual Transformers [54.4919139401528]
言語固有のパラメータを識別・解析することで干渉を減らすことができることを示す。
固定モデルから同定された注目ヘッドを除去することで、文分類と構造予測の両方において、ターゲット言語の性能が向上することを示す。
論文 参考訳(メタデータ) (2022-10-11T18:11:37Z) - Long-Short Transformer: Efficient Transformers for Language and Vision [97.2850205384295]
長短変換器(Long-Short Transformer, Transformer-LS)は、言語タスクと視覚タスクの両方に線形な複雑さを持つ長いシーケンスをモデリングするための効率的な自己アテンション機構である。
遠距離相関をモデル化するためのダイナミックプロジェクションと、局所相関を微細に捉えるための短期的注意を組み込んだ、新しい長距離の注意を集約する。
提案手法は,Long Range Arenaベンチマーク,自動回帰言語モデリング,イメージネット分類など,言語と視覚領域の複数のタスクにおける最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2021-07-05T18:00:14Z) - Relaxed Attention: A Simple Method to Boost Performance of End-to-End
Automatic Speech Recognition [27.530537066239116]
トレーニング中のエンコーダ・デコーダの注意重みに対する均一分布の段階的注入である緩和注意の概念を導入する。
ゆるやかな注意で訓練されたトランスフォーマーは、外部言語モデルを用いたデコーディングにおいて、標準ベースラインモデルよりも一貫して優れていた。
WSJでは,単語誤り率3.65%のトランスフォーマーに基づくエンドツーエンド音声認識のベンチマークを新たに設定した。
論文 参考訳(メタデータ) (2021-07-02T21:01:17Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z) - Attention Is All You Need [36.87735219227719]
本稿では,アテンション機構のみに基づく新しいシンプルなネットワークアーキテクチャであるTransformerを提案する。
2つの機械翻訳タスクの実験は、これらのモデルの品質が優れていることを示している。
論文 参考訳(メタデータ) (2017-06-12T17:57:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。