論文の概要: Symmetric Dot-Product Attention for Efficient Training of BERT Language Models
- arxiv url: http://arxiv.org/abs/2406.06366v2
- Date: Wed, 19 Jun 2024 10:42:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-22 01:26:51.701388
- Title: Symmetric Dot-Product Attention for Efficient Training of BERT Language Models
- Title(参考訳): BERT言語モデルの効率的な学習のための対称Dot-Product Attention
- Authors: Martin Courtois, Malte Ostendorff, Leonhard Hennig, Georg Rehm,
- Abstract要約: 本稿では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。
BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークで79.36点に達し、従来の実装では78.74点だった。
- 参考スコア(独自算出の注目度): 5.838117137253223
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Initially introduced as a machine translation model, the Transformer architecture has now become the foundation for modern deep learning architecture, with applications in a wide range of fields, from computer vision to natural language processing. Nowadays, to tackle increasingly more complex tasks, Transformer-based models are stretched to enormous sizes, requiring increasingly larger training datasets, and unsustainable amount of compute resources. The ubiquitous nature of the Transformer and its core component, the attention mechanism, are thus prime targets for efficiency research. In this work, we propose an alternative compatibility function for the self-attention mechanism introduced by the Transformer architecture. This compatibility function exploits an overlap in the learned representation of the traditional scaled dot-product attention, leading to a symmetric with pairwise coefficient dot-product attention. When applied to the pre-training of BERT-like models, this new symmetric attention mechanism reaches a score of 79.36 on the GLUE benchmark against 78.74 for the traditional implementation, leads to a reduction of 6% in the number of trainable parameters, and reduces the number of training steps required before convergence by half.
- Abstract(参考訳): 当初、機械翻訳モデルとして導入されたTransformerアーキテクチャは、コンピュータビジョンから自然言語処理まで幅広い分野の応用で、現代のディープラーニングアーキテクチャの基礎となっている。
今日では、ますます複雑なタスクに取り組むために、Transformerベースのモデルは巨大なサイズに拡張され、トレーニングデータセットがますます大きくなり、持続不可能な量の計算リソースが必要になる。
トランスフォーマーのユビキタスな性質と、そのコアコンポーネントであるアテンション機構は、効率研究の主要なターゲットである。
本研究では,Transformer アーキテクチャによって導入された自己注意機構の代替互換性関数を提案する。
この整合関数は、伝統的なスケールされたドット積の注意の学習された表現の重なりを生かし、左右の係数のドット積の注意が対称となる。
BERTライクなモデルの事前トレーニングに適用すると、この新しい対称アテンション機構はGLUEベンチマークのスコア79.36に到達し、従来の実装では78.74に到達し、トレーニング可能なパラメータの6%が減少し、収束前に必要となるトレーニングステップの数を半分に減らす。
関連論文リスト
- TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters [102.1116808722299]
TokenFormerは、Transformerをスケールするためのスケーラブルなアーキテクチャです。
モデルパラメータをトークンとして扱うことで、トランスフォーマーのすべての線形射影を置き換える。
我々のモデルは、新しいキー値パラメータペアを漸進的に追加することで、124Mから1.4Bパラメータにスケールする。
論文 参考訳(メタデータ) (2024-10-30T16:19:00Z) - Scaled and Inter-token Relation Enhanced Transformer for Sample-restricted Residential NILM [0.0]
そこで本研究では,原型変圧器のアテンション機構を向上し,性能を向上させるための2つの新しい機構を提案する。
第1のメカニズムは、トレーニング中のトークン類似度行列におけるトークン内関係の優先順位付けを低減し、トークン間焦点を増大させる。
第2のメカニズムは、トークン類似性行列の学習可能な温度チューニングを導入し、固定温度値に関連する過度なスムーシング問題を緩和する。
論文 参考訳(メタデータ) (2024-10-12T18:58:45Z) - Activator: GLU Activation Function as the Core Component of a Vision Transformer [1.3812010983144802]
トランスフォーマーアーキテクチャは現在、ディープラーニングによって対処されるさまざまなタスクにおいて、多くの成功の背後にある主要なドライバである。
本稿では,多層パーセプトロンアーキテクチャに線形ゲートユニット(GLU)アクティベーションを組み込んだ変圧器アーキテクチャに通常採用されるアテンション機構の置換について検討する。
論文 参考訳(メタデータ) (2024-05-24T21:46:52Z) - Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。
Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文 参考訳(メタデータ) (2024-04-03T12:27:36Z) - End-to-End Meta-Bayesian Optimisation with Transformer Neural Processes [52.818579746354665]
本稿では,ニューラルネットワークを一般化し,トランスフォーマーアーキテクチャを用いて獲得関数を学習する,エンド・ツー・エンドの差別化可能な最初のメタBOフレームワークを提案する。
我々は、この強化学習(RL)によるエンドツーエンドのフレームワークを、ラベル付き取得データの欠如に対処できるようにします。
論文 参考訳(メタデータ) (2023-05-25T10:58:46Z) - RWKV: Reinventing RNNs for the Transformer Era [54.716108899349614]
本稿では,変換器の効率的な並列化学習とRNNの効率的な推論を組み合わせた新しいモデルアーキテクチャを提案する。
モデルを最大14億のパラメータにスケールし、トレーニングされたRNNの中では最大で、同じサイズのTransformerと同等のRWKVのパフォーマンスを実現しています。
論文 参考訳(メタデータ) (2023-05-22T13:57:41Z) - Scaling Pre-trained Language Models to Deeper via Parameter-efficient
Architecture [68.13678918660872]
行列積演算子(MPO)に基づくより有能なパラメータ共有アーキテクチャを設計する。
MPO分解はパラメータ行列の情報を再編成し、2つの部分に分解することができる。
私たちのアーキテクチャは、モデルのサイズを減らすために、すべてのレイヤで中央テンソルを共有しています。
論文 参考訳(メタデータ) (2023-03-27T02:34:09Z) - Learning to Grow Pretrained Models for Efficient Transformer Training [72.20676008625641]
そこでは、より小さなモデルのパラメータを線形にマッピングして、より大きなモデルを初期化する。
言語と視覚のトランスフォーマーをまたいだ実験では、学習した線形成長演算子(LiGO)が、スクラッチから最大50%の計算コストを節約できることが示されています。
論文 参考訳(メタデータ) (2023-03-02T05:21:18Z) - Pre-Training a Graph Recurrent Network for Language Representation [34.4554387894105]
本稿では,言語モデルの事前学習のためのグラフリカレントネットワークについて考察し,各シーケンスのグラフ構造を局所的なトークンレベルの通信で構築する。
我々のモデルは、既存の注意に基づくモデルよりもコンテキスト化された特徴冗長性が少なく、より多様な出力を生成することができる。
論文 参考訳(メタデータ) (2022-09-08T14:12:15Z) - TCCT: Tightly-Coupled Convolutional Transformer on Time Series
Forecasting [6.393659160890665]
本稿では, 密結合型畳み込み変換器(TCCT)と3つのTCCTアーキテクチャを提案する。
実世界のデータセットに対する我々の実験は、我々のTCCTアーキテクチャが既存の最先端トランスフォーマーモデルの性能を大幅に改善できることを示している。
論文 参考訳(メタデータ) (2021-08-29T08:49:31Z) - GroupBERT: Enhanced Transformer Architecture with Efficient Grouped
Structures [57.46093180685175]
トランスフォーマー層の構造を改良し,より効率的なアーキテクチャを実現する。
自己認識モジュールを補完する畳み込みモジュールを追加し、局所的およびグローバルな相互作用の学習を分離する。
得られたアーキテクチャを言語表現学習に適用し、異なるスケールのBERTモデルと比較して優れた性能を示す。
論文 参考訳(メタデータ) (2021-06-10T15:41:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。