論文の概要: Does Self-Attention Need Separate Weights in Transformers?
- arxiv url: http://arxiv.org/abs/2412.00359v1
- Date: Sat, 30 Nov 2024 04:46:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-04 15:47:09.953699
- Title: Does Self-Attention Need Separate Weights in Transformers?
- Title(参考訳): 変圧器の自己注意重量は別個に必要か?
- Authors: Md Kowsher, Nusrat Jahan Prottasha, Chun-Nam Yu,
- Abstract要約: この研究は、(キー、値、クエリ)表現のための1つの重み行列のみを学習する共有重みベースのBERTモデルを導入する。
実験結果から,共有自己注意法は注目ブロックのパラメータサイズを66.53%削減できることが示唆された。
GLUEデータセットでは、共有重みベースのBERTモデルは標準、対称、対の注意に基づくBERTモデルに対して0.38%、5.81%、1.06%の精度向上を示す。
- 参考スコア(独自算出の注目度): 0.884834042985207
- License:
- Abstract: The success of self-attention lies in its ability to capture long-range dependencies and enhance context understanding, but it is limited by its computational complexity and challenges in handling sequential data with inherent directionality. This work introduces a shared weight self-attention-based BERT model that only learns one weight matrix for (Key, Value, and Query) representations instead of three individual matrices for each of them. Our shared weight attention reduces the training parameter size by more than half and training time by around one-tenth. Furthermore, we demonstrate higher prediction accuracy on small tasks of GLUE over the BERT baseline and in particular a generalization power on noisy and out-of-domain data. Experimental results indicate that our shared self-attention method achieves a parameter size reduction of 66.53% in the attention block. In the GLUE dataset, the shared weight self-attention-based BERT model demonstrates accuracy improvements of 0.38%, 5.81%, and 1.06% over the standard, symmetric, and pairwise attention-based BERT models, respectively. The model and source code are available at Anonymous.
- Abstract(参考訳): 自己注意の成功は、長距離依存関係をキャプチャし、コンテキスト理解を強化する能力にあるが、その計算複雑性と、本質的に方向性のあるシーケンシャルデータを扱う際の課題によって制限されている。
この研究は、共有重みベースのBERTモデルを導入し、それぞれに3つの個々の行列ではなく、(キー、値、クエリ)表現のための1つの重み行列のみを学習する。
共有ウェイトアテンションはトレーニングパラメータのサイズを半減し、トレーニング時間は約10分の1に短縮します。
さらに、BERTベースライン上でのGLUEの小さなタスクの予測精度を高くし、特にノイズやドメイン外データに対する一般化パワーを示す。
実験結果から,共有自己注意法は注目ブロックのパラメータサイズを66.53%削減できることが示唆された。
GLUEデータセットでは、共有重みベースのBERTモデルでは、標準モデル、対称モデル、ペアアテンションベースのBERTモデルに対して、0.38%、5.81%、1.06%の精度向上が示されている。
モデルとソースコードはAnonymousで入手できる。
関連論文リスト
- Head-wise Shareable Attention for Large Language Models [56.92068213969036]
大きな言語モデル(LLM)は膨大な数のパラメータに悩まされており、エッジデバイスへのデプロイメントを制限している。
ウェイトシェアリングは、ウェイト再利用を促進する有望なソリューションのひとつで、メモリ使用量を効果的に削減し、パフォーマンスを低下させる。
本稿では,大規模言語モデルにおける頭部的共通性に着目した視点を示す。
論文 参考訳(メタデータ) (2024-02-19T04:19:36Z) - ClusTR: Exploring Efficient Self-attention via Clustering for Vision
Transformers [70.76313507550684]
本稿では,密集自己注意の代替として,コンテンツに基づくスパースアテンション手法を提案する。
具体的には、合計トークン数を減少させるコンテンツベースの方法として、キーとバリュートークンをクラスタ化し、集約する。
結果として得られたクラスタ化されたTokenシーケンスは、元の信号のセマンティックな多様性を保持するが、より少ない計算コストで処理できる。
論文 参考訳(メタデータ) (2022-08-28T04:18:27Z) - Parameter-Efficient Sparsity for Large Language Models Fine-Tuning [63.321205487234074]
私たちはaを提案します。
Sparse- efficient Sparse Training (PST) は、スパース・アウェア・トレーニング中にトレーニング可能なパラメータの数を減少させる手法である。
多様なネットワーク(BERT、RoBERTa、GPT-2)を用いた実験では、PSTは従来のスパーシリティ法よりも同等以上の性能を示した。
論文 参考訳(メタデータ) (2022-05-23T02:43:45Z) - Improved Regularization and Robustness for Fine-tuning in Neural
Networks [5.626364462708321]
転送学習に広く用いられるアルゴリズムは微調整であり、少量のラベル付きデータを用いて、事前学習されたモデルを目標タスクに微調整する。
本稿では,正規化と自己ラベルの一般化という,正規化の自己ラベル化を提案する。
提案手法は、7つの画像分類タスクに対して1.76%(平均)、数ショット分類タスクに対して0.75%改善する。
論文 参考訳(メタデータ) (2021-11-08T15:39:44Z) - BERT might be Overkill: A Tiny but Effective Biomedical Entity Linker
based on Residual Convolutional Neural Networks [41.528797439272175]
バイオメディカル・エンティティ・リンクのための残差接続を有する効率的な畳み込みニューラルネットワークを提案する。
我々のモデルは、最先端のBERTベースモデルと同等またはそれ以上のリンク精度を実現する。
論文 参考訳(メタデータ) (2021-09-06T04:25:47Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z) - ConvBERT: Improving BERT with Span-based Dynamic Convolution [144.25748617961082]
BERTはグローバルな自己保持ブロックに大きく依存しているため、大きなメモリフットプリントと計算コストに悩まされる。
そこで本研究では,これらの自己注意型ヘッドを置き換え,局所的依存関係を直接モデル化する,スパンベースの動的畳み込みを提案する。
新たな畳み込み頭は、他の自己注意頭と共に、グローバルな文脈学習とローカルな文脈学習の両方においてより効率的である、新しい混合注意ブロックを形成する。
論文 参考訳(メタデータ) (2020-08-06T07:43:19Z) - MiniLM: Deep Self-Attention Distillation for Task-Agnostic Compression
of Pre-Trained Transformers [117.67424061746247]
本稿では,大規模トランスフォーマーをベースとした事前学習モデルの簡易かつ効率的な圧縮手法を提案する。
本稿では,教師の最後のトランスフォーマー層の自己保持モジュールを蒸留することを提案する。
実験結果から, 単言語モデルでは, 学生モデルのパラメータサイズの違いにより, 最先端のベースラインよりも優れた結果が得られた。
論文 参考訳(メタデータ) (2020-02-25T15:21:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。