論文の概要: Role of Bias Terms in Dot-Product Attention
- arxiv url: http://arxiv.org/abs/2302.08626v1
- Date: Thu, 16 Feb 2023 23:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:26:26.177287
- Title: Role of Bias Terms in Dot-Product Attention
- Title(参考訳): 点製品注意におけるバイアス項の役割
- Authors: Mahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tur
- Abstract要約: Dot-product attentionは、現在の世代のニューラルネットワークモデル、特にトランスフォーマーのコアモジュールである。
これらのバイアス項の役割を研究し、数学的に鍵線形変換のバイアス項は冗長であることを示す。
本研究は,言語モデリング,自然言語理解,自然言語生成タスクに関する複数の実験を通じて,これらの知見を実証的に検証する。
- 参考スコア(独自算出の注目度): 22.0506748472516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dot-product attention is a core module in the present generation of neural
network models, particularly transformers, and is being leveraged across
numerous areas such as natural language processing and computer vision. This
attention module is comprised of three linear transformations, namely query,
key, and value linear transformations, each of which has a bias term. In this
work, we study the role of these bias terms, and mathematically show that the
bias term of the key linear transformation is redundant and could be omitted
without any impact on the attention module. Moreover, we argue that the bias
term of the value linear transformation has a more prominent role than that of
the bias term of the query linear transformation. We empirically verify these
findings through multiple experiments on language modeling, natural language
understanding, and natural language generation tasks.
- Abstract(参考訳): Dot-product attentionは、現在の世代のニューラルネットワークモデル、特にトランスフォーマーの中核モジュールであり、自然言語処理やコンピュータビジョンなど、さまざまな領域で活用されている。
この注目モジュールは、クエリ、キー、値の線形変換という3つの線形変換で構成され、それぞれにバイアス項がある。
本研究では,これらのバイアス項の役割について検討し,重要な線形変換のバイアス項が冗長であり,注意モジュールに影響を与えることなく省略できることを数学的に示す。
さらに, 値線形変換のバイアス項は, クエリ線形変換のバイアス項よりも顕著な役割を担っていると主張する。
言語モデリング,自然言語理解,自然言語生成タスクに関する複数の実験を通じて,これらの知見を実証的に検証した。
関連論文リスト
- Linear Transformers with Learnable Kernel Functions are Better
In-Context Models [3.588453140011797]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - Anatomy of Neural Language Models [0.0]
トランスフォーマーベースの言語モデル(LM)は、幅広い応用において新しい最先端の結果をもたらしている。
言語モデリングのようなタスクで事前訓練されたトランスフォーマーは、コンピュータビジョンや時系列アプリケーションで広く採用されている。
論文 参考訳(メタデータ) (2024-01-08T10:27:25Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - Transformers learn in-context by gradient descent [58.24152335931036]
自己回帰目標におけるトランスフォーマーの訓練は、勾配に基づくメタラーニングの定式化と密接に関連している。
トレーニングされたトランスフォーマーがメザ最適化器となる方法,すなわち,前方通過における勾配降下によるモデル学習方法を示す。
論文 参考訳(メタデータ) (2022-12-15T09:21:21Z) - Flowformer: Linearizing Transformers with Conservation Flows [77.25101425464773]
本研究では,フローネットワーク理論に基づくインダクティブバイアスのないトランスフォーマーを線形化する。
ソースコンペティション用シンクの流入流と、シンクアロケーション用ソースの流出流をそれぞれ保存することにより、フローアテンションは本質的に情報的注意を発生させる。
論文 参考訳(メタデータ) (2022-02-13T08:44:10Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - LieTransformer: Equivariant self-attention for Lie Groups [49.9625160479096]
群等価ニューラルネットワークは群不変ニューラルネットワークの構成要素として用いられる。
我々は、文学の範囲を、ディープラーニングモデルの顕著な構築ブロックとして現れつつある自己注意にまで広げる。
任意のリー群とその離散部分群に同値なリー自己結合層からなる構造であるリー変換器を提案する。
論文 参考訳(メタデータ) (2020-12-20T11:02:49Z) - Learning Canonical Transformations [1.3537117504260623]
人間は、任意の特定の対象に縛られることなく一般化をサポートする正準幾何学変換の集合を理解する。
我々は、ニューラルネットワークモデルがこれらの変換をピクセル空間で学習するのに役立つ誘導バイアスを探索する。
高いトレーニングセットの多様性は、目に見えない形やスケールへの翻訳の外挿に十分である。
論文 参考訳(メタデータ) (2020-11-17T18:41:07Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z) - I-BERT: Inductive Generalization of Transformer to Arbitrary Context
Lengths [2.604653544948958]
自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。
位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
論文 参考訳(メタデータ) (2020-06-18T00:56:12Z) - Generalizing Convolutional Neural Networks for Equivariance to Lie
Groups on Arbitrary Continuous Data [52.78581260260455]
任意の特定のリー群からの変換に同値な畳み込み層を構築するための一般的な方法を提案する。
同じモデルアーキテクチャを画像、ボール・アンド・スティック分子データ、ハミルトン力学系に適用する。
論文 参考訳(メタデータ) (2020-02-25T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。