論文の概要: Role of Bias Terms in Dot-Product Attention
- arxiv url: http://arxiv.org/abs/2302.08626v1
- Date: Thu, 16 Feb 2023 23:41:10 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-20 16:26:26.177287
- Title: Role of Bias Terms in Dot-Product Attention
- Title(参考訳): 点製品注意におけるバイアス項の役割
- Authors: Mahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tur
- Abstract要約: Dot-product attentionは、現在の世代のニューラルネットワークモデル、特にトランスフォーマーのコアモジュールである。
これらのバイアス項の役割を研究し、数学的に鍵線形変換のバイアス項は冗長であることを示す。
本研究は,言語モデリング,自然言語理解,自然言語生成タスクに関する複数の実験を通じて,これらの知見を実証的に検証する。
- 参考スコア(独自算出の注目度): 22.0506748472516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Dot-product attention is a core module in the present generation of neural
network models, particularly transformers, and is being leveraged across
numerous areas such as natural language processing and computer vision. This
attention module is comprised of three linear transformations, namely query,
key, and value linear transformations, each of which has a bias term. In this
work, we study the role of these bias terms, and mathematically show that the
bias term of the key linear transformation is redundant and could be omitted
without any impact on the attention module. Moreover, we argue that the bias
term of the value linear transformation has a more prominent role than that of
the bias term of the query linear transformation. We empirically verify these
findings through multiple experiments on language modeling, natural language
understanding, and natural language generation tasks.
- Abstract(参考訳): Dot-product attentionは、現在の世代のニューラルネットワークモデル、特にトランスフォーマーの中核モジュールであり、自然言語処理やコンピュータビジョンなど、さまざまな領域で活用されている。
この注目モジュールは、クエリ、キー、値の線形変換という3つの線形変換で構成され、それぞれにバイアス項がある。
本研究では,これらのバイアス項の役割について検討し,重要な線形変換のバイアス項が冗長であり,注意モジュールに影響を与えることなく省略できることを数学的に示す。
さらに, 値線形変換のバイアス項は, クエリ線形変換のバイアス項よりも顕著な役割を担っていると主張する。
言語モデリング,自然言語理解,自然言語生成タスクに関する複数の実験を通じて,これらの知見を実証的に検証した。
関連論文リスト
- Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。
具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。
このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文 参考訳(メタデータ) (2024-10-25T15:39:34Z) - Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。
線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。
我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文 参考訳(メタデータ) (2024-10-14T02:41:01Z) - Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。
入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文 参考訳(メタデータ) (2024-10-07T23:53:25Z) - Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。
実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。
分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文 参考訳(メタデータ) (2024-07-05T14:29:44Z) - Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。
変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。
そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文 参考訳(メタデータ) (2024-06-26T16:13:35Z) - Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。
本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文 参考訳(メタデータ) (2024-02-16T12:44:15Z) - Anatomy of Neural Language Models [0.0]
トランスフォーマーベースの言語モデル(LM)は、幅広い応用において新しい最先端の結果をもたらしている。
言語モデリングのようなタスクで事前訓練されたトランスフォーマーは、コンピュータビジョンや時系列アプリケーションで広く採用されている。
論文 参考訳(メタデータ) (2024-01-08T10:27:25Z) - Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。
関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文 参考訳(メタデータ) (2023-08-17T17:59:19Z) - Flowformer: Linearizing Transformers with Conservation Flows [77.25101425464773]
本研究では,フローネットワーク理論に基づくインダクティブバイアスのないトランスフォーマーを線形化する。
ソースコンペティション用シンクの流入流と、シンクアロケーション用ソースの流出流をそれぞれ保存することにより、フローアテンションは本質的に情報的注意を発生させる。
論文 参考訳(メタデータ) (2022-02-13T08:44:10Z) - Effects of Parameter Norm Growth During Transformer Training: Inductive
Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。
パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。
以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文 参考訳(メタデータ) (2020-10-19T17:40:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。