Fugu-MT 論文翻訳(概要): Role of Bias Terms in Dot-Product Attention

論文の概要: Role of Bias Terms in Dot-Product Attention

arxiv url: http://arxiv.org/abs/2302.08626v1
Date: Thu, 16 Feb 2023 23:41:10 GMT
ステータス: 翻訳完了
システム内更新日: 2023-02-20 16:26:26.177287
Title: Role of Bias Terms in Dot-Product Attention
Title（参考訳）: 点製品注意におけるバイアス項の役割
Authors: Mahdi Namazifar, Devamanyu Hazarika, Dilek Hakkani-Tur
Abstract要約: Dot-product attentionは、現在の世代のニューラルネットワークモデル、特にトランスフォーマーのコアモジュールである。これらのバイアス項の役割を研究し、数学的に鍵線形変換のバイアス項は冗長であることを示す。本研究は,言語モデリング,自然言語理解,自然言語生成タスクに関する複数の実験を通じて,これらの知見を実証的に検証する。
参考スコア（独自算出の注目度）: 22.0506748472516
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Dot-product attention is a core module in the present generation of neural network models, particularly transformers, and is being leveraged across numerous areas such as natural language processing and computer vision. This attention module is comprised of three linear transformations, namely query, key, and value linear transformations, each of which has a bias term. In this work, we study the role of these bias terms, and mathematically show that the bias term of the key linear transformation is redundant and could be omitted without any impact on the attention module. Moreover, we argue that the bias term of the value linear transformation has a more prominent role than that of the bias term of the query linear transformation. We empirically verify these findings through multiple experiments on language modeling, natural language understanding, and natural language generation tasks.
Abstract（参考訳）: Dot-product attentionは、現在の世代のニューラルネットワークモデル、特にトランスフォーマーの中核モジュールであり、自然言語処理やコンピュータビジョンなど、さまざまな領域で活用されている。この注目モジュールは、クエリ、キー、値の線形変換という3つの線形変換で構成され、それぞれにバイアス項がある。本研究では,これらのバイアス項の役割について検討し,重要な線形変換のバイアス項が冗長であり,注意モジュールに影響を与えることなく省略できることを数学的に示す。さらに, 値線形変換のバイアス項は, クエリ線形変換のバイアス項よりも顕著な役割を担っていると主張する。言語モデリング,自然言語理解,自然言語生成タスクに関する複数の実験を通じて,これらの知見を実証的に検証した。

関連論文リスト

Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文参考訳（メタデータ） (2025-05-30T12:39:26Z)
Characterizing the Expressivity of Transformer Language Models [56.598551673153366]
厳密な将来のマスキングとソフトアテンションを備えた固定精度変圧器の正確な特性について述べる。これらのモデルは、線形時間論理の特定の断片と同じくらい正確に表現可能であることを示す。さらに、この論理を形式言語理論、オートマトン理論、代数の確立されたクラスに関連付ける。
論文参考訳（メタデータ） (2025-05-29T16:30:30Z)
Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文参考訳（メタデータ） (2025-01-29T16:32:14Z)
A distributional simplicity bias in the learning dynamics of transformers [50.91742043564049]
自然言語データに基づいてトレーニングされたトランスフォーマーは、単純さのバイアスも示している。具体的には、入力トークン間の多体相互作用を逐次学習し、低次相互作用の予測誤差において飽和点に達する。このアプローチは、自然言語処理などにおいて、データ内の異なる順序の相互作用が学習にどのように影響するかを研究する可能性を開く。
論文参考訳（メタデータ） (2024-10-25T15:39:34Z)
Learning Linear Attention in Polynomial Time [115.68795790532289]
線形注意を持つ単層変圧器の学習性に関する最初の結果を提供する。線形アテンションは RKHS で適切に定義された線形予測器とみなすことができる。我々は,すべての経験的リスクが線形変換器と同等のトレーニングデータセットを効率的に識別する方法を示す。
論文参考訳（メタデータ） (2024-10-14T02:41:01Z)
Unsupervised Representation Learning from Sparse Transformation Analysis [79.94858534887801]
本稿では,潜在変数のスパース成分への変換を分解し,シーケンスデータから表現を学習することを提案する。入力データは、まず潜伏活性化の分布として符号化され、その後確率フローモデルを用いて変換される。
論文参考訳（メタデータ） (2024-10-07T23:53:25Z)
Strengthening Structural Inductive Biases by Pre-training to Perform Syntactic Transformations [75.14793516745374]
中間学習によりトランスフォーマーの構造的帰納バイアスを強化することを提案する。実験の結果,チャンキングなどの構文的タスクのわずかな学習に有効であることが確認された。分析の結果,中間的事前学習は,どのトークンにシナティクス変換を適用する必要があるかを追尾する注意を喚起することが明らかとなった。
論文参考訳（メタデータ） (2024-07-05T14:29:44Z)
Clustering in pure-attention hardmax transformers and its role in sentiment analysis [0.0]
ハードマックス自己アテンションと正規化サブ層を有する変圧器の挙動を, 層数が無限大になる傾向があるため, 厳密に特徴づける。変換器は、リーダーと呼ばれる特別な点によって決定されるクラスター平衡にインプット的に収束することを示す。そして、この理論的理解を利用して、完全に解釈可能なトランスフォーマーモデルを用いて、言語処理から感情分析問題を解く。
論文参考訳（メタデータ） (2024-06-26T16:13:35Z)
Linear Transformers with Learnable Kernel Functions are Better In-Context Models [3.3865605512957453]
In-Context学習能力を増幅するベースカーネルにエレガントな変更を加える。本稿では,マルチクエリ・アソシエイト・リコールタスクによって評価されたインコンテキスト学習能力を増幅する,独特でエレガントな変更をベースカーネルに提示する。
論文参考訳（メタデータ） (2024-02-16T12:44:15Z)
Anatomy of Neural Language Models [0.0]
トランスフォーマーベースの言語モデル(LM)は、幅広い応用において新しい最先端の結果をもたらしている。言語モデリングのようなタスクで事前訓練されたトランスフォーマーは、コンピュータビジョンや時系列アプリケーションで広く採用されている。
論文参考訳（メタデータ） (2024-01-08T10:27:25Z)
Linearity of Relation Decoding in Transformer Language Models [82.47019600662874]
トランスフォーマー言語モデル(LM)で符号化された知識の多くは、関係性の観点から表現することができる。関係のサブセットに対して、この計算は対象表現上の1つの線形変換によってよく近似されることを示す。
論文参考訳（メタデータ） (2023-08-17T17:59:19Z)
Flowformer: Linearizing Transformers with Conservation Flows [77.25101425464773]
本研究では,フローネットワーク理論に基づくインダクティブバイアスのないトランスフォーマーを線形化する。ソースコンペティション用シンクの流入流と、シンクアロケーション用ソースの流出流をそれぞれ保存することにより、フローアテンションは本質的に情報的注意を発生させる。
論文参考訳（メタデータ） (2022-02-13T08:44:10Z)
Effects of Parameter Norm Growth During Transformer Training: Inductive Bias from Gradient Descent [44.44543743806831]
本研究では, トレーニング中にこれらの標準間に飽和しながら, 変圧器パラメータが大きくなる傾向について検討した。パラメータが大きくなるにつれて、ネットワークは飽和活性化関数を持つ離散化されたネットワークに近似することが証明される。以上の結果から,飽和はNLPに対する特定の関心のGDに暗黙的な誘導バイアスの新たな特徴であることが示唆された。
論文参考訳（メタデータ） (2020-10-19T17:40:38Z)
I-BERT: Inductive Generalization of Transformer to Arbitrary Context Lengths [2.604653544948958]
自己注意は、自然言語処理のための最先端のシーケンス・ツー・シーケンスモデルの重要な構成要素として現れてきた。位置エンコーディングをリカレント層に置き換える双方向トランスであるI-BERTを提案する。
論文参考訳（メタデータ） (2020-06-18T00:56:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。