論文の概要: Normalized Attention Without Probability Cage
- arxiv url: http://arxiv.org/abs/2005.09561v1
- Date: Tue, 19 May 2020 16:26:34 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-01 13:21:59.631989
- Title: Normalized Attention Without Probability Cage
- Title(参考訳): 確率ケージのない正規化注意
- Authors: Oliver Richter and Roger Wattenhofer
- Abstract要約: 確率単純度に注意重みを拘束する限界を示す。
自己注意におけるソフトマックスを正規化に置き換えることを提案する。
25,000以上のトレーニングモデルから得られた経験的な結果によって、私たちの洞察を支持します。
- 参考スコア(独自算出の注目度): 12.18340575383456
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention architectures are widely used; they recently gained renewed
popularity with Transformers yielding a streak of state of the art results.
Yet, the geometrical implications of softmax-attention remain largely
unexplored. In this work we highlight the limitations of constraining attention
weights to the probability simplex and the resulting convex hull of value
vectors. We show that Transformers are sequence length dependent biased towards
token isolation at initialization and contrast Transformers to simple max- and
sum-pooling - two strong baselines rarely reported. We propose to replace the
softmax in self-attention with normalization, yielding a hyperparameter and
data-bias robust, generally applicable architecture. We support our insights
with empirical results from more than 25,000 trained models. All results and
implementations are made available.
- Abstract(参考訳): 注意アーキテクチャは広く使われており、最近、トランスフォーマーがアート結果の多くの状態をもたらすことで、再び人気を博した。
しかし、ソフトマックス・アテンションの幾何学的含意はほとんど解明されていない。
本稿では,注意重みを確率的単純度に制限する限界と値ベクトルの凸包について述べる。
トランスフォーマは,初期化時のトークン分離やコントラストトランスフォーマから単純なmaxおよびsumプールへ,シーケンス長依存の偏りを示す。
本稿では,自己着脱のソフトマックスを正規化に置き換え,ハイパーパラメータとデータバイアスロバストで汎用的なアーキテクチャを実現することを提案する。
25,000以上のトレーニングモデルから得られた経験的な結果によって、私たちの洞察を支持します。
すべての結果と実装が利用可能です。
関連論文リスト
- SAMformer: Unlocking the Potential of Transformers in Time Series Forecasting with Sharpness-Aware Minimization and Channel-Wise Attention [14.672072173674039]
高い表現力にもかかわらず,変換器は真の解に収束することができないことを示す。
シャープネス・アウェア・最適化に最適化された場合, ローカル・ミニマの悪さを回避できる浅層軽量変圧器モデルを提案する。
特にSAMformerは現在の最先端メソッドを超え、最大の基盤モデルであるMOIRAIと同等であり、パラメータは大幅に少ない。
論文 参考訳(メタデータ) (2024-02-15T18:55:05Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Attention over pre-trained Sentence Embeddings for Long Document
Classification [4.38566347001872]
変圧器はトークンの数に2次注意の複雑さがあるため、短いシーケンスに制限されることが多い。
文を意味的に意味のある埋め込みから始めるために,事前学習した文変換器を活用することを提案する。
本稿では,3つの標準文書分類データセットに対して,この簡単なアーキテクチャを用いて得られた結果について報告する。
論文 参考訳(メタデータ) (2023-07-18T09:06:35Z) - Sumformer: Universal Approximation for Efficient Transformers [2.4832703558223725]
本稿では,シーケンス・ツー・シーケンス関数を普遍的に近似できる新しいシンプルなアーキテクチャであるSumformerを紹介する。
我々はトランスフォーマーの新しい証明を導き、一つの注意層だけが普遍的な近似に十分であることを示す。
論文 参考訳(メタデータ) (2023-07-05T13:59:35Z) - Robust representations of oil wells' intervals via sparse attention
mechanism [2.604557228169423]
正規化変換器(Reguformers)と呼ばれる効率的な変換器のクラスを導入する。
私たちの実験の焦点は、石油とガスのデータ、すなわちウェルログにあります。
このような問題に対する我々のモデルを評価するために、20以上の井戸からなるウェルログからなる産業規模のオープンデータセットで作業する。
論文 参考訳(メタデータ) (2022-12-29T09:56:33Z) - A Length-Extrapolatable Transformer [98.54835576985664]
長さ外挿、すなわち短いテキストのトレーニングに焦点をあて、長いシーケンスを評価します。
注目度を最大化するために,相対的な位置埋め込みを導入する。
言語モデルを用いてトランスフォーマーの変種を評価する。
論文 参考訳(メタデータ) (2022-12-20T18:56:20Z) - Bird-Eye Transformers for Text Generation Models [49.47825106383972]
本稿では,鳥眼トランス (Bird-eye transformer, BET) と呼ばれる新しいアーキテクチャを提案する。
提案手法は,データベース上のベースライントランスフォーマーアーキテクチャよりも優れた性能を実現する。
論文 参考訳(メタデータ) (2022-10-08T09:51:15Z) - Softmax-free Linear Transformers [90.83157268265654]
視覚変換器(ViT)は、視覚知覚タスクの最先端を推し進めている。
既存の手法は理論的に欠陥があるか、視覚認識に経験的に効果がないかのいずれかである。
我々はSoftmax-Free Transformers (SOFT) のファミリーを提案する。
論文 参考訳(メタデータ) (2022-07-05T03:08:27Z) - SOFT: Softmax-free Transformer with Linear Complexity [112.9754491864247]
視覚変換器(ViT)は、パッチワイド画像トークン化と自己認識によって、様々な視覚認識タスクの最先端を推し進めている。
線形複雑度で自己注意を近似する様々な試みが自然言語処理で行われている。
これらの制限は、近似中にソフトマックスの自己注意を維持することに根ざしている。
ソフトマックスフリー変圧器(SOFT)を初めて提案する。
論文 参考訳(メタデータ) (2021-10-22T17:57:29Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Rethinking Attention with Performers [45.47365397101224]
本稿では,フルランクアテンション変換器を精度良く推定できるPerformer,Transformerアーキテクチャを提案する。
Performersは、スケーラブルなカーネルメソッドに対して独立した関心を持つ可能性のある、新しいFast Attention Via positive Orthogonal Random Feature approach (FAVOR+)を使用している。
提案手法は,他の研究手法と競合する結果を示し,Performers が活用する新しい注意学習パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2020-09-30T17:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。