論文の概要: Theory, Analysis, and Best Practices for Sigmoid Self-Attention
- arxiv url: http://arxiv.org/abs/2409.04431v1
- Date: Fri, 6 Sep 2024 17:53:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-09 15:05:01.201725
- Title: Theory, Analysis, and Best Practices for Sigmoid Self-Attention
- Title(参考訳): シグモイド・セルフ・アテンションの理論, 分析, ベストプラクティス
- Authors: Jason Ramapuram, Federico Danieli, Eeshan Dhekane, Floris Weers, Dan Busbridge, Pierre Ablin, Tatiana Likhomanenko, Jagrit Digani, Zijin Gu, Amitis Shidani, Russ Webb,
- Abstract要約: 我々は,シグモイドの注意を再考し,詳細な理論的および経験的分析を行う。
我々は,シグモイドに着目した変換器が普遍関数近似器であることを証明した。
ハードウェア・アウェアのFLASHSIGMOIDを導入し,Sigmoid attentionをメモリ効率で実装する。
- 参考スコア(独自算出の注目度): 16.73166377436999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Attention is a key part of the transformer architecture. It is a sequence-to-sequence mapping that transforms each sequence element into a weighted sum of values. The weights are typically obtained as the softmax of dot products between keys and queries. Recent work has explored alternatives to softmax attention in transformers, such as ReLU and sigmoid activations. In this work, we revisit sigmoid attention and conduct an in-depth theoretical and empirical analysis. Theoretically, we prove that transformers with sigmoid attention are universal function approximators and benefit from improved regularity compared to softmax attention. Through detailed empirical analysis, we identify stabilization of large initial attention norms during the early stages of training as a crucial factor for the successful training of models with sigmoid attention, outperforming prior attempts. We also introduce FLASHSIGMOID, a hardware-aware and memory-efficient implementation of sigmoid attention yielding a 17% inference kernel speed-up over FLASHATTENTION2 on H100 GPUs. Experiments across language, vision, and speech show that properly normalized sigmoid attention matches the strong performance of softmax attention on a wide range of domains and scales, which previous attempts at sigmoid attention were unable to fully achieve. Our work unifies prior art and establishes best practices for sigmoid attention as a drop-in softmax replacement in transformers.
- Abstract(参考訳): 注意はトランスフォーマーアーキテクチャの重要な部分です。
これはシーケンスからシーケンスへのマッピングであり、各シーケンス要素を重み付けされた値の和に変換する。
重みは通常、キーとクエリ間のドット生成物のソフトマックスとして得られる。
近年の研究では、ReLUやシグモイドアクティベーションなどのトランスフォーマーにおけるソフトマックスアテンションに代わる方法が検討されている。
本研究では,シグモイドの注意を再考し,より深い理論的,実証的な分析を行う。
理論的には、シグミドアテンションを持つ変圧器は普遍関数近似器であり、ソフトマックスアテンションに比べて正則性の向上の恩恵を受ける。
より詳細な経験的分析により、訓練の初期段階における大きな初期注意規範の安定化は、シグモイド・アテンションを持つモデルのトレーニングを成功させる上で重要な要素であり、事前の試みよりも優れていた。
H100 GPU上でのFLASHATTENTION2よりも17%のカーネル高速化を実現するハードウェア・アウェアでメモリ効率のよいSigmoid attentionの実装であるFLASHSIGMOIDも導入した。
言語, 視覚, 音声による実験から, 適切に正規化されたシグモイドの注意は, それまでのシグモイドの注意が完全に達成できなかった幅広い領域や尺度において, ソフトマックスの注意の強いパフォーマンスと一致することが示された。
我々の研究は先行技術を統合し、変圧器におけるソフトマックスの置き換えとしてシグミド注意のベストプラクティスを確立する。
関連論文リスト
- SageAttention: Accurate 8-Bit Attention for Plug-and-play Inference Acceleration [21.808835887740543]
本稿では,注目のための高効率かつ高精度な量子化手法であるSageAttentionを提案する。
このアプローチでは、さまざまなモデルにわたるエンドツーエンドのメトリクス損失はほとんどありません。
論文 参考訳(メタデータ) (2024-10-03T10:25:23Z) - Text-guided 3D Human Motion Generation with Keyframe-based Parallel Skip Transformer [62.29951737214263]
既存のアルゴリズムは、コストがかかりエラーを起こしやすい全シーケンスを直接生成する。
本稿では,入力テキストに対応する人間の動作系列を生成するKeyMotionを提案する。
我々は,自動エンコーダを潜在空間に投影するために,Kullback-Leibler正規化付き変分符号器(VAE)を用いる。
逆拡散のために,デザインラテントとテキスト条件の相互参照を行う新しいパラレルスキップ変換器を提案する。
論文 参考訳(メタデータ) (2024-05-24T11:12:37Z) - FAST: Factorizable Attention for Speeding up Transformers [1.3637227185793512]
本稿では,スペーシフィケーションを伴わずに,注目行列の完全な表現を維持する線形スケールアテンション機構を提案する。
その結果、我々の注意機構は堅牢な性能を示し、自己注意が使用される多様なアプリケーションに対して大きな可能性を秘めていることが示唆された。
論文 参考訳(メタデータ) (2024-02-12T18:59:39Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - Stabilizing Transformer Training by Preventing Attention Entropy
Collapse [56.45313891694746]
本研究は,トランスフォーマーのトレーニングダイナミクスについて,注目層の進化について検討する。
我々は、$sigma$Reparamが注意層におけるエントロピー崩壊を防ぎ、より安定したトレーニングを促進することを示す。
画像分類、画像自己教師型学習、機械翻訳、音声認識、言語モデリングタスクについて、$sigma$Reparamで実験を行った。
論文 参考訳(メタデータ) (2023-03-11T03:30:47Z) - cosFormer: Rethinking Softmax in Attention [60.557869510885205]
カーネルメソッドは、ソフトマックス演算子を近似することで複雑さを減らすためにしばしば採用される。
近似誤差のため、それらのパフォーマンスは異なるタスク/コーパスで異なり、重要なパフォーマンス低下を被る。
本稿では,バニラ変圧器に匹敵する精度を達成できる,cosFormerと呼ばれる線形変圧器を提案する。
論文 参考訳(メタデータ) (2022-02-17T17:53:48Z) - Sinkformers: Transformers with Doubly Stochastic Attention [22.32840998053339]
我々はシンクホルンのアルゴリズムを用いて注意行列を2倍にし、その結果のモデルをシンクフォーマと呼ぶ。
実験面では、Sinkformersは視覚および自然言語処理タスクにおけるモデルの精度を向上させる。
重要なのは、3D形状の分類において、シンクフォーマーは顕著な改善をもたらすことである。
論文 参考訳(メタデータ) (2021-10-22T13:25:01Z) - Sparse Attention with Linear Units [60.399814410157425]
本稿では, ソフトマックスアクティベーションをReLUに置き換えることにより, 注目度を向上する新しい, 簡便な手法を提案する。
我々のモデルはRectified Linear Attention (ReLA)と呼ばれ、以前提案したスパースアテンション機構よりも実装が容易で効率的である。
分析の結果,RELAは高い空間性率と頭部の多様性を達成でき,ソース・ターゲット単語アライメントの精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-04-14T17:52:38Z) - Rethinking Attention with Performers [45.47365397101224]
本稿では,フルランクアテンション変換器を精度良く推定できるPerformer,Transformerアーキテクチャを提案する。
Performersは、スケーラブルなカーネルメソッドに対して独立した関心を持つ可能性のある、新しいFast Attention Via positive Orthogonal Random Feature approach (FAVOR+)を使用している。
提案手法は,他の研究手法と競合する結果を示し,Performers が活用する新しい注意学習パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2020-09-30T17:09:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。