論文の概要: Attention is a smoothed cubic spline
- arxiv url: http://arxiv.org/abs/2408.09624v1
- Date: Mon, 19 Aug 2024 00:56:44 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 18:03:47.210077
- Title: Attention is a smoothed cubic spline
- Title(参考訳): 注意は滑らかな立方体スプラインである
- Authors: Zehua Lai, Lek-Heng Lim, Yucong Liu,
- Abstract要約: ReLU-activation, attention, masked attention, encoder-decoder attention がすべて立方体のスプラインであることを示す。
この洞察はトランスの性質に光を当て、完全にスプラインでキャストする。
- 参考スコア(独自算出の注目度): 6.359744683956174
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We highlight a perhaps important but hitherto unobserved insight: The attention module in a transformer is a smoothed cubic spline. Viewed in this manner, this mysterious but critical component of a transformer becomes a natural development of an old notion deeply entrenched in classical approximation theory. More precisely, we show that with ReLU-activation, attention, masked attention, encoder-decoder attention are all cubic splines. As every component in a transformer is constructed out of compositions of various attention modules (= cubic splines) and feed forward neural networks (= linear splines), all its components -- encoder, decoder, and encoder-decoder blocks; multilayered encoders and decoders; the transformer itself -- are cubic or higher-order splines. If we assume the Pierce-Birkhoff conjecture, then the converse also holds, i.e., every spline is a ReLU-activated encoder. Since a spline is generally just $C^2$, one way to obtain a smoothed $C^\infty$-version is by replacing ReLU with a smooth activation; and if this activation is chosen to be SoftMax, we recover the original transformer as proposed by Vaswani et al. This insight sheds light on the nature of the transformer by casting it entirely in terms of splines, one of the best known and thoroughly understood objects in applied mathematics.
- Abstract(参考訳): トランスのアテンションモジュールはスムーズな立方体スプラインです。
このように見れば、この変圧器の神秘的かつ批判的な構成要素は、古典近似理論に深く根ざした古い概念の自然な展開となる。
より正確には、ReLUアクティベーション、注意、マスクされた注意、エンコーダ・デコーダの注意は全て立方体のスプラインであることを示す。
トランスのすべてのコンポーネントは、様々な注目モジュール(=立方体スプライン)とフィードフォワードニューラルネットワーク(=線形スプライン)で構成されているため、エンコーダ、デコーダ、エンコーダデコーダブロック、多層エンコーダおよびデコーダ、トランス自体が立方体または上位スプラインである。
ピアース・ビルホフ予想を仮定すると、逆もまた成り立つ、すなわち、すべてのスプラインは ReLU-活性化エンコーダである。
スプラインは通常$C^2$であるので、滑らかな$C^\infty$-versionを得るためには、ReLUをスムーズなアクティベーションに置き換えることであり、このアクティベーションがSoftMaxに選択されている場合、Vaswaniらによって提案されたように、元のトランスフォーマーを復元する。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - White-Box Transformers via Sparse Rate Reduction: Compression Is All There Is? [27.58916930770997]
数学的に完全に解釈可能なCRATEという,ホワイトボックストランスフォーマーのようなディープネットワークアーキテクチャのファミリーを示す。
実験によると、これらのネットワークは単純さにもかかわらず、大規模な実世界の画像とテキストデータセットの表現を圧縮し、分散化することを学習している。
論文 参考訳(メタデータ) (2023-11-22T02:23:32Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - The Expressive Power of Transformers with Chain of Thought [29.839710738657203]
実際には、トランスフォーマーは「思考の連鎖」や「スクラッチパッド」を使用することで改善できる。
答えはYESであるが、増加量は中間生成量に大きく依存する。
また, 線形ステップでは, コンテクストに敏感な言語に変換器デコーダを配置することが示唆された。
論文 参考訳(メタデータ) (2023-10-11T22:35:18Z) - Deep Transformers without Shortcuts: Modifying Self-attention for
Faithful Signal Propagation [105.22961467028234]
ディープニューラルネットワーク(DNN)のトレーニングにおいて,スキップ接続と正規化レイヤはユビキタスである
Deep Kernel Shapingのような最近のアプローチは、それらへの依存を減らすために進歩しました。
しかし、これらのアプローチは変換器に存在する自己注意層とは相容れない。
論文 参考訳(メタデータ) (2023-02-20T21:26:25Z) - Holistically Explainable Vision Transformers [136.27303006772294]
本稿では,B-cos変換器を提案する。
具体的には、各モデルコンポーネント(多層パーセプトロン、注意層、トークン化モジュールなど)を動的線形に定式化する。
提案した設計をViT(Vision Transformers)に適用し,Bcos-ViTと呼ばれるモデルが高解釈可能であり,ベースラインのViTと競合することを示す。
論文 参考訳(メタデータ) (2023-01-20T16:45:34Z) - Your Transformer May Not be as Powerful as You Expect [88.11364619182773]
連続列列列関数を近似できるかどうかに関して, RPE ベースの変換器のパワーを数学的に解析する。
RPEをベースとしたトランスフォーマーでは,ニューラルネットワークの深さや幅がどんなに深くても近似できない連続列列列列関数が存在することを示す。
我々は,その条件を満たす,Universal RPE-based (URPE) Attentionと呼ばれる新しいアテンションモジュールを開発する。
論文 参考訳(メタデータ) (2022-05-26T14:51:30Z) - Deep Hyperspectral Unmixing using Transformer Network [7.3050653207383025]
トランスを用いた新しい深層混合モデルを提案する。
提案モデルは畳み込みオートエンコーダと変圧器の組み合わせである。
データは畳み込みデコーダを用いて再構成される。
論文 参考訳(メタデータ) (2022-03-31T14:47:36Z) - Hard-Coded Gaussian Attention for Neural Machine Translation [39.55545092068489]
学習パラメータを含まない「ハードコード」アテンションバリアントを開発する。
エンコーダとデコーダの学習したすべての自己注意ヘッドを、固定された入力に依存しないガウス分布に置き換えることで、4つの異なる言語ペア間のBLEUスコアに最小限の影響を与える。
このBLEUドロップの多くは、1つの学習されたクロスアテンションヘッドをハードコードされたトランスフォーマーに追加することで回収できる。
論文 参考訳(メタデータ) (2020-05-02T08:16:13Z) - Fixed Encoder Self-Attention Patterns in Transformer-Based Machine
Translation [73.11214377092121]
我々は,各エンコーダ層の注意頭数のみを,単純な固定型(非学習型)の注意パターンに置き換えることを提案する。
異なるデータサイズと複数の言語ペアを用いた実験により、トレーニング時にトランスフォーマーのエンコーダ側でアテンションヘッドを固定することは翻訳品質に影響を与えないことが示された。
論文 参考訳(メタデータ) (2020-02-24T13:53:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。