論文の概要: Universal Approximation with Softmax Attention
- arxiv url: http://arxiv.org/abs/2504.15956v1
- Date: Tue, 22 Apr 2025 14:51:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 17:48:03.2978
- Title: Universal Approximation with Softmax Attention
- Title(参考訳): ソフトマックスを考慮したユニバーサル近似
- Authors: Jerry Yao-Chieh Hu, Hude Liu, Hong-Yu Chen, Weimin Wu, Han Liu,
- Abstract要約: i) 2層自己アテンションと(ii) 1層自己アテンションの両方がコンパクト領域上の連続列列列関数に対する普遍近似であることを示す。
- 参考スコア(独自算出の注目度): 10.857177487536656
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We prove that with linear transformations, both (i) two-layer self-attention and (ii) one-layer self-attention followed by a softmax function are universal approximators for continuous sequence-to-sequence functions on compact domains. Our main technique is a new interpolation-based method for analyzing attention's internal mechanism. This leads to our key insight: self-attention is able to approximate a generalized version of ReLU to arbitrary precision, and hence subsumes many known universal approximators. Building on these, we show that two-layer multi-head attention alone suffices as a sequence-to-sequence universal approximator. In contrast, prior works rely on feed-forward networks to establish universal approximation in Transformers. Furthermore, we extend our techniques to show that, (softmax-)attention-only layers are capable of approximating various statistical models in-context. We believe these techniques hold independent interest.
- Abstract(参考訳): 我々は、両方の線型変換で証明する。
(i)二層自己注意、及び
(ii) 1層自己アテンションとソフトマックス関数はコンパクト領域上の連続列列列関数に対する普遍近似である。
本手法は,注目の内的メカニズムを解析するための補間に基づく新しい手法である。
自己注意は、ReLUの一般化されたバージョンを任意の精度で近似することができ、したがって多くの既知の普遍近似子を仮定することができる。
これらに基づいて,2層多面的注意のみがシーケンス・ツー・シーケンス・ユニバーサル近似器として十分であることを示す。
対照的に、以前の研究はトランスフォーマーの普遍近似を確立するためにフィードフォワードネットワークに依存していた。
さらに,本手法を拡張して,(ソフトマックス)アテンションのみの層が様々な統計モデルをコンテキスト内で近似可能であることを示す。
これらの技術は独立した関心を抱いていると信じている。
関連論文リスト
- Attention Mechanism, Max-Affine Partition, and Universal Approximation [11.61656225057345]
一つの自己アテンション層が、$L_infty$-norm の下でコンパクト領域上の任意の連続函数を近似できることを示す。
また,本手法を拡張し,単頭交叉注意が同一の普遍近似を保証することを示す。
論文 参考訳(メタデータ) (2025-04-28T15:31:45Z) - MEP: Multiple Kernel Learning Enhancing Relative Positional Encoding Length Extrapolation [5.298814565953444]
相対的な位置符号化法は、単一のカーネル関数を実装することで、長さ外挿問題に対処する。
本研究では,異なるカーネル関数を結合する重み付き平均を用いた,MEPと呼ばれる新しい相対的位置符号化手法を提案する。
我々は,新しい学習可能なパラメータを必要としないパラメータフリー変種と,最先端技術を統合することのできるパラメータ化変種という,2つの異なる方法を提案する。
論文 参考訳(メタデータ) (2024-03-26T13:38:06Z) - Prompting a Pretrained Transformer Can Be a Universal Approximator [105.59562522323274]
従来考えられていたよりもはるかに小さな事前学習モデルでは,プレフィックスの場合には普遍近似が可能であることを示す。
また、関数を所望の精度に近似するのに必要なプレフィックスの長さにジャクソン型境界を与える。
論文 参考訳(メタデータ) (2024-02-22T18:12:48Z) - CSformer: Combining Channel Independence and Mixing for Robust Multivariate Time Series Forecasting [3.6814181034608664]
本稿では,チャネル独立戦略と時系列解析の混合手法を提案する。
CSformerは,2段階のマルチヘッド自己保持機構を備えた新しいフレームワークである。
本フレームワークは,シーケンスアダプタとチャネルアダプタを効果的に組み込んで,重要な情報を識別するモデルの能力を大幅に向上させる。
論文 参考訳(メタデータ) (2023-12-11T09:10:38Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Combiner: Full Attention Transformer with Sparse Computation Cost [142.10203598824964]
計算の複雑さを低く保ちつつ、各注目ヘッドにフルアテンション機能を提供するコンバインダを提案する。
既存のスパース変圧器で使用されるスパースアテンションパターンのほとんどは、そのような分解設計をフルアテンションに刺激することができることを示す。
自己回帰的タスクと双方向シーケンスタスクの両方に関する実験的評価は、このアプローチの有効性を示す。
論文 参考訳(メタデータ) (2021-07-12T22:43:11Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Attention is Not All You Need: Pure Attention Loses Rank Doubly
Exponentially with Depth [48.16156149749371]
この研究は、自己注意ネットワークを理解するための新しい方法を提案する。
それらの出力は、より小さな項の和に分解できることを示す。
我々は、自己意識が「トークン」に対して強い帰納的偏見を持っていることを証明している。
論文 参考訳(メタデータ) (2021-03-05T00:39:05Z) - Tensor Representations for Action Recognition [54.710267354274194]
シーケンスにおける人間の行動は、空間的特徴とその時間的ダイナミクスの複雑な相互作用によって特徴づけられる。
アクション認識タスクの視覚的特徴間の高次関係を捉えるための新しいテンソル表現を提案する。
我々は,高次テンソルといわゆる固有値パワー正規化(NEP)を用いて,高次事象のスペクトル検出を行う。
論文 参考訳(メタデータ) (2020-12-28T17:27:18Z) - Rethinking Attention with Performers [45.47365397101224]
本稿では,フルランクアテンション変換器を精度良く推定できるPerformer,Transformerアーキテクチャを提案する。
Performersは、スケーラブルなカーネルメソッドに対して独立した関心を持つ可能性のある、新しいFast Attention Via positive Orthogonal Random Feature approach (FAVOR+)を使用している。
提案手法は,他の研究手法と競合する結果を示し,Performers が活用する新しい注意学習パラダイムの有効性を示す。
論文 参考訳(メタデータ) (2020-09-30T17:09:09Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。