論文の概要: Attention Mechanism, Max-Affine Partition, and Universal Approximation
- arxiv url: http://arxiv.org/abs/2504.19901v1
- Date: Mon, 28 Apr 2025 15:31:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.494317
- Title: Attention Mechanism, Max-Affine Partition, and Universal Approximation
- Title(参考訳): 注意機構, 最大アフィン分割と普遍近似
- Authors: Hude Liu, Jerry Yao-Chieh Hu, Zhao Song, Han Liu,
- Abstract要約: 一つの自己アテンション層が、$L_infty$-norm の下でコンパクト領域上の任意の連続函数を近似できることを示す。
また,本手法を拡張し,単頭交叉注意が同一の普遍近似を保証することを示す。
- 参考スコア(独自算出の注目度): 11.61656225057345
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: We establish the universal approximation capability of single-layer, single-head self- and cross-attention mechanisms with minimal attached structures. Our key insight is to interpret single-head attention as an input domain-partition mechanism that assigns distinct values to subregions. This allows us to engineer the attention weights such that this assignment imitates the target function. Building on this, we prove that a single self-attention layer, preceded by sum-of-linear transformations, is capable of approximating any continuous function on a compact domain under the $L_\infty$-norm. Furthermore, we extend this construction to approximate any Lebesgue integrable function under $L_p$-norm for $1\leq p <\infty$. Lastly, we also extend our techniques and show that, for the first time, single-head cross-attention achieves the same universal approximation guarantees.
- Abstract(参考訳): 最小アタッチメント構造を有する単層・単頭自己・クロスアテンション機構の普遍的近似能力を確立する。
我々の重要な洞察は、単一ヘッドの注意をサブリージョンに異なる値を割り当てる入力ドメイン分割メカニズムとして解釈することである。
これにより、この代入が対象関数を模倣するように注意重みを設計することができる。
これに基づいて、線形変換が先行する単一の自己アテンション層が、$L_\infty$-norm の下でコンパクト領域上の任意の連続函数を近似できることを示す。
さらに、この構成を拡張して、ルベーグ可積分函数を1\leq p <\infty$ に対して$L_p$-norm で近似する。
最後に,本手法を拡張して,単頭交差注意が同一の普遍近似を保証することを示す。
関連論文リスト
- Universal Approximation with Softmax Attention [10.857177487536656]
i) 2層自己アテンションと(ii) 1層自己アテンションの両方がコンパクト領域上の連続列列列関数に対する普遍近似であることを示す。
論文 参考訳(メタデータ) (2025-04-22T14:51:33Z) - Unveiling Induction Heads: Provable Training Dynamics and Feature Learning in Transformers [54.20763128054692]
我々は,2層変換器が$n$-gramのマルコフ連鎖データ上でICLを実行するためにどのように訓練されているかを検討する。
クロスエントロピー ICL 損失に対する勾配流が極限モデルに収束することを証明する。
論文 参考訳(メタデータ) (2024-09-09T18:10:26Z) - Some new considerations about the $ν$-function [0.0]
連続スペクトルを持つ量子系に対する一般化された超幾何コヒーレント状態の正規化関数として$nu$-関数が働くことを示す。
私たちの知る限りでは、私たちによって得られた結果は文学には現れない。
論文 参考訳(メタデータ) (2024-09-09T10:08:17Z) - Facility Location Games with Scaling Effects [63.421996606381164]
古典的な施設配置問題を考慮し、各エージェントの個々のコスト関数が、スケーリング係数によって乗算された施設からの距離と等しくなる変動を考察する。
我々は,最適解の計算を記述し,総コストと最大コストの目標に焦点をあてる。
エージェントが単一話者の好みを持つことを保証するスケーリング関数の条件を特徴付ける。
論文 参考訳(メタデータ) (2024-02-29T07:08:18Z) - Minimum Width for Deep, Narrow MLP: A Diffeomorphism Approach [3.218087085276242]
本稿では,奥行きの狭義の最小幅の探索を単純化し,$w(d_x, d_y)$と表される純粋幾何学関数を決定するフレームワークを提案する。
最小幅の上限は$namemax (2d_x+1, d_y) + alpha(sigma)$で、$0 leq alpha(sigma) leq 2$はアクティベーション関数に依存する定数を表す。
論文 参考訳(メタデータ) (2023-08-30T08:58:23Z) - Monotone deep Boltzmann machines [86.50247625239406]
ディープボルツマンマシン(Deep Boltzmann Machine、DBM)は、双対エネルギー関数によって制御される多層確率モデルである。
我々は,各層で任意の自己接続が可能な新しい制限モデルであるモノトンDBMを開発した。
アクティベーションの特定の選択が、変動平均場解を与える固定点反復をもたらすことを示す。
論文 参考訳(メタデータ) (2023-07-11T03:02:44Z) - Online Learning with Adversaries: A Differential-Inclusion Analysis [52.43460995467893]
我々は,完全に非同期なオンラインフェデレート学習のための観察行列ベースのフレームワークを提案する。
我々の主な結果は、提案アルゴリズムがほぼ確実に所望の平均$mu.$に収束することである。
新たな差分包摂型2時間スケール解析を用いて,この収束を導出する。
論文 参考訳(メタデータ) (2023-04-04T04:32:29Z) - Reinforcement Learning from Partial Observation: Linear Function Approximation with Provable Sample Efficiency [111.83670279016599]
部分観察決定過程(POMDP)の無限観測および状態空間を用いた強化学習について検討した。
線形構造をもつPOMDPのクラスに対する部分可観測性と関数近似の最初の試みを行う。
論文 参考訳(メタデータ) (2022-04-20T21:15:38Z) - Universal Approximation Property of Neural Ordinary Differential
Equations [19.861764482790544]
我々は NODE が一定の条件下で連続写像に対して$Lp$-universal approximator を形成することを示す。
また、それらのより強い近似特性、すなわち、大きな微分同相類を近似する$sup$-ユニバーサリティを示す。
論文 参考訳(メタデータ) (2020-12-04T05:53:21Z) - Minimum Width for Universal Approximation [91.02689252671291]
我々は、$Lp$関数の普遍近似に必要な最小幅がちょうど$maxd_x+1,d_y$であることを証明する。
また、同じ結論がReLUと一様近似に当てはまるのではなく、追加のしきい値アクティベーション関数で成り立つことを証明している。
論文 参考訳(メタデータ) (2020-06-16T01:24:21Z) - Optimal Bounds between $f$-Divergences and Integral Probability Metrics [8.401473551081748]
確率分布の類似性を定量化するために、$f$-divergencesとIntegral Probability Metricsが広く使われている。
両家系の関係を凸双対性の観点から体系的に研究する。
我々は、Hoeffdingの補題のような統一的な方法でよく知られた結果を回復しながら、新しい境界を得る。
論文 参考訳(メタデータ) (2020-06-10T17:39:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。