論文の概要: Infinite-Width Limit of a Single Attention Layer: Analysis via Tensor Programs
- arxiv url: http://arxiv.org/abs/2506.00846v1
- Date: Sun, 01 Jun 2025 05:53:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.698602
- Title: Infinite-Width Limit of a Single Attention Layer: Analysis via Tensor Programs
- Title(参考訳): 単一注意層の無限幅限界:テンソルプログラムによる解析
- Authors: Mana Sakai, Ryo Karakida, Masaaki Imaizumi,
- Abstract要約: 本稿では,現実的なアーキテクチャ次元の下で,単一注意層内の変数の無限幅極限分布を同定する。
この極限法則の正確な形を無限ヘッド近似や調整されたスケーリングに頼ることなく導き出す。
我々の研究成果は、無限幅政権における深層トランスフォーマーアーキテクチャの統一理論開発の基礎となるものである。
- 参考スコア(独自算出の注目度): 10.787328610467801
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In modern theoretical analyses of neural networks, the infinite-width limit is often invoked to justify Gaussian approximations of neuron preactivations (e.g., via neural network Gaussian processes or Tensor Programs). However, these Gaussian-based asymptotic theories have so far been unable to capture the behavior of attention layers, except under special regimes such as infinitely many heads or tailored scaling schemes. In this paper, leveraging the Tensor Programs framework, we rigorously identify the infinite-width limit distribution of variables within a single attention layer under realistic architectural dimensionality and standard $1/\sqrt{n}$-scaling with $n$ dimensionality. We derive the exact form of this limit law without resorting to infinite-head approximations or tailored scalings, demonstrating that it departs fundamentally from Gaussianity. This limiting distribution exhibits non-Gaussianity from a hierarchical structure, being Gaussian conditional on the random similarity scores. Numerical experiments validate our theoretical predictions, confirming the effectiveness of our theory at finite width and accurate description of finite-head attentions. Beyond characterizing a standalone attention layer, our findings lay the groundwork for developing a unified theory of deep Transformer architectures in the infinite-width regime.
- Abstract(参考訳): 現代のニューラルネットワークの理論解析において、無限幅の極限はしばしば、ニューロン前駆体(例えば、ニューラルネットワークガウス過程またはテンソルプログラム)のガウス近似を正当化するために呼び出される。
しかしながら、これらのガウスに基づく漸近的理論は、無限に多くの頭や調整されたスケーリングスキームのような特別な体制の下では、これまで注意層の振る舞いを捉えることができなかった。
本稿では, テンソル・プログラム・フレームワークを用いて, 現実的なアーキテクチャ次元と標準1/\sqrt{n}$-scaling with $n$ dimensionality の下で, 単一注意層内の変数の無限幅極限分布を厳密に同定する。
我々はこの極限法則の正確な形を無限ヘッド近似や調整されたスケーリングに頼ることなく導き、それがガウス性から根本的に離れていることを示す。
この極限分布は階層構造から非ガウス性を示し、ランダム類似度スコアのガウス条件である。
数値実験により理論予測が検証され、有限幅での理論の有効性が確認され、有限ヘッドアテンションの正確な記述が得られた。
スタンドアローンの注意層を特徴づけるだけでなく、我々は無限幅体制における深層トランスフォーマーアーキテクチャの統一理論の開発の基礎を築いた。
関連論文リスト
- A Near Complete Nonasymptotic Generalization Theory For Multilayer Neural Networks: Beyond the Bias-Variance Tradeoff [57.25901375384457]
任意のリプシッツ活性化と一般リプシッツ損失関数を持つ多層ニューラルネットワークに対する漸近一般化理論を提案する。
特に、文献でよく見られるように、損失関数の有界性を必要としない。
回帰問題に対する多層ReLUネットワークに対する理論の極小最適性を示す。
論文 参考訳(メタデータ) (2025-03-03T23:34:12Z) - Proportional infinite-width infinite-depth limit for deep linear neural networks [0.16385815610837165]
大規模ネットワークのコンテキストにおけるランダムパラメータを持つ線形ニューラルネットワークの分布特性について検討し,各層あたりのニューロン数に比例して層数が分散することを示した。
出力間の相関を保った非ガウス分布を導出し, 深さと幅の両方が分岐するが, 一定比を維持するような比例極限を探索する。
論文 参考訳(メタデータ) (2024-11-22T11:25:52Z) - Towards Training Without Depth Limits: Batch Normalization Without
Gradient Explosion [83.90492831583997]
バッチ正規化ネットワークは,信号伝搬特性を最適に保ちつつ,爆発的な勾配を回避することができることを示す。
線形アクティベーションとバッチ正規化を備えた多層パーセプトロン(MLP)を用いて,有界深度を実証する。
また、ある非線形活性化に対して同じ特性を経験的に達成する活性化整形法を設計する。
論文 参考訳(メタデータ) (2023-10-03T12:35:02Z) - Posterior Inference on Shallow Infinitely Wide Bayesian Neural Networks under Weights with Unbounded Variance [1.5960546024967326]
1つの隠れた層を持つベイズニューラルネットワークの無限幅スケーリング限界は、ネットワーク重みが事前の分散に束縛されたガウス過程であることが知られている。
Nealの結果は、複数の隠蔽層を持つネットワークや、ガウスのプロセススケーリング制限を伴う畳み込みニューラルネットワークにまで拡張されている。
我々の貢献は、条件付きガウス表現を用いて、後部推論の解釈可能かつ計算学的に効率的な手順であり、非ガウス系におけるトラクタブルな後部推論と不確実な定量化のためにガウス過程の機械をフル活用することができる。
論文 参考訳(メタデータ) (2023-05-18T02:55:00Z) - A Unified Algebraic Perspective on Lipschitz Neural Networks [88.14073994459586]
本稿では,様々なタイプの1-Lipschitzニューラルネットワークを統一する新しい視点を提案する。
そこで本研究では,SDP(Common semidefinite Programming)条件の解析解を求めることによって,既存の多くの手法を導出し,一般化することができることを示す。
SDPベースのLipschitz Layers (SLL) と呼ばれる我々のアプローチは、非自明で効率的な凸ポテンシャル層の一般化を設計できる。
論文 参考訳(メタデータ) (2023-03-06T14:31:09Z) - Unified Field Theory for Deep and Recurrent Neural Networks [56.735884560668985]
本稿では,再帰的ネットワークと深層ネットワークの両方に対する平均場理論の統一的,体系的な導出について述べる。
平均場理論への収束は、ディープネットワークよりもリカレントネットワークの方が典型的に遅い。
提案手法はガウス過程が1/n$の体系的展開の最下位次数であることを示す。
論文 参考訳(メタデータ) (2021-12-10T15:06:11Z) - Neural Networks and Quantum Field Theory [0.0]
我々は、ウィルソン有効場理論の観点から、ニューラルネットワークの理論的理解を提案する。
この対応は、多くのニューラルネットワークがガウス過程から引き出されるという事実に依存している。
論文 参考訳(メタデータ) (2020-08-19T18:00:06Z) - Generalization bound of globally optimal non-convex neural network
training: Transportation map estimation by infinite dimensional Langevin
dynamics [50.83356836818667]
本稿では,ディープラーニングの最適化を一般化誤差と関連づけて解析する理論フレームワークを提案する。
ニューラルネットワーク最適化分析のための平均場理論やニューラル・タンジェント・カーネル理論のような既存のフレームワークは、そのグローバル収束を示すために、ネットワークの無限幅の限界を取る必要がある。
論文 参考訳(メタデータ) (2020-07-11T18:19:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。