論文の概要: The Shaped Transformer: Attention Models in the Infinite Depth-and-Width
Limit
- arxiv url: http://arxiv.org/abs/2306.17759v2
- Date: Sat, 9 Dec 2023 19:59:40 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-12 22:46:30.707743
- Title: The Shaped Transformer: Attention Models in the Infinite Depth-and-Width
Limit
- Title(参考訳): 形状変換器:無限深さおよび幅限界における注意モデル
- Authors: Lorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann,
Chris Maddison, Daniel M. Roy
- Abstract要約: 本研究では、無限深度と幅の比例極限におけるスキップ接続を持つ修正Softmaxベースのアテンションモデルの共分散行列について検討する。
適切に定義された限界を達成するため、Transformerのアテンション機構は、Softmax出力をアイデンティティに集中させることで変更される。
シミュレーションにより、深さと幅の比で指数付けされた微分方程式(SDE)が、対応する有限サイズモデルの驚くほど良い記述を提供することを示した。
- 参考スコア(独自算出の注目度): 38.89510345229949
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning theory, the covariance matrix of the representations serves
as a proxy to examine the network's trainability. Motivated by the success of
Transformers, we study the covariance matrix of a modified Softmax-based
attention model with skip connections in the proportional limit of
infinite-depth-and-width. We show that at initialization the limiting
distribution can be described by a stochastic differential equation (SDE)
indexed by the depth-to-width ratio. To achieve a well-defined stochastic
limit, the Transformer's attention mechanism is modified by centering the
Softmax output at identity, and scaling the Softmax logits by a width-dependent
temperature parameter. We examine the stability of the network through the
corresponding SDE, showing how the scale of both the drift and diffusion can be
elegantly controlled with the aid of residual connections. The existence of a
stable SDE implies that the covariance structure is well-behaved, even for very
large depth and width, thus preventing the notorious issues of rank degeneracy
in deep attention models. Finally, we show, through simulations, that the SDE
provides a surprisingly good description of the corresponding finite-size
model. We coin the name shaped Transformer for these architectural
modifications.
- Abstract(参考訳): 深層学習理論において、表現の共分散行列は、ネットワークのトレーニング可能性を調べるためのプロキシとして機能する。
変圧器の成功に動機づけられ,無限奥行きと幅の比例限界におけるスキップ接続を持つソフトマックス型注意モデルの共分散行列について検討した。
初期化の際には, 確率微分方程式 (SDE) を用いて, 深さ-幅比で表すことができることを示す。
厳密な確率的限界を達成するために、Transformerの注意機構は、Softmax出力をアイデンティティに集中させ、Softmaxロジットを幅依存温度パラメータでスケーリングすることで変更される。
本研究では,SDEによるネットワークの安定性を検証し,残留接続の助けを借りてドリフトと拡散のスケールをエレガントに制御できることを示す。
安定なsdeの存在は、非常に大きな深さと幅であっても共分散構造が十分に機能していることを示し、深層注意モデルにおける階数縮退の悪名高い問題を防ぐ。
最後に、シミュレーションを通して、SDEが対応する有限サイズモデルの驚くほど良い記述を提供することを示す。
我々は、これらのアーキテクチャ変更のために、名前の字形トランスフォーマーを造る。
関連論文リスト
- On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - High-dimensional scaling limits and fluctuations of online least-squares
SGD with smooth covariance [10.635248457021499]
オンライン最小二乗勾配 Descent (SGD) アルゴリズムの高次元スケーリング限界とゆらぎを導出する。
導出制限ODEとSDEに対する解の存在と一意性を示す。
論文 参考訳(メタデータ) (2023-04-03T03:50:00Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - LordNet: Learning to Solve Parametric Partial Differential Equations
without Simulated Data [63.55861160124684]
本稿では,離散化されたPDEによって構築された平均2乗残差(MSR)損失から,ニューラルネットワークが直接物理を学習する一般データ自由パラダイムを提案する。
具体的には,低ランク分解ネットワーク(LordNet)を提案する。
Poisson方程式とNavier-Stokes方程式を解く実験は、MSR損失による物理的制約がニューラルネットワークの精度と能力を向上させることを実証している。
論文 参考訳(メタデータ) (2022-06-19T14:41:08Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - The Neural Covariance SDE: Shaped Infinite Depth-and-Width Networks at
Initialization [13.872374586700767]
近年の研究では、ネットワークの深さが大きくなるにつれて活性化関数が形成されることが示されている。
非自明な極限に達するのに必要な活性化関数の正確なスケーリングを特定する。
アクティベーション関数に基づいて,大規模なネットワークの標準を爆発・消滅するためのif-and-only-if条件を回復する。
論文 参考訳(メタデータ) (2022-06-06T17:45:07Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z) - Machine Learning For Elliptic PDEs: Fast Rate Generalization Bound,
Neural Scaling Law and Minimax Optimality [11.508011337440646]
楕円偏微分方程式(PDE)をランダムサンプルから解くための深層学習手法の統計的限界について検討する。
この問題を単純化するために、ディリクレ境界条件がゼロのハイパーキューブ上のシュル・オーディンガー方程式(英語版)という楕円型PDEのプロトタイプに焦点をあてる。
両手法の上限値と下限値を確立し,この問題に対して同時に開発された上限値を改善する。
論文 参考訳(メタデータ) (2021-10-13T17:26:31Z) - Unbiased Gradient Estimation for Variational Auto-Encoders using Coupled
Markov Chains [34.77971292478243]
変分オートエンコーダ(VAE)は、オートエンコーダのようなアーキテクチャで2つのニューラルネットワークを持つ、潜伏変数モデルである。
ログ型勾配の偏りのない推定器を導入することにより,VAEのトレーニング手法を開発する。
偏りのない推定器を装着したVAEは予測性能が向上することを示した。
論文 参考訳(メタデータ) (2020-10-05T08:11:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。