論文の概要: The Shaped Transformer: Attention Models in the Infinite Depth-and-Width
Limit
- arxiv url: http://arxiv.org/abs/2306.17759v1
- Date: Fri, 30 Jun 2023 16:10:36 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 11:45:40.933334
- Title: The Shaped Transformer: Attention Models in the Infinite Depth-and-Width
Limit
- Title(参考訳): 形状変換器:無限深さおよび幅限界における注意モデル
- Authors: Lorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann,
Chris Maddison, Daniel M. Roy
- Abstract要約: 本研究では、無限深度と幅の比例極限におけるスキップ接続を持つ修正Softmaxベースのアテンションモデルの共分散行列について検討する。
適切に定義された限界を達成するため、Transformerのアテンション機構は、Softmax出力をアイデンティティに集中させることで変更される。
シミュレーションにより、深さと幅の比で指数付けされた微分方程式(SDE)が、対応する有限サイズモデルの驚くほど良い記述を提供することを示した。
- 参考スコア(独自算出の注目度): 22.680646317274256
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In deep learning theory, the covariance matrix of the representations serves
as a proxy to examine the network's trainability. Motivated by the success of
Transformers, we study the covariance matrix of a modified Softmax-based
attention model with skip connections in the proportional limit of
infinite-depth-and-width. We show that at initialization the limiting
distribution can be described by a stochastic differential equation (SDE)
indexed by the depth-to-width ratio. To achieve a well-defined stochastic
limit, the Transformer's attention mechanism is modified by centering the
Softmax output at identity, and scaling the Softmax logits by a width-dependent
temperature parameter. We examine the stability of the network through the
corresponding SDE, showing how the scale of both the drift and diffusion can be
elegantly controlled with the aid of residual connections. The existence of a
stable SDE implies that the covariance structure is well-behaved, even for very
large depth and width, thus preventing the notorious issues of rank degeneracy
in deep attention models. Finally, we show, through simulations, that the SDE
provides a surprisingly good description of the corresponding finite-size
model. We coin the name shaped Transformer for these architectural
modifications.
- Abstract(参考訳): 深層学習理論において、表現の共分散行列は、ネットワークのトレーニング可能性を調べるためのプロキシとして機能する。
変圧器の成功に動機づけられ,無限奥行きと幅の比例限界におけるスキップ接続を持つソフトマックス型注意モデルの共分散行列について検討した。
初期化の際には, 確率微分方程式 (SDE) を用いて, 深さ-幅比で表すことができることを示す。
厳密な確率的限界を達成するために、Transformerの注意機構は、Softmax出力をアイデンティティに集中させ、Softmaxロジットを幅依存温度パラメータでスケーリングすることで変更される。
本研究では,SDEによるネットワークの安定性を検証し,残留接続の助けを借りてドリフトと拡散のスケールをエレガントに制御できることを示す。
安定なsdeの存在は、非常に大きな深さと幅であっても共分散構造が十分に機能していることを示し、深層注意モデルにおける階数縮退の悪名高い問題を防ぐ。
最後に、シミュレーションを通して、SDEが対応する有限サイズモデルの驚くほど良い記述を提供することを示す。
我々は、これらのアーキテクチャ変更のために、名前の字形トランスフォーマーを造る。
関連論文リスト
- Exploring the ability of the Deep Ritz Method to model strain localization as a sharp discontinuity [0.0]
弾塑性固体の変種設定において, 規則化された強不連続キネマティクスを用いる。
ニューラルネットワーク(ANN)を用いて,対応する数学的モデルを識別する
概念実証として、1次元および2次元の数値例を通して、弾塑性固体のひずみ局在の計算モデルが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-09-20T05:57:50Z) - AdjointDEIS: Efficient Gradients for Diffusion Models [2.0795007613453445]
拡散SDEに対する連続随伴方程式は、実際には単純なODEに単純化されていることを示す。
また, 顔形態形成問題の形で, 対向攻撃による誘導生成に対するAdjointDEISの有効性を実証した。
論文 参考訳(メタデータ) (2024-05-23T19:51:33Z) - Transolver: A Fast Transformer Solver for PDEs on General Geometries [66.82060415622871]
本稿では, 離散化された測地の背後に隠れた本質的な物理状態を学習するTransolverについて述べる。
スライスから符号化された物理認識トークンに注意を向けることで、Transovlerは複雑な物理的相関を効果的に捉えることができる。
Transolverは6つの標準ベンチマークで22%の相対的な利得で一貫した最先端を実現し、大規模産業シミュレーションでも優れている。
論文 参考訳(メタデータ) (2024-02-04T06:37:38Z) - On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。
我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文 参考訳(メタデータ) (2023-11-02T20:03:05Z) - High-dimensional scaling limits and fluctuations of online least-squares SGD with smooth covariance [16.652085114513273]
オンライン最小二乗勾配 Descent (SGD) アルゴリズムの高次元スケーリング限界とゆらぎを導出する。
その結果, 平均二乗推定や予測誤差の制限や変動など, いくつかの応用が得られた。
論文 参考訳(メタデータ) (2023-04-03T03:50:00Z) - Convex Bounds on the Softmax Function with Applications to Robustness
Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。
本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文 参考訳(メタデータ) (2023-03-03T05:07:02Z) - High-dimensional limit theorems for SGD: Effective dynamics and critical
scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。
下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。
この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文 参考訳(メタデータ) (2022-06-08T17:42:18Z) - The Neural Covariance SDE: Shaped Infinite Depth-and-Width Networks at
Initialization [13.872374586700767]
近年の研究では、ネットワークの深さが大きくなるにつれて活性化関数が形成されることが示されている。
非自明な極限に達するのに必要な活性化関数の正確なスケーリングを特定する。
アクティベーション関数に基づいて,大規模なネットワークの標準を爆発・消滅するためのif-and-only-if条件を回復する。
論文 参考訳(メタデータ) (2022-06-06T17:45:07Z) - DepthFormer: Exploiting Long-Range Correlation and Local Information for
Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。
我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。
提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文 参考訳(メタデータ) (2022-03-27T05:03:56Z) - Deep Learning Approximation of Diffeomorphisms via Linear-Control
Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。
対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文 参考訳(メタデータ) (2021-10-24T08:57:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。