Fugu-MT 論文翻訳(概要): The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit

論文の概要: The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit

arxiv url: http://arxiv.org/abs/2306.17759v2
Date: Sat, 9 Dec 2023 19:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-12 22:46:30.707743
Title: The Shaped Transformer: Attention Models in the Infinite Depth-and-Width Limit
Title（参考訳）: 形状変換器:無限深さおよび幅限界における注意モデル
Authors: Lorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann, Chris Maddison, Daniel M. Roy
Abstract要約: 本研究では、無限深度と幅の比例極限におけるスキップ接続を持つ修正Softmaxベースのアテンションモデルの共分散行列について検討する。適切に定義された限界を達成するため、Transformerのアテンション機構は、Softmax出力をアイデンティティに集中させることで変更される。シミュレーションにより、深さと幅の比で指数付けされた微分方程式(SDE)が、対応する有限サイズモデルの驚くほど良い記述を提供することを示した。
参考スコア（独自算出の注目度）: 38.89510345229949
License: http://creativecommons.org/licenses/by/4.0/
Abstract: In deep learning theory, the covariance matrix of the representations serves as a proxy to examine the network's trainability. Motivated by the success of Transformers, we study the covariance matrix of a modified Softmax-based attention model with skip connections in the proportional limit of infinite-depth-and-width. We show that at initialization the limiting distribution can be described by a stochastic differential equation (SDE) indexed by the depth-to-width ratio. To achieve a well-defined stochastic limit, the Transformer's attention mechanism is modified by centering the Softmax output at identity, and scaling the Softmax logits by a width-dependent temperature parameter. We examine the stability of the network through the corresponding SDE, showing how the scale of both the drift and diffusion can be elegantly controlled with the aid of residual connections. The existence of a stable SDE implies that the covariance structure is well-behaved, even for very large depth and width, thus preventing the notorious issues of rank degeneracy in deep attention models. Finally, we show, through simulations, that the SDE provides a surprisingly good description of the corresponding finite-size model. We coin the name shaped Transformer for these architectural modifications.
Abstract（参考訳）: 深層学習理論において、表現の共分散行列は、ネットワークのトレーニング可能性を調べるためのプロキシとして機能する。変圧器の成功に動機づけられ,無限奥行きと幅の比例限界におけるスキップ接続を持つソフトマックス型注意モデルの共分散行列について検討した。初期化の際には, 確率微分方程式 (SDE) を用いて, 深さ-幅比で表すことができることを示す。厳密な確率的限界を達成するために、Transformerの注意機構は、Softmax出力をアイデンティティに集中させ、Softmaxロジットを幅依存温度パラメータでスケーリングすることで変更される。本研究では,SDEによるネットワークの安定性を検証し,残留接続の助けを借りてドリフトと拡散のスケールをエレガントに制御できることを示す。安定なsdeの存在は、非常に大きな深さと幅であっても共分散構造が十分に機能していることを示し、深層注意モデルにおける階数縮退の悪名高い問題を防ぐ。最後に、シミュレーションを通して、SDEが対応する有限サイズモデルの驚くほど良い記述を提供することを示す。我々は、これらのアーキテクチャ変更のために、名前の字形トランスフォーマーを造る。

関連論文リスト

Stability and Generalization of Push-Sum Based Decentralized Optimization over Directed Graphs [55.77845440440496]
プッシュベースの分散通信は、情報交換が非対称である可能性のある通信ネットワークの最適化を可能にする。我々は、グラディエント・プッシュ(SGP)アルゴリズムのための統一的な一様安定性フレームワークを開発する。重要な技術的要素は、2つの量に束縛された不均衡認識の一般化である。
論文参考訳（メタデータ） (2026-02-24T05:32:03Z)
Learning on the Manifold: Unlocking Standard Diffusion Transformers with Representation Encoders [48.68968421120471]
標準拡散変換器は直接表現に収束しないことを示す。我々は幾何学的干渉を根本原因とみなす。我々の手法RJFは、標準のDiT-Bアーキテクチャを効果的に収束させ、3.37のFIDを実現する。
論文参考訳（メタデータ） (2026-02-10T18:58:04Z)
Deep Delta Learning [91.75868893250662]
本稿では,標準残差接続を一般化した新しいアーキテクチャであるDeep Delta Learning(DDL)を紹介する。我々はこの演算子のスペクトル解析を行い、ゲート$(mathbfX)$がアイデンティティマッピング、投影、幾何反射のダイナミックな相互作用を可能にすることを示した。この統合により、ネットワークは階層的な遷移作用素のスペクトルを明示的に制御することができ、複雑な非単調力学のモデリングを可能にする。
論文参考訳（メタデータ） (2026-01-01T18:11:38Z)
Adaptive Mesh-Quantization for Neural PDE Solvers [51.26961483962011]
グラフニューラルネットワークは複雑なジオメトリや境界条件に必要な不規則なメッシュを処理できるが、それでもすべてのノードで一様計算処理を適用できる。適応メッシュ量子化(Adaptive Mesh Quantization): メッシュノード,エッジ,クラスタ特徴間の空間適応量子化であり,量子化モデルで使用されるビット幅を動的に調整する。我々は,MP-PDEとGraphViTという2つの最先端モデルと統合して,複数のタスクのパフォーマンスを評価することで,フレームワークの有効性を実証する。
論文参考訳（メタデータ） (2025-11-23T14:47:24Z)
Self-Supervised Coarsening of Unstructured Grid with Automatic Differentiation [55.88862563823878]
本研究では,微分可能物理の概念に基づいて,非構造格子を階層化するアルゴリズムを提案する。多孔質媒質中のわずかに圧縮可能な流体流を制御した線形方程式と波動方程式の2つのPDE上でのアルゴリズムの性能を示す。その結果,検討したシナリオでは,関心点におけるモデル変数のダイナミクスを保ちながら,格子点数を最大10倍に削減した。
論文参考訳（メタデータ） (2025-07-24T11:02:13Z)
Amortized variational transdimensional inference [7.247064961356528]
ニューラル自己回帰型条件付き正規化フローの拡張であるCoSMIC正規化フローを導入する。そこで本稿では,CoSMICフローの学習のための複合的変分半次元推論(VTI)手法を提案する。数値実験により、心電図モデル空間にスケールする問題に対するVTIの性能を示す。
論文参考訳（メタデータ） (2025-06-05T08:33:07Z)
Discrete Diffusion Schrödinger Bridge Matching for Graph Transformation [1.8257739595540863]
任意の分布間の任意の分布の移動は、生成的モデリングの基本的な目標である。高次元離散状態空間におけるSB問題の解法として,連続時間マルコフ連鎖を用いた新しいフレームワークを提案する。我々は,分子の性質を最小限のグラフ変換で効果的に最適化できることを示す。
論文参考訳（メタデータ） (2024-10-02T12:51:25Z)
Exploring the ability of the Deep Ritz Method to model strain localization as a sharp discontinuity [0.0]
弾塑性固体の変種設定において, 規則化された強不連続キネマティクスを用いる。ニューラルネットワーク(ANN)を用いて,対応する数学的モデルを識別する概念実証として、1次元および2次元の数値例を通して、弾塑性固体のひずみ局在の計算モデルが実現可能であることを示す。
論文参考訳（メタデータ） (2024-09-20T05:57:50Z)
AdjointDEIS: Efficient Gradients for Diffusion Models [2.0795007613453445]
拡散SDEに対する連続随伴方程式は、実際には単純なODEに単純化されていることを示す。また, 顔形態形成問題の形で, 対向攻撃による誘導生成に対するAdjointDEISの有効性を実証した。
論文参考訳（メタデータ） (2024-05-23T19:51:33Z)
Transolver: A Fast Transformer Solver for PDEs on General Geometries [66.82060415622871]
本稿では, 離散化された測地の背後に隠れた本質的な物理状態を学習するTransolverについて述べる。スライスから符号化された物理認識トークンに注意を向けることで、Transovlerは複雑な物理的相関を効果的に捉えることができる。 Transolverは6つの標準ベンチマークで22%の相対的な利得で一貫した最先端を実現し、大規模産業シミュレーションでも優れている。
論文参考訳（メタデータ） (2024-02-04T06:37:38Z)
On the Convergence of Encoder-only Shallow Transformers [62.639819460956176]
エンコーダのみの浅部変圧器のグローバル収束理論を現実的な条件下で構築する。我々の結果は、現代のトランスフォーマー、特にトレーニング力学の理解を深める道を開くことができる。
論文参考訳（メタデータ） (2023-11-02T20:03:05Z)
High-dimensional scaling limits and fluctuations of online least-squares SGD with smooth covariance [16.652085114513273]
オンライン最小二乗勾配 Descent (SGD) アルゴリズムの高次元スケーリング限界とゆらぎを導出する。その結果, 平均二乗推定や予測誤差の制限や変動など, いくつかの応用が得られた。
論文参考訳（メタデータ） (2023-04-03T03:50:00Z)
Convex Bounds on the Softmax Function with Applications to Robustness Verification [69.09991317119679]
ソフトマックス関数は、ニューラルネットワークの出力においてユビキタスなコンポーネントであり、中間層もますます多くなっている。本稿では,ニューラルネットワークや他のMLモデルのキャラクタリゼーションのための凸最適化式と互換性のある,ソフトマックス関数上の凸下界と凹上界を提供する。
論文参考訳（メタデータ） (2023-03-03T05:07:02Z)
High-dimensional limit theorems for SGD: Effective dynamics and critical scaling [6.950316788263433]
我々は、勾配降下(SGD)の要約統計の軌跡に対する極限定理を証明する。下記の有効弾道力学が人口減少の勾配流と一致するステップサイズにおける重要なスケーリング体制を示す。この実効力学の固定点について、対応する拡散極限は極めて複雑であり、さらに退化することもある。
論文参考訳（メタデータ） (2022-06-08T17:42:18Z)
The Neural Covariance SDE: Shaped Infinite Depth-and-Width Networks at Initialization [13.872374586700767]
近年の研究では、ネットワークの深さが大きくなるにつれて活性化関数が形成されることが示されている。非自明な極限に達するのに必要な活性化関数の正確なスケーリングを特定する。アクティベーション関数に基づいて,大規模なネットワークの標準を爆発・消滅するためのif-and-only-if条件を回復する。
論文参考訳（メタデータ） (2022-06-06T17:45:07Z)
DepthFormer: Exploiting Long-Range Correlation and Local Information for Accurate Monocular Depth Estimation [50.08080424613603]
高精度な単分子深度推定には長距離相関が不可欠である。我々は,このグローバルコンテキストを効果的な注意機構でモデル化するためにTransformerを活用することを提案する。提案したモデルであるDepthFormerは、最先端のモノクル深度推定手法をはるかに超えている。
論文参考訳（メタデータ） (2022-03-27T05:03:56Z)
Deep Learning Approximation of Diffeomorphisms via Linear-Control Systems [91.3755431537592]
我々は、制御に線形に依存する$dot x = sum_i=1lF_i(x)u_i$という形の制御系を考える。対応するフローを用いて、コンパクトな点のアンサンブル上の微分同相写像の作用を近似する。
論文参考訳（メタデータ） (2021-10-24T08:57:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。