論文の概要: Homogenized Transformers
- arxiv url: http://arxiv.org/abs/2604.01978v1
- Date: Thu, 02 Apr 2026 12:39:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-03 14:21:10.787297
- Title: Homogenized Transformers
- Title(参考訳): 均質化トランス
- Authors: Hugo Koubbi, Borjan Geshkovski, Philippe Rigollet,
- Abstract要約: 重みを層や頭部で独立に再サンプリングする多頭部自己注意のランダムモデルについて検討した。
この力学系は, 深さ, 残留段数, および頭部の個数の適切な関節スケーリングの下では, 非自明な限界を許容する。
- 参考スコア(独自算出の注目度): 5.290251602267728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study a random model of deep multi-head self-attention in which the weights are resampled independently across layers and heads, as at initialization of training. Viewing depth as a time variable, the residual stream defines a discrete-time interacting particle system on the unit sphere. We prove that, under suitable joint scalings of the depth, the residual step size, and the number of heads, this dynamics admits a nontrivial homogenized limit. Depending on the scaling, the limit is either deterministic or stochastic with common noise; in the mean-field regime, the latter leads to a stochastic nonlinear Fokker--Planck equation for the conditional law of a representative token. In the Gaussian setting, the limiting drift vanishes, making the homogenized dynamics explicit enough to study representation collapse. This yields quantitative trade-offs between dimension, context length, and temperature, and identifies regimes in which clustering can be mitigated.
- Abstract(参考訳): トレーニング開始時と同様に、重みが層や頭部に独立して再サンプリングされる深層多頭部自己注意のランダムモデルについて検討した。
深さを時間変数と見なすと、残留ストリームは単位球上の離散時間相互作用粒子系を定義する。
この力学は, 深さ, 残留段数, および頭部の個数の適切な共同スケーリングの下では, 非自明な均質化限界を許容する。
平均場状態においては、後者は代表トークンの条件付き法則に対する確率論的非線形フォッカー-プランク方程式をもたらす。
ガウス的設定では、制限されたドリフトは消滅し、同質化されたダイナミクスが表現の崩壊を研究するのに十分明確になる。
これは、次元、文脈の長さ、温度の間の定量的なトレードオフをもたらし、クラスタリングを緩和できる状態を特定する。
関連論文リスト
- Latent-Variable Learning of SPDEs via Wiener Chaos [2.0901018134712297]
線形偏微分方程式(SPDE)の法則を観測から加法的ガウス強制で学習する問題について検討する。
提案手法はスペクトルガレルキン射影と乱れたウィナーカオス展開を組み合わせ、進化と強制領域を分離する。
これにより、無限次元決定論的SPDEは、潜時時間力学を管理するパラメタライズされた常微分方程式の有限系に還元される。
論文 参考訳(メタデータ) (2026-02-12T10:19:43Z) - Emergence of Distortions in High-Dimensional Guided Diffusion Models [11.774563966512707]
CFG誘導サンプリングと真の条件分布のミスマッチとして定義される生成歪みの現象を定式化する。
標準CFGスケジュールはばらつきの縮小を防ぐことができないことを示す。
本稿では,クラス分離性を維持しながら多様性の喪失を緩和する負の誘導窓を特徴とする理論的動機付け型指導スケジュールを提案する。
論文 参考訳(メタデータ) (2026-01-31T13:19:45Z) - Chaos, Entanglement and Measurement: Field-Theoretic Perspectives on Quantum Information Dynamics [0.0]
I study scrambling and pseudorandomness in the Brownian Sachdev-Ye-Kitaev model。
弱測定SYKクラスターに対する場の理論を構築する。
測定専用SYKクラスタのための高次再正規化グループを開発した。
論文 参考訳(メタデータ) (2025-12-11T10:04:30Z) - Preconditioned Regularized Wasserstein Proximal Sampling [2.7957842724446174]
我々は、有限個の粒子を進化させることにより、ノイズフリー分布からのサンプリングを検討する。
ポテンシャルに対しては、非漸近収束解析と、正規化に依存する偏りを明確にする。
論文 参考訳(メタデータ) (2025-09-01T18:04:31Z) - Spin-only dynamics of the multi-species nonreciprocal Dicke model [0.0]
Hepp-Lieb-Dickeモデルは空洞量子力学においてユビキタスである。
スピン種間の相互相互作用を媒介する非相互相互作用を実現するオープンディックモデルのバリエーションについて検討する。
システムサイズが小さい場合でも、フェーズ遷移のシグネチャを見つけます。
論文 参考訳(メタデータ) (2025-07-10T17:41:46Z) - Propagation of Chaos in One-hidden-layer Neural Networks beyond Logarithmic Time [46.15741640288809]
本稿では,a-width ニューラルネットワークの力学と無限幅ニューラルネットワークとの近似ギャップについて検討する。
平均場力学によって支配される微分方程式を通して、この近似ギャップを厳密に束縛する方法を実証する。
論文 参考訳(メタデータ) (2025-04-17T17:24:38Z) - Global Convergence of Over-parameterized Deep Equilibrium Models [52.65330015267245]
ディープ均衡モデル(Deep equilibrium model, DEQ)は、入射を伴う無限深度重み付きモデルの平衡点を通して暗黙的に定義される。
無限の計算の代わりに、ルートフィンディングで直接平衡点を解き、暗黙の微分で勾配を計算する。
本稿では,無限深度重み付きモデルの非漸近解析における技術的困難を克服する新しい確率的枠組みを提案する。
論文 参考訳(メタデータ) (2022-05-27T08:00:13Z) - Determination of the critical exponents in dissipative phase
transitions: Coherent anomaly approach [51.819912248960804]
オープン量子多体系の定常状態に存在する相転移の臨界指数を抽出するコヒーレント異常法の一般化を提案する。
論文 参考訳(メタデータ) (2021-03-12T13:16:18Z) - The role of boundary conditions in quantum computations of scattering
observables [58.720142291102135]
量子コンピューティングは、量子色力学のような強い相互作用する場の理論を物理的時間進化でシミュレートする機会を与えるかもしれない。
現在の計算と同様に、量子計算戦略は依然として有限のシステムサイズに制限を必要とする。
我々は、ミンコフスキー符号量1+1ドルの体積効果を定量化し、これらが体系的不確実性の重要な源であることを示す。
論文 参考訳(メタデータ) (2020-07-01T17:43:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。