論文の概要: Clustering in Deep Stochastic Transformers
- arxiv url: http://arxiv.org/abs/2601.21942v1
- Date: Thu, 29 Jan 2026 16:28:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.989896
- Title: Clustering in Deep Stochastic Transformers
- Title(参考訳): 深部確率変換器のクラスタリング
- Authors: Lev Fedorov, Michaël E. Sander, Romuald Elie, Pierre Marion, Mathieu Laurière,
- Abstract要約: 層正規化を伴うディープトランスフォーマーの既存の理論は、通常、トークンが単一のポイントにクラスタされることを予測している。
ランダムな値からノイズが発生する深層変圧器を解析する。
2つのトークンに対して、相互作用強度とトークン次元によって支配される相転移を証明します。
- 参考スコア(独自算出の注目度): 10.988655177671255
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformers have revolutionized deep learning across various domains but understanding the precise token dynamics remains a theoretical challenge. Existing theories of deep Transformers with layer normalization typically predict that tokens cluster to a single point; however, these results rely on deterministic weight assumptions, which fail to capture the standard initialization scheme in Transformers. In this work, we show that accounting for the intrinsic stochasticity of random initialization alters this picture. More precisely, we analyze deep Transformers where noise arises from the random initialization of value matrices. Under diffusion scaling and token-wise RMS normalization, we prove that, as the number of Transformer layers goes to infinity, the discrete token dynamics converge to an interacting-particle system on the sphere where tokens are driven by a \emph{common} matrix-valued Brownian noise. In this limit, we show that initialization noise prevents the collapse to a single cluster predicted by deterministic models. For two tokens, we prove a phase transition governed by the interaction strength and the token dimension: unlike deterministic attention flows, antipodal configurations become attracting with positive probability. Numerical experiments confirm the predicted transition, reveal that antipodal formations persist for more than two tokens, and demonstrate that suppressing the intrinsic noise degrades accuracy.
- Abstract(参考訳): トランスフォーマーは様々な領域にわたるディープラーニングに革命をもたらしたが、正確なトークンのダイナミクスを理解することは理論上の課題である。
層正規化を伴うディープトランスフォーマーの既存の理論では、トークンが単一点にクラスターすると予想されるが、これらの結果は決定論的重み仮定に依存しており、トランスフォーマーの標準初期化スキームを捉えることができない。
本研究では,ランダム初期化の内在的確率性を考慮すると,この図が変化することを示す。
より正確には、値行列のランダム初期化からノイズが発生するディープトランスフォーマーを解析する。
拡散スケーリングとトークンワイド RMS 正規化の下では、トランスフォーマー層の数が無限大になるにつれて、離散トークンのダイナミクスは、トークンが 'emph{common} 行列値ブラウン雑音によって駆動される球面上の相互作用粒子系に収束する。
この限界では,初期化ノイズが決定論的モデルによって予測される単一クラスタの崩壊を防ぐことを示す。
2つのトークンに対して、相互作用強度とトークン次元によって支配される相転移を証明し、決定論的注意フローとは異なり、反足動物構成は正の確率で引き寄せられる。
数値実験により、予測された遷移を確認し、反足動物の形成が2つ以上のトークンで持続していることを明らかにし、固有雑音の抑制が精度を低下させることを示した。
関連論文リスト
- TensorLens: End-to-End Transformer Analysis via High-Order Attention Tensors [53.891337639229285]
高次アテンション・インタラクション接続を通して表現された入力依存線形演算子として変換器全体をキャプチャする新しい定式化である attentionLens を導入する。
本実験は,注目テンソルが,解釈可能性とモデル理解を目的としたツール開発のための強力な基盤となることを実証した。
論文 参考訳(メタデータ) (2026-01-25T19:21:25Z) - Transformers Are Universally Consistent [14.904264782690639]
ソフトマックスに基づく非線形アテンションを備えたトランスフォーマーは,最小二乗の回帰処理を行う場合,一様に整合性を示す。
我々は経験的誤差の上限を導出し、この条件下では$mathcalO(t-1/2d)$の証明可能な速度で減衰し、$t$は入力トークンの数を表し、$d$は埋め込み次元を表す。
論文 参考訳(メタデータ) (2025-05-30T12:39:26Z) - Two failure modes of deep transformers and how to avoid them: a unified theory of signal propagation at initialisation [8.973965016201822]
ニューラルネットワークの適切な初期化を見つけることは、スムーズなトレーニングと優れたパフォーマンスを保証するために不可欠である。
トランスフォーマーでは、間違った初期化は、ランク崩壊、すべてのトークンが同様の表現に崩壊するランク崩壊、エントロピー崩壊、高度に集中した注意スコアが不安定になる2つの失敗モードの1つにつながる可能性がある。
ここでは、自己アテンション、層正規化、スキップ接続、勾配を有する深層変圧器による信号伝搬の解析理論を提案する。
論文 参考訳(メタデータ) (2025-05-30T08:18:23Z) - A Unified Perspective on the Dynamics of Deep Transformers [24.094975798576783]
深部変圧器によるデータ異方性の進化について検討する。
我々は、非正規化離散ケースにおいて、以前の結果と平行なクラスタリング現象を強調した。
論文 参考訳(メタデータ) (2025-01-30T13:04:54Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Transformer Normalisation Layers and the Independence of Semantic Subspaces [17.957364289876548]
我々は意味的部分空間を、注意分布を完全に決定できる潜在表現の任意の独立部分空間とみなす。
最先端の変圧器が使用する正規化層の配置であるPre-Normは,この能力に反することを示す。
標準値が$lesssim$10%で人工的に摂動されるとき、1%の回路崩壊率を観測する。
論文 参考訳(メタデータ) (2024-06-25T16:16:38Z) - Geometric Dynamics of Signal Propagation Predict Trainability of
Transformers [22.25628914395565]
深部変圧器における前方信号伝搬と勾配バック伝搬について検討する。
我々のアプローチは、変換器層を通して伝播する$nトークンの進化を扱う。
実験を通して、トレーニング終了時の最終的なテスト損失は、これらの2つの指数だけで十分に予測されていることを示す。
論文 参考訳(メタデータ) (2024-03-05T01:30:34Z) - Regularized Vector Quantization for Tokenized Image Synthesis [126.96880843754066]
画像の離散表現への量子化は、統合生成モデリングにおける根本的な問題である。
決定論的量子化は、厳しいコードブックの崩壊と推論段階の誤調整に悩まされ、一方、量子化は、コードブックの利用率の低下と再構築の目的に悩まされる。
本稿では、2つの視点から正規化を適用することにより、上記の問題を効果的に緩和できる正規化ベクトル量子化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-11T15:20:54Z) - Universality of critical dynamics with finite entanglement [68.8204255655161]
臨界近傍の量子系の低エネルギー力学が有限絡みによってどのように変化するかを研究する。
その結果、時間依存的臨界現象における絡み合いによる正確な役割が確立された。
論文 参考訳(メタデータ) (2023-01-23T19:23:54Z) - Reminiscence of classical chaos in driven transmons [117.851325578242]
共振器外ドライブでさえ、トランスモンスペクトルの構造に強い変化をもたらし、その大部分がカオスであることを示す。
その結果、カオス誘起量子分解効果の出現を特徴付ける光子数しきい値が導かれる。
論文 参考訳(メタデータ) (2022-07-19T16:04:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。