論文の概要: Emergence of meta-stable clustering in mean-field transformer models
- arxiv url: http://arxiv.org/abs/2410.23228v1
- Date: Wed, 30 Oct 2024 17:16:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-31 14:26:14.478449
- Title: Emergence of meta-stable clustering in mean-field transformer models
- Title(参考訳): 平均場変圧器モデルにおける準安定クラスタリングの創発
- Authors: Giuseppe Bruno, Federico Pasqualotto, Andrea Agazzi,
- Abstract要約: 我々は、トランスフォーマー層の深いスタック内のトークンの進化を、単位球上の連続時間フローとしてモデル化する。
我々は,メタ安定相の出現と持続性,クラスタリング現象,次世代予測などのアプリケーションにおける重要な要素に注目した。
- 参考スコア(独自算出の注目度): 1.6385815610837167
- License:
- Abstract: We model the evolution of tokens within a deep stack of Transformer layers as a continuous-time flow on the unit sphere, governed by a mean-field interacting particle system, building on the framework introduced in (Geshkovski et al., 2023). Studying the corresponding mean-field Partial Differential Equation (PDE), which can be interpreted as a Wasserstein gradient flow, in this paper we provide a mathematical investigation of the long-term behavior of this system, with a particular focus on the emergence and persistence of meta-stable phases and clustering phenomena, key elements in applications like next-token prediction. More specifically, we perform a perturbative analysis of the mean-field PDE around the iid uniform initialization and prove that, in the limit of large number of tokens, the model remains close to a meta-stable manifold of solutions with a given structure (e.g., periodicity). Further, the structure characterizing the meta-stable manifold is explicitly identified, as a function of the inverse temperature parameter of the model, by the index maximizing a certain rescaling of Gegenbauer polynomials.
- Abstract(参考訳): 本稿では,トランスフォーマー層内におけるトークンの進化を単位球面上の連続時間流としてモデル化し,(Geshkovski et al , 2023)で導入された枠組みに基づいて,平均場相互作用粒子系によって制御される。
本稿では,Wasserstein勾配流として解釈できる対応する平均場偏微分方程式(PDE)について,メタ安定相やクラスタリング現象の出現と持続性に着目し,このシステムの長期挙動を数学的に考察する。
より具体的には、iid の均一初期化に関する平均体 PDE の摂動解析を行い、多数のトークンの極限において、モデルは与えられた構造(例えば周期性)を持つ解の準安定多様体に近づいたままであることを示す。
さらに、メタ安定多様体を特徴づける構造は、ゲゲンバウアー多項式のある種の再スケーリングを最大化する指標により、モデルの逆温度パラメータの関数として明示的に同定される。
関連論文リスト
- Convergence of Score-Based Discrete Diffusion Models: A Discrete-Time Analysis [56.442307356162864]
連続時間マルコフ連鎖(CTMC)に基づくスコアベース離散拡散モデルの理論的側面について検討する。
本稿では,事前定義された時間点におけるスコア推定値を利用する離散時間サンプリングアルゴリズムを一般状態空間$[S]d$に導入する。
我々の収束解析はジルサノフ法を用いて離散スコア関数の重要な性質を確立する。
論文 参考訳(メタデータ) (2024-10-03T09:07:13Z) - Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間シーケンスデータを表現するために設計された深部力学モデルの新しいファミリを紹介する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
発振システム、ビデオ、実世界の状態シーケンス(MuJoCo)の実験は、学習可能なエネルギーベース以前のODEが既存のものより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Topological complexity of spiked random polynomials and finite-rank
spherical integrals [2.1756081703276]
特に,有限ランクスパイクされたガウス・ウィグナー行列の平均臨界点数の指数式と局所パラメータの行列式を定式化する。
この分析は、[Guionnet, Husson] による有限ランク球面積分の最近の進歩に基づいて、多ランクスパイクされたガウス・ウィグナー行列の大きな偏差を研究する。
外部パラメータの正確なしきい値があり、一度超えると、複雑性関数は与えられたベクトルに臨界点が近い新しい領域に消える。
論文 参考訳(メタデータ) (2023-12-19T16:52:01Z) - Geometric Neural Diffusion Processes [55.891428654434634]
拡散モデルの枠組みを拡張して、無限次元モデリングに一連の幾何学的先行を組み込む。
これらの条件で、生成関数モデルが同じ対称性を持つことを示す。
論文 参考訳(メタデータ) (2023-07-11T16:51:38Z) - Manifold Diffusion Fields [11.4726574705951]
非ユークリッド幾何学におけるデータ拡散モデルの学習を解き放つアプローチを提案する。
ラプラス・ベルトラミ作用素の固有関数を通して多様体上の固有座標系を定義する。
我々はMDFが従来の手法よりも多様性と忠実さでそのような関数の分布を捉えることができることを示す。
論文 参考訳(メタデータ) (2023-05-24T21:42:45Z) - Multielement polynomial chaos Kriging-based metamodelling for Bayesian
inference of non-smooth systems [0.0]
本稿では,高非線形工学モデルのベイズパラメータ推定のための領域分割に基づく代理モデリング手法を提案する。
開発されたサロゲートモデルは、入力空間の非重複の有限集合上に構築された局所ポリノミアルカオスに基づくクリギングメタモデルの配列を断片的に関数として結合する。
提案手法の有効性と精度は,解析的ベンチマークと数値的ケーススタディを含む2つのケーススタディを通じて検証される。
論文 参考訳(メタデータ) (2022-12-05T13:22:39Z) - Counting Phases and Faces Using Bayesian Thermodynamic Integration [77.34726150561087]
本稿では,2パラメータ統計力学系における熱力学関数と位相境界の再構成手法を提案する。
提案手法を用いて,IsingモデルとTASEPの分割関数と位相図を正確に再構成する。
論文 参考訳(メタデータ) (2022-05-18T17:11:23Z) - Multiway Ensemble Kalman Filter [9.0932688770957]
偏微分方程式(PDE)が支配する動的過程の2次統計的特性解析における空間性およびマルチウェイ構造の出現について検討する。
We show that multiway data generated from the Poisson and the convection-diffusion types of PDEs can accurate tracking the ensemble Kalman filter (EnKF)。
論文 参考訳(メタデータ) (2021-12-08T15:04:34Z) - Determination of the critical exponents in dissipative phase
transitions: Coherent anomaly approach [51.819912248960804]
オープン量子多体系の定常状態に存在する相転移の臨界指数を抽出するコヒーレント異常法の一般化を提案する。
論文 参考訳(メタデータ) (2021-03-12T13:16:18Z) - Out-of-time-order correlations and the fine structure of eigenstate
thermalisation [58.720142291102135]
量子情報力学と熱化を特徴付けるツールとして、OTOC(Out-of-time-orderor)が確立されている。
我々は、OTOCが、ETH(Eigenstate Thermalisation hypothesis)の詳細な詳細を調査するための、本当に正確なツールであることを明確に示している。
無限温度状態における局所作用素の和からなる可観測物の一般クラスに対して、$omega_textrmGOE$の有限サイズスケーリングを推定する。
論文 参考訳(メタデータ) (2021-03-01T17:51:46Z) - Towards quantum simulation of Sachdev-Ye-Kitaev model [5.931069258860319]
我々は,Sachdev-Ye-Kitaevモデル(SYK)の簡易バージョンについて,正確な対角化による実相互作用について検討した。
分離分離を増加させることで、カオス状態から可積分状態への量子相転移が観察される。
論文 参考訳(メタデータ) (2020-03-03T14:18:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。