論文の概要: Dynamic metastability in the self-attention model
- arxiv url: http://arxiv.org/abs/2410.06833v1
- Date: Wed, 9 Oct 2024 12:50:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-01 03:21:00.748295
- Title: Dynamic metastability in the self-attention model
- Title(参考訳): 自己注意モデルにおける動的メタスタビリティ
- Authors: Borjan Geshkovski, Hugo Koubbi, Yury Polyanskiy, Philippe Rigollet,
- Abstract要約: 本稿では,トランスフォーマーの玩具モデルとして機能する自己認識モデル(単位球上の相互作用粒子系)について考察する。
我々は[GLPR23]で予想される動的メタスタビリティの出現を証明する。
適切な時間再スケーリングの下では、エネルギーは有限時間で世界最大に達し、階段の形状を持つことを示す。
- 参考スコア(独自算出の注目度): 22.689695473655906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We consider the self-attention model - an interacting particle system on the unit sphere, which serves as a toy model for Transformers, the deep neural network architecture behind the recent successes of large language models. We prove the appearance of dynamic metastability conjectured in [GLPR23] - although particles collapse to a single cluster in infinite time, they remain trapped near a configuration of several clusters for an exponentially long period of time. By leveraging a gradient flow interpretation of the system, we also connect our result to an overarching framework of slow motion of gradient flows proposed by Otto and Reznikoff [OR07] in the context of coarsening and the Allen-Cahn equation. We finally probe the dynamics beyond the exponentially long period of metastability, and illustrate that, under an appropriate time-rescaling, the energy reaches its global maximum in finite time and has a staircase profile, with trajectories manifesting saddle-to-saddle-like behavior, reminiscent of recent works in the analysis of training dynamics via gradient descent for two-layer neural networks.
- Abstract(参考訳): 近年の大規模言語モデルの成功の背後にある深層ニューラルネットワークアーキテクチャであるTransformersの玩具モデルとして機能する,ユニットスフィア上の相互作用粒子系である自己アテンションモデルを考える。
我々は[GLPR23]で予想される動的メタスタビリティーの出現を証明し、粒子は無限の時間で1つのクラスターに崩壊するが、指数的に長い期間、複数のクラスターの構成の近くに閉じ込められている。
系の勾配流の解釈を活用することで、オットーとレズニコフ[OR07]によって提唱された勾配流の緩やかな運動の網羅的な枠組みと、アレン・カーン方程式の文脈で結合する。
最終的に、メタスタビリティの指数的に長い期間を超えるダイナミクスを探索し、適切な時間再スケーリングの下では、エネルギーは有限時間でその大域的な最大値に達し、二層ニューラルネットワークの勾配勾配勾配によるトレーニングダイナミクスの解析における最近の研究を反映して、サドル・アンド・サドルのような振る舞いを示す軌道を持つ階段プロファイルを持つことを示した。
関連論文リスト
- Latent Space Energy-based Neural ODEs [73.01344439786524]
本稿では,連続時間シーケンスデータを表現するために設計された深部力学モデルの新しいファミリを紹介する。
マルコフ連鎖モンテカルロの最大推定値を用いてモデルを訓練する。
発振システム、ビデオ、実世界の状態シーケンス(MuJoCo)の実験は、学習可能なエネルギーベース以前のODEが既存のものより優れていることを示している。
論文 参考訳(メタデータ) (2024-09-05T18:14:22Z) - Annealing Dynamics of Regular Rotor Networks: Universality and Its Breakdown [0.0]
スピンベクトルランゲヴィン(SVL)モデルはモンテカルロモデルの代替として提案され、試験されている。
古典的O(2)ローターの非平衡ダイナミクスを正規グラフ上で研究する。
この結果は、長距離相互作用を特徴とする古典力学系におけるキブル・ズレーク機構の普遍的な分解を確立する。
論文 参考訳(メタデータ) (2024-07-12T14:55:25Z) - Convergence of mean-field Langevin dynamics: Time and space
discretization, stochastic gradient, and variance reduction [49.66486092259376]
平均場ランゲヴィンダイナミクス(英: mean-field Langevin dynamics、MFLD)は、分布依存のドリフトを含むランゲヴィン力学の非線形一般化である。
近年の研究では、MFLDは測度空間で機能するエントロピー規則化された凸関数を地球規模で最小化することが示されている。
有限粒子近似,時間分散,勾配近似による誤差を考慮し,MFLDのカオスの均一時間伝播を示す枠組みを提供する。
論文 参考訳(メタデータ) (2023-06-12T16:28:11Z) - Spreading of a local excitation in a Quantum Hierarchical Model [62.997667081978825]
常磁性相における量子ダイソン階層モデルのダイナミクスについて検討する。
地磁気場状態の局所励起による初期状態を考慮する。
局所化機構が発見され、励起は任意の時間で初期位置に近づいたままである。
論文 参考訳(メタデータ) (2022-07-14T10:05:20Z) - Convex Analysis of the Mean Field Langevin Dynamics [49.66486092259375]
平均場ランゲヴィン力学の収束速度解析について述べる。
ダイナミックスに付随する$p_q$により、凸最適化において古典的な結果と平行な収束理論を開発できる。
論文 参考訳(メタデータ) (2022-01-25T17:13:56Z) - Predicting Physics in Mesh-reduced Space with Temporal Attention [15.054026802351146]
本稿では,トランス方式の時間的アテンションモデルを用いて,長期的依存関係をキャプチャする手法を提案する。
本手法は, 複雑な流体力学予測タスクにおいて, 競合するGNNベースラインよりも優れる。
我々のアプローチは、高次元複雑な物理課題の解決に注意に基づくシーケンスモデルの利点をもたらす道を開いたと信じている。
論文 参考訳(メタデータ) (2022-01-22T18:32:54Z) - The Limiting Dynamics of SGD: Modified Loss, Phase Space Oscillations,
and Anomalous Diffusion [29.489737359897312]
勾配降下法(SGD)を訓練した深部ニューラルネットワークの限界ダイナミクスについて検討する。
これらのダイナミクスを駆動する重要な要素は、本来のトレーニング損失ではなく、位相空間の振動を引き起こす速度と確率電流を暗黙的に規則化する修正損失の組み合わせであることを示す。
論文 参考訳(メタデータ) (2021-07-19T20:18:57Z) - Learning Continuous System Dynamics from Irregularly-Sampled Partial
Observations [33.63818978256567]
グラフ構造を持つ多エージェント動的システムをモデル化するための潜在常微分方程式生成モデルLG-ODEを提案する。
高次元軌跡の埋め込みと連続潜伏系力学を同時に学習することができる。
我々のモデルは、教師なしの方法で初期状態を推論できるグラフニューラルネットワークによってパラメータ化された新しいエンコーダを採用している。
論文 参考訳(メタデータ) (2020-11-08T01:02:22Z) - Continuous-in-Depth Neural Networks [107.47887213490134]
まず最初に、このリッチな意味では、ResNetsは意味のある動的でないことを示します。
次に、ニューラルネットワークモデルが連続力学系を表現することを実証する。
ResNetアーキテクチャの詳細な一般化としてContinuousNetを紹介します。
論文 参考訳(メタデータ) (2020-08-05T22:54:09Z) - Liquid Time-constant Networks [117.57116214802504]
本稿では,時間連続リカレントニューラルネットワークモデルについて紹介する。
暗黙の非線形性によって学習システムの力学を宣言する代わりに、線形一階力学系のネットワークを構築する。
これらのニューラルネットワークは安定かつ有界な振る舞いを示し、ニューラル常微分方程式の族の中で優れた表現性をもたらす。
論文 参考訳(メタデータ) (2020-06-08T09:53:35Z) - Semiclassical dynamics of a disordered two-dimensional Hubbard model
with long-range interactions [0.0]
相互作用するフェルミオンの2次元系におけるクエンチダイナミクスを解析する。
弱い中等度障害強度では、電荷の亜拡散挙動を観察し、スピンは拡散力学を示す。
短距離モデルとは対照的に、初期状態のドメイン壁のような強い不均一性は熱化ダイナミクスを著しく遅くする。
論文 参考訳(メタデータ) (2020-02-13T14:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。