論文の概要: Dynamical Mean-Field Theory of Self-Attention Neural Networks
- arxiv url: http://arxiv.org/abs/2406.07247v1
- Date: Tue, 11 Jun 2024 13:29:34 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-12 15:54:07.306800
- Title: Dynamical Mean-Field Theory of Self-Attention Neural Networks
- Title(参考訳): 自己注意型ニューラルネットワークの動的平均場理論
- Authors: Ángel Poc-López, Miguel Aguilera,
- Abstract要約: トランスフォーマーベースのモデルは、様々な領域で例外的な性能を示している。
動作方法や期待されるダイナミクスについてはほとんど分かっていない。
非平衡状態における非対称ホップフィールドネットワークの研究に手法を用いる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based models have demonstrated exceptional performance across diverse domains, becoming the state-of-the-art solution for addressing sequential machine learning problems. Even though we have a general understanding of the fundamental components in the transformer architecture, little is known about how they operate or what are their expected dynamics. Recently, there has been an increasing interest in exploring the relationship between attention mechanisms and Hopfield networks, promising to shed light on the statistical physics of transformer networks. However, to date, the dynamical regimes of transformer-like models have not been studied in depth. In this paper, we address this gap by using methods for the study of asymmetric Hopfield networks in nonequilibrium regimes --namely path integral methods over generating functionals, yielding dynamics governed by concurrent mean-field variables. Assuming 1-bit tokens and weights, we derive analytical approximations for the behavior of large self-attention neural networks coupled to a softmax output, which become exact in the large limit size. Our findings reveal nontrivial dynamical phenomena, including nonequilibrium phase transitions associated with chaotic bifurcations, even for very simple configurations with a few encoded features and a very short context window. Finally, we discuss the potential of our analytic approach to improve our understanding of the inner workings of transformer models, potentially reducing computational training costs and enhancing model interpretability.
- Abstract(参考訳): トランスフォーマーベースのモデルは、さまざまな領域で例外的なパフォーマンスを示しており、シーケンシャルな機械学習問題に対処するための最先端のソリューションとなっている。
トランスフォーマーアーキテクチャの基本コンポーネントについては、一般的には理解されていますが、その動作方法や期待されるダイナミクスについてはほとんど分かっていません。
近年、アテンションメカニズムとホップフィールドネットワークの関係を探究する関心が高まっており、トランスフォーマーネットワークの統計物理学に光を当てることを約束している。
しかし、これまでは変圧器のようなモデルの力学構造は深く研究されていない。
本稿では,非平衡状態における非対称ホップフィールドネットワークの研究手法,すなわち関数を生成する経路積分法を用いて,並列平均場変数が支配する力学を導出することにより,このギャップに対処する。
1ビットのトークンと重みを仮定すると、ソフトマックス出力に結合した大きな自己アテンションニューラルネットワークの動作に対する解析的近似が導出され、これは大きな制限サイズで正確になる。
この結果から, カオス分岐に伴う非平衡相転移を含む非自明な動的現象が明らかとなった。
最後に、変換器モデルの内部動作の理解を深め、計算訓練コストを削減し、モデルの解釈可能性を高める分析手法の可能性について論じる。
関連論文リスト
- Identification of Mean-Field Dynamics using Transformers [3.8916312075738273]
本稿では, 粒子の挙動を示す粒子系の平均場ダイナミクスを近似するために, 変圧器アーキテクチャを用いた手法について検討する。
具体的には、有限次元変圧器が粒子系を支配する有限次元ベクトル場を効果的に近似できるなら、この変圧器の期待出力は無限次元平均場ベクトル場に対して良い近似を与える。
論文 参考訳(メタデータ) (2024-10-06T19:47:24Z) - In-Context Convergence of Transformers [63.04956160537308]
勾配降下法により訓練したソフトマックスアテンションを有する一層変圧器の学習力学について検討した。
不均衡な特徴を持つデータに対しては、学習力学が段階的に収束する過程をとることを示す。
論文 参考訳(メタデータ) (2023-10-08T17:55:33Z) - Differential Evolution Algorithm based Hyper-Parameters Selection of
Transformer Neural Network Model for Load Forecasting [0.0]
トランスフォーマーモデルは、そのアテンションメカニズムから派生した長距離依存を学習できるため、ロード予測を改善する可能性がある。
我々の研究は,平均二乗誤差 (MSE) や平均絶対パーセンテージ誤差 (MAPE) といった数値に基づく負荷予測において,異なるメタヒューリスティックアルゴリズムと統合されたトランスフォーマーベースニューラルネットワークモデルを比較した。
論文 参考訳(メタデータ) (2023-07-28T04:29:53Z) - Learning minimal representations of stochastic processes with
variational autoencoders [52.99137594502433]
プロセスを記述するのに必要なパラメータの最小セットを決定するために、教師なしの機械学習アプローチを導入する。
我々の手法はプロセスを記述する未知のパラメータの自律的な発見を可能にする。
論文 参考訳(メタデータ) (2023-07-21T14:25:06Z) - Capturing dynamical correlations using implicit neural representations [85.66456606776552]
実験データから未知のパラメータを復元するために、モデルハミルトンのシミュレーションデータを模倣するために訓練されたニューラルネットワークと自動微分を組み合わせた人工知能フレームワークを開発する。
そこで本研究では, 実時間から多次元散乱データに適用可能な微分可能なモデルを1回だけ構築し, 訓練する能力について述べる。
論文 参考訳(メタデータ) (2023-04-08T07:55:36Z) - Convexifying Transformers: Improving optimization and understanding of
transformer networks [56.69983975369641]
本研究では,注目/変圧器ネットワークのトレーニング問題について検討し,新しい凸解析手法を提案する。
まず,自己注意機構の代替として凸を導入し,変圧器ネットワークの正規化学習問題を再構成する。
凸解析の副産物として,トークン間の空間性を促進する暗黙の規則化機構を明らかにする。
論文 参考訳(メタデータ) (2022-11-20T18:17:47Z) - Learning Interacting Dynamical Systems with Latent Gaussian Process ODEs [13.436770170612295]
本研究では,対話対象の連続時間力学の不確実性を考慮したモデリングを初めて行った。
我々のモデルは、独立力学と信頼性のある不確実性推定との相互作用の両方を推測する。
論文 参考訳(メタデータ) (2022-05-24T08:36:25Z) - Equivariant vector field network for many-body system modeling [65.22203086172019]
Equivariant Vector Field Network (EVFN) は、新しい同変層と関連するスカラー化およびベクトル化層に基づいて構築されている。
シミュレーションされたニュートン力学系の軌跡を全観測データと部分観測データで予測する手法について検討した。
論文 参考訳(メタデータ) (2021-10-26T14:26:25Z) - Multiplicative noise and heavy tails in stochastic optimization [62.993432503309485]
経験的最適化は現代の機械学習の中心であるが、その成功における役割はまだ不明である。
分散による離散乗法雑音のパラメータによく現れることを示す。
最新のステップサイズやデータを含む重要な要素について、詳細な分析を行い、いずれも最先端のニューラルネットワークモデルで同様の結果を示す。
論文 参考訳(メタデータ) (2020-06-11T09:58:01Z) - Deep learning of contagion dynamics on complex networks [0.0]
本稿では,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングに基づく補完的アプローチを提案する。
任意のネットワーク構造をシミュレーションすることで,学習したダイナミックスの性質を学習データを超えて探索することが可能になる。
この結果は,ネットワーク上での感染動態の効果的なモデルを構築するために,ディープラーニングが新たな補完的な視点を提供することを示す。
論文 参考訳(メタデータ) (2020-06-09T17:18:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。