論文の概要: Multistability of Self-Attention Dynamics in Transformers
- arxiv url: http://arxiv.org/abs/2511.11553v1
- Date: Fri, 14 Nov 2025 18:45:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 22:42:18.761282
- Title: Multistability of Self-Attention Dynamics in Transformers
- Title(参考訳): 変圧器における自己注意ダイナミクスのマルチスタビリティ
- Authors: Claudio Altafini,
- Abstract要約: 機械学習において、自己アテンションダイナミクス(セルフアテンションダイナミクス、英: self-attention dynamics)とは、変圧器の注意機構の連続的時間的マルチエージェントのようなモデルである。
我々は,シングルヘッドの自己認識システムの平衡を,コンセンサス,二部構成コンセンサス,クラスタリング,平衡という4つのクラスに分類する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In machine learning, a self-attention dynamics is a continuous-time multiagent-like model of the attention mechanisms of transformers. In this paper we show that such dynamics is related to a multiagent version of the Oja flow, a dynamical system that computes the principal eigenvector of a matrix corresponding for transformers to the value matrix. We classify the equilibria of the ``single-head'' self-attention system into four classes: consensus, bipartite consensus, clustering and polygonal equilibria. Multiple asymptotically stable equilibria from the first three classes often coexist in the self-attention dynamics. Interestingly, equilibria from the first two classes are always aligned with the eigenvectors of the value matrix, often but not exclusively with the principal eigenvector.
- Abstract(参考訳): 機械学習において、自己アテンションダイナミクス(セルフアテンションダイナミクス、英: self-attention dynamics)とは、変圧器の注意機構の連続的時間的マルチエージェントのようなモデルである。
本稿では,変換器に対応する行列の主固有ベクトルを値行列に演算する力学系であるOja Flowのマルチエージェントバージョンに,そのようなダイナミクスが関係していることを示す。
我々は、'single-head'の自己認識システムの平衡を、コンセンサス、二部構成のコンセンサス、クラスタリング、多角形平衡の4つのクラスに分類する。
最初の3つのクラスからの複数の漸近安定平衡は、しばしば自己注意力学において共存する。
興味深いことに、最初の2つのクラスからの平衡は常に値行列の固有ベクトルと一致しているが、しばしば主固有ベクトルとは一致しない。
関連論文リスト
- Ultracoarse Equilibria and Ordinal-Folding Dynamics in Operator-Algebraic Models of Infinite Multi-Agent Games [0.0]
エージェントの連続体を持つ無限ゲームのための演算子代数的フレームワークを開発する。
非可換連続性方程式によって支配される後悔に基づく学習力学が、一意の量子応答平衡に収束することを証明する。
本稿では,力学の自己参照深度を測定する計算可能な順序値指標である順序折り畳み指数を導入する。
論文 参考訳(メタデータ) (2025-07-25T22:20:42Z) - Generalized Heisenberg Dynamics Revisited [0.0]
We show that Heisenberg's matrix mechanics was derived from Hamiltonian mechanics using the corresponding principle。
具体的には,物理量を持つ力学系を記述する行列力学の拡張版を再構成する。
一般化行列を含む多重可換器が、NambuブラケットやJacobianの離散(量子化)版として機能することを再確認する。
論文 参考訳(メタデータ) (2025-07-14T01:01:27Z) - Evolution of multi-qubit correlations driven by mutual interactions [49.1574468325115]
我々は$frac12$-spinsからなる量子系の相関テンソル要素の進化を分析する。
強い外部場が特定の相関特性に対して安定化因子を果たすことを示す。
論文 参考訳(メタデータ) (2025-07-01T11:45:08Z) - Dyson Brownian motion and random matrix dynamics of weight matrices during learning [0.0]
まず、ダイソン・ブラウン運動を用いて、ダイナミクスを汎用的に記述できることを実証する。
レベルは学習率とミニバッチサイズに比例して示される。
次に,初期化時の固有値に対するマルテンコ・パストゥル分布から学習終了時の付加構造との組合せへの進化に続く変圧器の重み行列ダイナミクスについて検討する。
論文 参考訳(メタデータ) (2024-11-20T18:05:39Z) - TANGO: Time-Reversal Latent GraphODE for Multi-Agent Dynamical Systems [43.39754726042369]
連続グラフニューラルネットワークに基づく常微分方程式(GraphODE)により予測される前後の軌跡を整列するソフト制約として,単純かつ効果的な自己監督型正規化項を提案する。
時間反転対称性を効果的に課し、古典力学の下でより広い範囲の力学系にわたってより正確なモデル予測を可能にする。
様々な物理システムに対する実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-10-10T08:52:16Z) - Universality class of a spinor Bose-Einstein condensate far from equilibrium [0.0]
加熱された2次元スピノルボースガスの普遍粗大化ダイナミクスの分類について報告する。
この結果は、系の対称性特性に基づいて、平衡量子力学から遠く離れた普遍性のクラスを分類する。
論文 参考訳(メタデータ) (2023-03-09T13:08:38Z) - Slow relaxation of out-of-time-ordered correlators in interacting
integrable and nonintegrable spin-1/2 XYZ chains [0.0]
時間外順序相関器(OTOC)は、量子情報のスクランブルを特徴付ける。
古典的整合性および非可積分性スピン-1/2XYZ鎖の相互作用におけるOTOCの緩和ダイナミクスを比較する。
OTOCs の緩和は、連鎖が可積分であるか非可積分であるかに関わらず、重複が存在する場合(そうでない場合)に遅い(高速)ことを示す。
論文 参考訳(メタデータ) (2022-11-14T02:41:08Z) - Dynamics with autoregressive neural quantum states: application to
critical quench dynamics [41.94295877935867]
本稿では、量子系の長時間のダイナミクスを安定的に捉えるための代替の汎用スキームを提案する。
二次元量子イジングモデルにおけるキブル・ズレーク機構の解明により,時間依存性のクエンチ力学にこのスキームを適用した。
論文 参考訳(メタデータ) (2022-09-07T15:50:00Z) - Spreading of a local excitation in a Quantum Hierarchical Model [62.997667081978825]
常磁性相における量子ダイソン階層モデルのダイナミクスについて検討する。
地磁気場状態の局所励起による初期状態を考慮する。
局所化機構が発見され、励起は任意の時間で初期位置に近づいたままである。
論文 参考訳(メタデータ) (2022-07-14T10:05:20Z) - Masked Language Modeling for Proteins via Linearly Scalable Long-Context
Transformers [42.93754828584075]
我々は、高速注意Via Orthogonal Random機能(FAVOR)に基づく新しいトランスフォーマーアーキテクチャPerformerを提案する。
我々の機構は、列内のトークンの数で2次ではなく2次的にスケールし、四次空間の複雑さが特徴であり、スパーシティパターンの先行を含まない。
これは強い理論的保証を与える:注意行列の偏りのない推定と一様収束である。
論文 参考訳(メタデータ) (2020-06-05T17:09:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。