論文の概要: The Mean-Field Dynamics of Transformers
- arxiv url: http://arxiv.org/abs/2512.01868v1
- Date: Mon, 01 Dec 2025 16:51:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-02 19:46:34.968227
- Title: The Mean-Field Dynamics of Transformers
- Title(参考訳): 変圧器の平均場動力学
- Authors: Philippe Rigollet,
- Abstract要約: 相互作用する粒子系としてのトランスフォーマーアテンションについて検討する。
球面上で連続的な注意を理想化することにより、トランスフォーマーダイナミクスをワッサーシュタイン勾配流、同期モデル、平均シフトクラスタリングに接続する。
- 参考スコア(独自算出の注目度): 6.008788032203683
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We develop a mathematical framework that interprets Transformer attention as an interacting particle system and studies its continuum (mean-field) limits. By idealizing attention continuous on the sphere, we connect Transformer dynamics to Wasserstein gradient flows, synchronization models (Kuramoto), and mean-shift clustering. Central to our results is a global clustering phenomenon whereby tokens cluster asymptotically after long metastable states where they are arranged into multiple clusters. We further analyze a tractable equiangular reduction to obtain exact clustering rates, show how commonly used normalization schemes alter contraction speeds, and identify a phase transition for long-context attention. The results highlight both the mechanisms that drive representation collapse and the regimes that preserve expressive, multi-cluster structure in deep attention architectures.
- Abstract(参考訳): 本研究では,トランスフォーマーの注意を相互作用する粒子系として解釈する数学的枠組みを開発し,その連続体(平均場)限界について検討する。
球面上で連続的な注意を理想化することにより、トランスフォーマーダイナミクスをワッサーシュタイン勾配流、同期モデル(倉本)、平均シフトクラスタリングに接続する。
我々の結果の中心は、トークンが複数のクラスタに配置された長い準安定状態の後に漸近的にクラスタ化されるグローバルクラスタリング現象である。
さらに、抽出可能な等角形状の縮退を解析して正確なクラスタリング率を求め、また、一般的に使われている正規化スキームが収縮速度をいかに変化させるかを示し、長いコンテキストの注意を向けた位相遷移を同定する。
その結果、表現の崩壊を促進するメカニズムと、深層アーキテクチャにおける表現力のあるマルチクラスタ構造を維持する体制の両方を強調した。
関連論文リスト
- A multiscale analysis of mean-field transformers in the moderate interaction regime [7.742297876120561]
本研究では,エンコーダのみの変圧器モデルを用いた推論時間におけるトークンの進化について検討する。
これらの相のそれぞれにおける極限力学の厳密な特徴づけを提供し、上述の極限における収束性を証明する。
論文 参考訳(メタデータ) (2025-09-29T16:57:04Z) - Kuramoto Orientation Diffusion Models [67.0711709825854]
指紋やテクスチャなどのオリエンテーションに富んだ画像は、しばしばコヒーレントな角模様を示す。
生体系における位相同期の役割を動機として,スコアベース生成モデルを提案する。
一般的な画像ベンチマークで競合する結果を実装し,指紋やテクスチャなどの指向性データセットの生成品質を大幅に向上する。
論文 参考訳(メタデータ) (2025-09-18T18:18:49Z) - Quantitative Clustering in Mean-Field Transformer Models [32.46389492080837]
ディープトランスモデルによるトークンの進化は相互作用する粒子系としてモデル化できる。
平均場変圧器モデルの長時間クラスタリングについて検討する。
論文 参考訳(メタデータ) (2025-04-20T18:21:34Z) - Investigating Recurrent Transformers with Dynamic Halt [64.862738244735]
本研究では, 変圧器の繰り返し機構を付加する2つの主要な手法の帰納バイアスについて検討する。
提案手法を拡張・結合する新しい手法を提案し,検討する。
論文 参考訳(メタデータ) (2024-02-01T19:47:31Z) - Dynamic Kernel-Based Adaptive Spatial Aggregation for Learned Image
Compression [63.56922682378755]
本稿では,空間アグリゲーション機能の拡張に焦点をあて,動的カーネルベースの変換符号化を提案する。
提案したアダプティブアグリゲーションはカーネルオフセットを生成し、コンテント条件付き範囲の有効な情報をキャプチャして変換を支援する。
実験により,本手法は,最先端の学習手法と比較して,3つのベンチマークにおいて高い速度歪み性能が得られることを示した。
論文 参考訳(メタデータ) (2023-08-17T01:34:51Z) - Topographic VAEs learn Equivariant Capsules [84.33745072274942]
本稿では, 地理的に整理された潜伏変数を用いた深部生成モデルを効率的に学習するための新しい手法であるTopographic VAEを紹介する。
このようなモデルでは,MNIST上での桁数クラス,幅,スタイルなどの健全な特徴に応じて,その活性化を組織化することが実際に学べることが示される。
我々は、既存の群同変ニューラルネットワークの能力を拡張して、複素変換に近似した同値性を示す。
論文 参考訳(メタデータ) (2021-09-03T09:25:57Z) - ClusterVO: Clustering Moving Instances and Estimating Visual Odometry
for Self and Surroundings [54.33327082243022]
ClusterVOはステレオビジュアルオドメトリーで、エゴと周囲の固いクラスタ/オブジェクトの両方の動きを同時にクラスタし、推定する。
以前のソリューションでは、バッチ入力やシーン構造や動的オブジェクトモデルへの事前の指示に頼っていたが、ClusterVOは一般的にオンラインであり、屋内のシーン理解や自律運転など、さまざまなシナリオで使用することができる。
論文 参考訳(メタデータ) (2020-03-29T09:06:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。