論文の概要: Expressivity of Transformers: A Tropical Geometry Perspective
- arxiv url: http://arxiv.org/abs/2604.14727v1
- Date: Thu, 16 Apr 2026 07:39:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-17 21:29:31.786681
- Title: Expressivity of Transformers: A Tropical Geometry Perspective
- Title(参考訳): 変圧器の表現性:熱帯幾何学的視点
- Authors: Ye Su, Yong Liu,
- Abstract要約: 本稿では,変圧器の正確な分割能力を特徴付けるために,熱帯の幾何学的枠組みを導入する。
ゼロ温度限界におけるパワー・ボロノイ・ダイアグラムを正確に評価する。
重要なことは、この理想化された多面体骨格が幾何学的に安定であることを保証する。
- 参考スコア(独自算出の注目度): 11.888882732753922
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: To quantify the geometric expressivity of transformers, we introduce a tropical geometry framework to characterize their exact spatial partitioning capabilities. By modeling self-attention as a vector-valued tropical rational map, we prove it evaluates exactly to a Power Voronoi Diagram in the zero-temperature limit. Building on this equivalence, we establish a combinatorial rationale for Multi-Head Self-Attention (MHSA): via the Minkowski sum of Newton polytopes, multi-head aggregation expands the polyhedral complexity to $\mathcal{O}(N^H)$, overcoming the $\mathcal{O}(N)$ bottleneck of single heads. Extending this to deep architectures, we derive the first tight asymptotic bounds on the number of linear regions in transformers ($Θ(N^{d_{\text{model}}L})$), demonstrating a combinatorial explosion driven intrinsically by sequence length $N$, ambient embedding dimension $d_{\text{model}}$, and network depth $L$. Importantly, we guarantee that this idealized polyhedral skeleton is geometrically stable: finite-temperature soft attention preserves these topological partitions via exponentially tight differential approximation bounds.
- Abstract(参考訳): 変圧器の幾何表現率を定量化するために,その正確な空間分割能力を特徴づける熱帯幾何学的枠組みを導入する。
自己アテンションをベクトル値の熱帯有理写像としてモデル化することにより、ゼロ温度限界におけるパワーボロノイ図に正確に評価できることを証明できる。
この同値性に基づいて、我々はMHSA(Multi-Head Self-Attention)の組合せ論的理理性を確立し、ニュートンポリトープのミンコフスキー和を通して、多頭部集約は多面体複雑性を$\mathcal{O}(N^H)$に拡張し、$\mathcal{O}(N)$単一頭部のボトルネックを克服する。
これを深層アーキテクチャに拡張することで、変換器内の線形領域の個数に関する最初の厳密な漸近境界((N^{d_{\text{model}}L})$)を導出し、列長$N$、周囲埋め込み次元$d_{\text{model}}$、ネットワーク深さ$L$によって本質的に駆動される組合せ的爆発を実証する。
重要なことは、この理想化された多面体骨格が幾何的に安定であることを保証する。
関連論文リスト
- Riemannian Langevin Dynamics: Strong Convergence of Geometric Euler-Maruyama Scheme [51.56484100374058]
実世界のデータにおける低次元構造は、生成モデルの成功に重要な役割を果たしている。
多様体値微分方程式に対する数値スキームの収束理論を証明する。
論文 参考訳(メタデータ) (2026-03-04T01:29:35Z) - Latent Object Permanence: Topological Phase Transitions, Free-Energy Principles, and Renormalization Group Flows in Deep Transformer Manifolds [0.5729426778193398]
幾何学的および統計的物理レンズを用いた深部変圧器言語モデルにおける多段階推論の出現について検討する。
我々は、フォワードパスを離散粗粒度写像として形式化し、安定な「概念盆地」の出現と、この再正規化のような力学の固定点を関連付ける。
結果として生じる低エントロピー状態は、スペクトルテール崩壊と、表現空間における過渡的で再利用可能なオブジェクトのような構造の形成によって特徴づけられる。
論文 参考訳(メタデータ) (2026-01-16T23:11:02Z) - From Universal Approximation Theorem to Tropical Geometry of Multi-Layer Perceptrons [0.0]
我々は、ニューラルネットワークの熱帯幾何学のレンズを通して、ユニバーサル近似理論を再考する。
本稿では,シグモダル多層パーセプトロンのための構造的・幾何学的アーキテクチャを提案する。
論文 参考訳(メタデータ) (2025-10-16T13:15:39Z) - Expressive Power of Deep Networks on Manifolds: Simultaneous Approximation [2.815765641180636]
境界重みを持つ定数深度$mathrmReLUk-1$ネットワークは、ソボレフ空間内の任意の関数を近似することができることを示す。
また、必要なパラメータ数が対数係数に一致することを示すことで、我々の構成がほぼ最適であることを示す。
論文 参考訳(メタデータ) (2025-09-11T11:28:20Z) - The Generative Leap: Sharp Sample Complexity for Efficiently Learning Gaussian Multi-Index Models [71.5283441529015]
この研究において、ラベルは(ガウス)$d$-次元入力にのみ依存し、低次元$r = O_d(1)$部分空間への射影を通して得られる。
生成的跳躍指数 $kstar$, [Damian et al.'24] から生成的指数の自然拡張をマルチインデックス設定に導入する。
論文 参考訳(メタデータ) (2025-06-05T18:34:56Z) - Learning with Norm Constrained, Over-parameterized, Two-layer Neural Networks [54.177130905659155]
近年の研究では、再生カーネルヒルベルト空間(RKHS)がニューラルネットワークによる関数のモデル化に適した空間ではないことが示されている。
本稿では,有界ノルムを持つオーバーパラメータ化された2層ニューラルネットワークに適した関数空間について検討する。
論文 参考訳(メタデータ) (2024-04-29T15:04:07Z) - Transolver: A Fast Transformer Solver for PDEs on General Geometries [66.82060415622871]
本稿では, 離散化された測地の背後に隠れた本質的な物理状態を学習するTransolverについて述べる。
スライスから符号化された物理認識トークンに注意を向けることで、Transovlerは複雑な物理的相関を効果的に捉えることができる。
Transolverは6つの標準ベンチマークで22%の相対的な利得で一貫した最先端を実現し、大規模産業シミュレーションでも優れている。
論文 参考訳(メタデータ) (2024-02-04T06:37:38Z) - Dist2Cycle: A Simplicial Neural Network for Homology Localization [66.15805004725809]
単純複体は多方向順序関係を明示的にエンコードするグラフの高次元一般化と見なすことができる。
単体錯体の$k$-homological特徴によってパラメータ化された関数のグラフ畳み込みモデルを提案する。
論文 参考訳(メタデータ) (2021-10-28T14:59:41Z) - A deep network construction that adapts to intrinsic dimensionality
beyond the domain [79.23797234241471]
本稿では,ReLUを活性化したディープネットワークを用いて,2層合成の近似を$f(x) = g(phi(x))$で検討する。
例えば、低次元埋め込み部分多様体への射影と、低次元集合の集合への距離である。
論文 参考訳(メタデータ) (2020-08-06T09:50:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。