論文の概要: Can Transformers Do Enumerative Geometry?
- arxiv url: http://arxiv.org/abs/2408.14915v2
- Date: Fri, 03 Jan 2025 14:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:05.552119
- Title: Can Transformers Do Enumerative Geometry?
- Title(参考訳): 変圧器は数え上げ幾何学ができるか?
- Authors: Baran Hashemi, Roderic G. Corominas, Alessandro Giacchetto,
- Abstract要約: 計算列挙幾何に対する Transformer ベースのアプローチを提案する。
交差点番号は10-45ドルから1045ドルまでの範囲で計算します。
我々はトランスフォーマーの列挙型「世界モデル」を探求する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License:
- Abstract: How can Transformers model and learn enumerative geometry? What is a robust procedure for using Transformers in abductive knowledge discovery within a mathematician-machine collaboration? In this work, we introduce a Transformer-based approach to computational enumerative geometry, specifically targeting the computation of $\psi$-class intersection numbers on the moduli space of curves. By reformulating the problem as a continuous optimization task, we compute intersection numbers across a wide value range from $10^{-45}$ to $10^{45}$. To capture the recursive nature inherent in these intersection numbers, we propose the Dynamic Range Activator (DRA), a new activation function that enhances the Transformer's ability to model recursive patterns and handle severe heteroscedasticity. Given precision requirements for computing the intersections, we quantify the uncertainty of the predictions using Conformal Prediction with a dynamic sliding window adaptive to the partitions of equivalent number of marked points. To the best of our knowledge, there has been no prior work on modeling recursive functions with such a high-variance and factorial growth. Beyond simply computing intersection numbers, we explore the enumerative "world-model" of Transformers. Our interpretability analysis reveals that the network is implicitly modeling the Virasoro constraints in a purely data-driven manner. Moreover, through abductive hypothesis testing, probing, and causal inference, we uncover evidence of an emergent internal representation of the the large-genus asymptotic of $\psi$-class intersection numbers. These findings suggest that the network internalizes the parameters of the asymptotic closed-form and the polynomiality phenomenon of $\psi$-class intersection numbers in a non-linear manner.
- Abstract(参考訳): トランスフォーマーはどのようにして数え上げ幾何学をモデル化し学習するか?
数学者と機械の協調による帰納的知識発見におけるトランスフォーマーの堅牢な方法とは何か?
本研究では,曲線のモジュライ空間上の$\psi$クラス交叉数の計算を対象とする,数値列挙幾何学へのトランスフォーマーベースのアプローチを提案する。
連続最適化タスクとして問題を再構成することにより、10-45}$から10-45}$までの広い値の交叉数を計算できる。
本研究では,これらの交叉数に固有の再帰的特性を捉えるために,再帰的パターンをモデル化し,重度のヘテロシステアシス性に対処する,新しいアクティベーション関数であるDynamic Range Activator (DRA)を提案する。
交点計算の精度を考慮し,同値点の分割に適応する動的スライディングウインドウを用いた等角予測を用いて,予測の不確かさを定量化する。
我々の知る限りでは、そのような高分散および分解的成長を伴う再帰関数のモデリングに関する事前の研究は行われていない。
単に交叉数を計算するだけでなく、トランスフォーマーの列挙的な「世界モデル」を探求する。
我々の解釈可能性分析は、ネットワークが純粋にデータ駆動の方法でヴィラソロ制約を暗黙的にモデル化していることを示している。
さらに、帰納的仮説テスト、探索、因果推論を通じて、$\psi$-classの交叉数の大域的漸近的な内部表現の証拠を明らかにする。
これらの結果は、ネットワークが漸近閉形式のパラメータと$\psi$クラスの交叉数の多項式現象を非線形に内部化することを示している。
関連論文リスト
- (How) Can Transformers Predict Pseudo-Random Numbers? [7.201095605457193]
線形合同生成器(LCG)から擬似ランダム数列を学習するトランスフォーマーの能力について検討する。
我々の分析によれば、トランスフォーマーは無意味なmoduli(m$)とパラメータ(a,c$)でLCGシーケンスのコンテキスト内予測を行うことができる。
論文 参考訳(メタデータ) (2025-02-14T18:59:40Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - Transolver: A Fast Transformer Solver for PDEs on General Geometries [66.82060415622871]
本稿では, 離散化された測地の背後に隠れた本質的な物理状態を学習するTransolverについて述べる。
スライスから符号化された物理認識トークンに注意を向けることで、Transovlerは複雑な物理的相関を効果的に捉えることができる。
Transolverは6つの標準ベンチマークで22%の相対的な利得で一貫した最先端を実現し、大規模産業シミュレーションでも優れている。
論文 参考訳(メタデータ) (2024-02-04T06:37:38Z) - Efficient Nonparametric Tensor Decomposition for Binary and Count Data [27.02813234958821]
本稿では、二分数テンソルと数テンソルのアンダーラインデコンポジションとして、アンダーライン効率のアンダーラインNonアンダーラインテンソルであるENTEDを提案する。
論文 参考訳(メタデータ) (2024-01-15T14:27:03Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Scalable Transformer for PDE Surrogate Modeling [9.438207505148947]
Transformerは偏微分方程式(PDE)の代理モデリングのための有望なツールとして登場した。
本稿では, 軸因子化カーネル積分に基づくFactFormer(FactFormer)を提案する。
提案モデルでは,2Dコルモゴロフフローを256時間256ドルグリッドと3Dスモーク浮力で644時間64時間64ドルグリッドでシミュレートでき,精度と効率がよいことを示す。
論文 参考訳(メタデータ) (2023-05-27T19:23:00Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z) - Deep neural networks for inverse problems with pseudodifferential
operators: an application to limited-angle tomography [0.4110409960377149]
線形逆問題において擬微分演算子(Psi$DOs)を学習するための新しい畳み込みニューラルネットワーク(CNN)を提案する。
フォワード演算子のより一般的な仮定の下では、ISTAの展開された反復はCNNの逐次的な層として解釈できることを示す。
特に、LA-CTの場合、アップスケーリング、ダウンスケーリング、畳み込みの操作は、制限角X線変換の畳み込み特性とウェーブレット系を定義する基本特性を組み合わせることで正確に決定できることを示す。
論文 参考訳(メタデータ) (2020-06-02T14:03:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。