論文の概要: Can Transformers Do Enumerative Geometry?
- arxiv url: http://arxiv.org/abs/2408.14915v2
- Date: Fri, 03 Jan 2025 14:21:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-06 15:09:05.552119
- Title: Can Transformers Do Enumerative Geometry?
- Title(参考訳): 変圧器は数え上げ幾何学ができるか?
- Authors: Baran Hashemi, Roderic G. Corominas, Alessandro Giacchetto,
- Abstract要約: 計算列挙幾何に対する Transformer ベースのアプローチを提案する。
交差点番号は10-45ドルから1045ドルまでの範囲で計算します。
我々はトランスフォーマーの列挙型「世界モデル」を探求する。
- 参考スコア(独自算出の注目度): 44.99833362998488
- License:
- Abstract: How can Transformers model and learn enumerative geometry? What is a robust procedure for using Transformers in abductive knowledge discovery within a mathematician-machine collaboration? In this work, we introduce a Transformer-based approach to computational enumerative geometry, specifically targeting the computation of $\psi$-class intersection numbers on the moduli space of curves. By reformulating the problem as a continuous optimization task, we compute intersection numbers across a wide value range from $10^{-45}$ to $10^{45}$. To capture the recursive nature inherent in these intersection numbers, we propose the Dynamic Range Activator (DRA), a new activation function that enhances the Transformer's ability to model recursive patterns and handle severe heteroscedasticity. Given precision requirements for computing the intersections, we quantify the uncertainty of the predictions using Conformal Prediction with a dynamic sliding window adaptive to the partitions of equivalent number of marked points. To the best of our knowledge, there has been no prior work on modeling recursive functions with such a high-variance and factorial growth. Beyond simply computing intersection numbers, we explore the enumerative "world-model" of Transformers. Our interpretability analysis reveals that the network is implicitly modeling the Virasoro constraints in a purely data-driven manner. Moreover, through abductive hypothesis testing, probing, and causal inference, we uncover evidence of an emergent internal representation of the the large-genus asymptotic of $\psi$-class intersection numbers. These findings suggest that the network internalizes the parameters of the asymptotic closed-form and the polynomiality phenomenon of $\psi$-class intersection numbers in a non-linear manner.
- Abstract(参考訳): トランスフォーマーはどのようにして数え上げ幾何学をモデル化し学習するか?
数学者と機械の協調による帰納的知識発見におけるトランスフォーマーの堅牢な方法とは何か?
本研究では,曲線のモジュライ空間上の$\psi$クラス交叉数の計算を対象とする,数値列挙幾何学へのトランスフォーマーベースのアプローチを提案する。
連続最適化タスクとして問題を再構成することにより、10-45}$から10-45}$までの広い値の交叉数を計算できる。
本研究では,これらの交叉数に固有の再帰的特性を捉えるために,再帰的パターンをモデル化し,重度のヘテロシステアシス性に対処する,新しいアクティベーション関数であるDynamic Range Activator (DRA)を提案する。
交点計算の精度を考慮し,同値点の分割に適応する動的スライディングウインドウを用いた等角予測を用いて,予測の不確かさを定量化する。
我々の知る限りでは、そのような高分散および分解的成長を伴う再帰関数のモデリングに関する事前の研究は行われていない。
単に交叉数を計算するだけでなく、トランスフォーマーの列挙的な「世界モデル」を探求する。
我々の解釈可能性分析は、ネットワークが純粋にデータ駆動の方法でヴィラソロ制約を暗黙的にモデル化していることを示している。
さらに、帰納的仮説テスト、探索、因果推論を通じて、$\psi$-classの交叉数の大域的漸近的な内部表現の証拠を明らかにする。
これらの結果は、ネットワークが漸近閉形式のパラメータと$\psi$クラスの交叉数の多項式現象を非線形に内部化することを示している。
関連論文リスト
- On the Role of Depth and Looping for In-Context Learning with Task Diversity [69.4145579827826]
多様なタスクを伴う線形回帰のための文脈内学習について検討する。
We show that multilayer Transformer is not robust to even distributional shifts as $O(e-L)$ in Wasserstein distance。
論文 参考訳(メタデータ) (2024-10-29T03:27:56Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - Curve Your Attention: Mixed-Curvature Transformers for Graph
Representation Learning [77.1421343649344]
本稿では,一定曲率空間の積を完全に操作するトランスフォーマーの一般化を提案する。
また、非ユークリッド注意に対するカーネル化されたアプローチを提供し、ノード数とエッジ数に線形に時間とメモリコストでモデルを実行できるようにします。
論文 参考訳(メタデータ) (2023-09-08T02:44:37Z) - Transformers Learn Shortcuts to Automata [52.015990420075944]
低深度変換器は任意の有限状態オートマトンを計算できる。
我々は,$O(log T)$レイヤを持つ変換器が,長さ$T$の入力シーケンス上で,オートマトンを正確に再現可能であることを示す。
さらに、これらの解の脆性について検討し、潜在的な緩和を提案する。
論文 参考訳(メタデータ) (2022-10-19T17:45:48Z) - The Parallelism Tradeoff: Limitations of Log-Precision Transformers [29.716269397142973]
入力トークン数における算術精度が対数的である変換器は、定数深さの対数空間一様しきい値回路でシミュレートできることを示す。
これは、複雑性理論の既知の結果を用いた変圧器のパワーに関する洞察を与える。
論文 参考訳(メタデータ) (2022-07-02T03:49:34Z) - $O(n)$ Connections are Expressive Enough: Universal Approximability of
Sparse Transformers [71.31712741938837]
注意層ごとに$O(n)$接続しか持たないスパース変換器は、$n2$接続を持つ高密度モデルと同じ関数クラスを近似できることを示す。
また、標準NLPタスクにおいて、異なるパターン・レベルの違いを比較検討する。
論文 参考訳(メタデータ) (2020-06-08T18:30:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。