論文の概要: The calculus of variations of the Transformer on the hyperspherical tangent bundle
- arxiv url: http://arxiv.org/abs/2507.15431v1
- Date: Mon, 21 Jul 2025 09:43:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:32.342336
- Title: The calculus of variations of the Transformer on the hyperspherical tangent bundle
- Title(参考訳): 超球面接束上の変圧器の変分計算
- Authors: Andrew Gracyk,
- Abstract要約: トークン空間を横断するラグランジアン最適化を通じて、トランスフォーマーの理論的背景を提供する。
トランスフォーマーはフローマップとして、高次元の単位球面に沿って各トークンの接ファイバーに存在する。
変換器のオイラー・ラグランジュ方程式を導出する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We offer a theoretical mathematical background to Transformers through Lagrangian optimization across the token space. The Transformer, as a flow map, exists in the tangent fiber for each token along the high-dimensional unit sphere. The circumstance of the hypersphere across the latent data is reasonable due to the trained diagonal matrix equal to the identity, which has various empirical justifications. Thus, under the continuum limit of the dynamics, the latent vectors flow among the tangent bundle. Using these facts, we devise a mathematical framework for the Transformer through calculus of variations. We develop a functional and show that the continuous flow map induced by the Transformer satisfies this functional, therefore the Transformer can be viewed as a natural solver of a calculus of variations problem. We invent new scenarios of when our methods are applicable based on loss optimization with respect to path optimality. We derive the Euler-Lagrange equation for the Transformer. The variant of the Euler-Lagrange equation we present has various appearances in literature, but, to our understanding, oftentimes not foundationally proven or under other specialized cases. Our overarching proof is new: our techniques are classical and the use of the flow map object is original. We provide several other relevant results, primarily ones specific to neural scenarios. In particular, much of our analysis will be attempting to quantify Transformer data in variational contexts under neural approximations. Calculus of variations on manifolds is a well-nourished research area, but for the Transformer specifically, it is uncharted: we lay the foundation for this area through an introduction to the Lagrangian for the Transformer.
- Abstract(参考訳): トークン空間を横断するラグランジアン最適化を通じて、トランスフォーマーの理論的背景を提供する。
トランスフォーマーはフローマップとして、高次元の単位球面に沿って各トークンの接ファイバーに存在する。
潜在データにまたがる超球面の状況は、様々な経験的正当化を持つ同一性と同等の訓練された対角行列により妥当である。
したがって、力学の連続極限の下では、潜在ベクトルは接束の間を流れる。
これらの事実を用いて,変分法を用いてトランスフォーマーの数学的枠組みを考案する。
本研究では,トランスフォーマーによって誘導される連続フローマップが,この関数を満たすことを示し,変分問題の計算の自然な解法とみなすことができる。
経路最適性に関する損失最適化に基づいて,提案手法が適用可能な場合の新たなシナリオを考案する。
変換器のオイラー・ラグランジュ方程式を導出する。
私たちが提示するオイラー・ラグランジュ方程式の変種は、文学において様々な外観を持つが、我々の理解では、しばしば基礎的な証明や他の特殊なケースの下では証明されない。
私たちの技術は古典的であり、フローマップオブジェクトの使用はオリジナルです。
その他の関連する結果として、主に神経シナリオに特有のものを挙げる。
特に、我々の分析の多くは、ニューラル近似の下で変分文脈でTransformerデータを定量化しようとしている。
多様体上の変分法は、よく知られた研究領域であるが、トランスフォーマーの具体的には、この領域の基礎をトランスフォーマーのラグランジアン(Lagrangian for the Transformer)の紹介を通じて築き上げている。
関連論文リスト
- Graph Transformers Dream of Electric Flow [72.06286909236827]
グラフデータに適用された線形変換器は、正準問題を解くアルゴリズムを実装可能であることを示す。
提案手法は,各アルゴリズムを実装するための明示的な重み設定を示し,基礎となるアルゴリズムの誤差によって構築したトランスフォーマーの誤差を限定する。
我々の研究は、グラフデータのためのTransformerの内部処理を解明するための最初のステップです。
論文 参考訳(メタデータ) (2024-10-22T05:11:45Z) - Can Looped Transformers Learn to Implement Multi-step Gradient Descent for In-context Learning? [69.4145579827826]
収束ランドスケープの勾配非性アルゴリズムにもかかわらず、回帰損失に高速な流れを示す。
この設定における多層トランスの理論的解析はこれが初めてである。
論文 参考訳(メタデータ) (2024-10-10T18:29:05Z) - Learning on Transformers is Provable Low-Rank and Sparse: A One-layer Analysis [63.66763657191476]
低ランク計算としての効率的な数値学習と推論アルゴリズムはトランスフォーマーに基づく適応学習に優れた性能を持つことを示す。
我々は、等級モデルが適応性を改善しながら一般化にどのように影響するかを分析する。
適切なマグニチュードベースのテストは,テストパフォーマンスに多少依存している,と結論付けています。
論文 参考訳(メタデータ) (2024-06-24T23:00:58Z) - Linear Transformers are Versatile In-Context Learners [19.988368693379087]
線形変圧器の各層が負の線形回帰問題に対する重みベクトルを維持していることを示す。
また、異なるレベルのノイズでトレーニングデータが破損する難易度シナリオにおける線形変圧器の使用についても検討する。
ここでは,線形変圧器が複雑かつ高効率な最適化アルゴリズムを発見することを実証する。
論文 参考訳(メタデータ) (2024-02-21T23:45:57Z) - Towards Understanding Inductive Bias in Transformers: A View From Infinity [9.00214539845063]
変換器は、列空間のより置換対称関数に偏りがちである。
対称群の表現論は定量的な解析的予測に利用できることを示す。
我々は、WikiTextデータセットは、実際に置換対称性の程度を持っていると主張している。
論文 参考訳(メタデータ) (2024-02-07T19:00:01Z) - Ridge Estimation with Nonlinear Transformations [3.1406146587437904]
リッジ間の包含関係を示す: $cR(fcirc p)subseteq cR(p)$。
また、$cR(fcirc p)$ と $cM$ の間のハウスドルフ距離が、$cR(p)$ と対応する射影の間のハウスドルフ距離よりも小さいことを示す。
論文 参考訳(メタデータ) (2023-06-09T07:38:38Z) - Pathologies in priors and inference for Bayesian transformers [71.97183475225215]
ベイズ推定を用いた予測不確実性の観点からトランスフォーマーモデルを改善する試みは成功していない。
変換器の重み空間推定は, 近似後部に関係なくうまく動作しないことがわかった。
本稿では,ディリクレ分布の暗黙的再パラメータ化に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2021-10-08T10:35:27Z) - The Convolution Exponential and Generalized Sylvester Flows [82.18442368078804]
本稿では,線形変換の指数関数を取り入れ,線形フローを構築する新しい手法を提案する。
重要な洞察として、指数関数は暗黙的に計算できるため、畳み込み層を使用することができる。
畳み込み指数はCIFAR10上の生成フローにおいて他の線形変換よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-06-02T19:43:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。