論文の概要: A Mathematical Explanation of Transformers for Large Language Models and GPTs
- arxiv url: http://arxiv.org/abs/2510.03989v1
- Date: Sun, 05 Oct 2025 01:16:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.375139
- Title: A Mathematical Explanation of Transformers for Large Language Models and GPTs
- Title(参考訳): 大規模言語モデルとGPTのための変換器の数学的記述
- Authors: Xue-Cheng Tai, Hao Liu, Lingfeng Li, Raymond H. Chan,
- Abstract要約: 本稿では,トランスフォーマーを構造化積分微分方程式の離散化として解釈する新しい連続フレームワークを提案する。
この定式化の中で、自己注意機構は非局所積分作用素として自然に現れる。
提案手法は, 連続領域にトランスフォーマー演算全体を埋め込むことにより, 従来の理論的解析を超えて拡張する。
- 参考スコア(独自算出の注目度): 6.245431127481903
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Transformer architecture has revolutionized the field of sequence modeling and underpins the recent breakthroughs in large language models (LLMs). However, a comprehensive mathematical theory that explains its structure and operations remains elusive. In this work, we propose a novel continuous framework that rigorously interprets the Transformer as a discretization of a structured integro-differential equation. Within this formulation, the self-attention mechanism emerges naturally as a non-local integral operator, and layer normalization is characterized as a projection to a time-dependent constraint. This operator-theoretic and variational perspective offers a unified and interpretable foundation for understanding the architecture's core components, including attention, feedforward layers, and normalization. Our approach extends beyond previous theoretical analyses by embedding the entire Transformer operation in continuous domains for both token indices and feature dimensions. This leads to a principled and flexible framework that not only deepens theoretical insight but also offers new directions for architecture design, analysis, and control-based interpretations. This new interpretation provides a step toward bridging the gap between deep learning architectures and continuous mathematical modeling, and contributes a foundational perspective to the ongoing development of interpretable and theoretically grounded neural network models.
- Abstract(参考訳): Transformerアーキテクチャはシーケンスモデリングの分野に革命をもたらし、大規模言語モデル(LLM)の最近のブレークスルーを支えている。
しかし、その構造と操作を説明する包括的な数学的理論は、いまだ解明されていない。
本研究では,トランスフォーマーを構造化積分微分方程式の離散化として厳密に解釈する新しい連続的枠組みを提案する。
この定式化の中で、自己アテンション機構は非局所積分作用素として自然に現れ、層正規化は時間依存制約への射影として特徴づけられる。
この演算子理論と変分的観点は、注意、フィードフォワード層、正規化を含むアーキテクチャのコアコンポーネントを理解するための統一的で解釈可能な基盤を提供する。
我々のアプローチは、トークン指標と特徴次元の両方に対して、Transformer演算全体を連続領域に埋め込むことによって、過去の理論的解析を超えて拡張する。
これは理論的な洞察を深めるだけでなく、アーキテクチャ設計、分析、制御に基づく解釈の新しい方向性を提供する、原則的で柔軟なフレームワークにつながります。
この新たな解釈は、ディープラーニングアーキテクチャと連続的な数学的モデリングのギャップを埋めるためのステップを提供し、解釈可能で理論的に基礎付けられたニューラルネットワークモデルの継続的な発展に基礎的な視点を提供する。
関連論文リスト
- Cross-Model Semantics in Representation Learning [1.2064681974642195]
構造的正則性は、構造的変動の下でより安定な表現幾何学を誘導することを示す。
これは、ある種の帰納バイアスがモデル内の一般化をサポートするだけでなく、モデル間の学習された機能の相互運用性を向上させることを示唆している。
論文 参考訳(メタデータ) (2025-08-05T16:57:24Z) - Loss-Complexity Landscape and Model Structure Functions [53.92822954974537]
我々はコルモゴロフ構造関数 $h_x(alpha)$ を双対化するためのフレームワークを開発する。
情報理論構造と統計力学の数学的類似性を確立する。
構造関数と自由エネルギーの間のルジャンドル・フェンシェル双対性を明確に証明する。
論文 参考訳(メタデータ) (2025-07-17T21:31:45Z) - A Free Probabilistic Framework for Analyzing the Transformer-based Language Models [19.78896931593813]
本稿では,自由確率理論を用いたトランスフォーマーに基づく言語モデル解析のための形式的演算子理論フレームワークを提案する。
この研究は、理論上は大きな言語モデルにおける構造力学に関する原則的視点を提供する。
論文 参考訳(メタデータ) (2025-06-19T19:13:02Z) - Directional Non-Commutative Monoidal Structures for Compositional Embeddings in Machine Learning [0.0]
指向性非可換モノイド作用素上に構築された合成埋め込みのための新しい構造を導入する。
我々の構成では、各軸 i に対して異なる合成演算子 circ_i を定義し、大域的な可換性を与えることなく、各軸に沿って連想結合を保証する。
すべての軸特異作用素は互いに可換であり、一貫した交叉軸合成を可能にする大域的交換法則を強制する。
論文 参考訳(メタデータ) (2025-05-21T13:27:14Z) - Scaling Laws and Representation Learning in Simple Hierarchical Languages: Transformers vs. Convolutional Architectures [49.19753720526998]
合成データセット上でのニューラルネットワーク性能に関する理論的スケーリング法則を導出する。
局所性と重み共有によって生成過程の構造が整った畳み込みネットワークは、性能の高速化を享受できることを示す。
この発見は、ニューラルネットワークのスケーリング法則に基づくアーキテクチャ上のバイアスを明らかにし、モデルアーキテクチャとデータの統計的性質の間の相互作用によって表現学習がどのように形成されるかを強調している。
論文 参考訳(メタデータ) (2025-05-11T17:44:14Z) - Dynamics of Transient Structure in In-Context Linear Regression Transformers [0.5242869847419834]
中間タスクの多様性を持つコンテキスト内線形回帰タスクでトランスフォーマーを訓練する場合、トレーニング分布のタスクに特化する前にリッジ回帰のように振る舞うことを示す。
一般解から特殊解へのこの遷移は、結合軌道主成分分析によって明らかにされる。
局所学習係数によって定義される変圧器のモデル複雑性を測定することにより、この説明を実証的に検証する。
論文 参考訳(メタデータ) (2025-01-29T16:32:14Z) - Interpreting Affine Recurrence Learning in GPT-style Transformers [54.01174470722201]
インコンテキスト学習により、GPTスタイルのトランスフォーマーは、重みを変更することなく推論中に一般化できる。
本稿では,ICLタスクとしてアフィンの再発を学習し,予測する能力に着目する。
実験的手法と理論的手法の両方を用いてモデルの内部動作を分析する。
論文 参考訳(メタデータ) (2024-10-22T21:30:01Z) - Understanding the Language Model to Solve the Symbolic Multi-Step Reasoning Problem from the Perspective of Buffer Mechanism [68.05754701230039]
本研究では,トランスフォーマーモデルにおける情報伝達機構を解明するために,シンボル的多段階推論タスクを構築する。
モデルの推論能力を高めるために,ランダムな行列に基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-05-24T07:41:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。