論文の概要: Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures
- arxiv url: http://arxiv.org/abs/2501.02931v2
- Date: Tue, 14 Jan 2025 10:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 02:44:49.010721
- Title: Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures
- Title(参考訳): パラメトリックエンドファンクタとしての自己認識 - トランスフォーマーアーキテクチャのカテゴリ化フレームワーク
- Authors: Charles O'Neill,
- Abstract要約: 我々は,自己意識の線形成分に着目したカテゴリー理論フレームワークを開発した。
クエリ、キー、値マップは自然に2-圏 $mathbfPara(Vect)$ のパラメトリック 1-同型を定義することを示す。
複数の自己アテンション層を積み重ねると、このエンドファウンタ上の自由モナドが構築される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Self-attention mechanisms have revolutionised deep learning architectures, yet their core mathematical structures remain incompletely understood. In this work, we develop a category-theoretic framework focusing on the linear components of self-attention. Specifically, we show that the query, key, and value maps naturally define a parametric 1-morphism in the 2-category $\mathbf{Para(Vect)}$. On the underlying 1-category $\mathbf{Vect}$, these maps induce an endofunctor whose iterated composition precisely models multi-layer attention. We further prove that stacking multiple self-attention layers corresponds to constructing the free monad on this endofunctor. For positional encodings, we demonstrate that strictly additive embeddings correspond to monoid actions in an affine sense, while standard sinusoidal encodings, though not additive, retain a universal property among injective (faithful) position-preserving maps. We also establish that the linear portions of self-attention exhibit natural equivariance to permutations of input tokens, and show how the "circuits" identified in mechanistic interpretability can be interpreted as compositions of parametric 1-morphisms. This categorical perspective unifies geometric, algebraic, and interpretability-based approaches to transformer analysis, making explicit the underlying structures of attention. We restrict to linear maps throughout, deferring the treatment of nonlinearities such as softmax and layer normalisation, which require more advanced categorical constructions. Our results build on and extend recent work on category-theoretic foundations for deep learning, offering deeper insights into the algebraic structure of attention mechanisms.
- Abstract(参考訳): 自己認識機構はディープラーニングアーキテクチャに革命をもたらしたが、その中心となる数学的構造はいまだに完全には理解されていない。
本研究では,自己意識の線形成分に着目したカテゴリー理論フレームワークを開発する。
具体的には、2-圏 $\mathbf{Para(Vect)}$ において、クエリ、キー、および値写像がパラメトリック 1-同型を自然に定義することを示す。
基礎となる 1-圏 $\mathbf{Vect}$ 上で、これらの写像は、反復合成がマルチ層アテンションを正確にモデル化するエンドファウンタを誘導する。
さらに、複数の自己注意層を積み重ねることが、このエンドファンクター上の自由モナドを構成することに対応することを証明している。
位置エンコーディングでは、厳密な加法的埋め込みはアフィンの意味でのモノイド作用に対応するが、標準正弦波エンコーディングは加法的ではないが、単射(偽)位置保存写像の普遍性を保持する。
また、自己注意の線形部分は入力トークンの置換に自然な等値性を示し、機械的解釈可能性において識別される「回路」がパラメトリック1-型の合成としてどのように解釈できるかを示す。
この分類学的観点は、幾何学的、代数的、解釈可能性に基づくトランスフォーマー解析のアプローチを統一し、基本的な注意構造を明確にする。
我々は、より高度な分類的構成を必要とするソフトマックスや層正規化のような非線形処理を延期し、線形写像を至るところで制限する。
本研究は,Deep Learningのためのカテゴリ理論の基礎に関する最近の研究に基づいて,注目機構の代数的構造に関する深い洞察を提供するものである。
関連論文リスト
- Quantum cellular automata and categorical duality of spin chains [0.0]
スピン鎖上の対称性を反映する局所作用素の代数間の有界なスプレッド同型である圏双対について検討する。
双対性に関する根本的な問題は、量子セルオートマトンに拡張できるかどうかである。
ドップリッヒ=ハーグ=ロバーツ双加群の機械を用いた拡張問題の解を提案する。
論文 参考訳(メタデータ) (2024-10-11T15:00:50Z) - Attention layers provably solve single-location regression [12.355792442566681]
Transformerのような注意に基づくモデルは様々なタスクにまたがるが、特にトークンの間隔や内部線形構造に関する包括的な理論的理解は欠如している。
本稿では,一列のトークンだけが出力を決定する単一位置回帰タスクを導入し,その位置が線形射影によって検索可能な潜在値であることを示す。
論文 参考訳(メタデータ) (2024-10-02T13:28:02Z) - Current Symmetry Group Equivariant Convolution Frameworks for Representation Learning [5.802794302956837]
ユークリッドの深層学習はしばしば、表現空間が不規則で複雑な位相で湾曲した実世界の信号に対処するのに不十分である。
我々は、対称性群同変深層学習モデルの重要性と、グラフや3次元形状、非ユークリッド空間における畳み込みのような操作の実現に焦点を当てる。
論文 参考訳(メタデータ) (2024-09-11T15:07:18Z) - Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry [63.694184882697435]
グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
論文 参考訳(メタデータ) (2024-07-15T07:11:44Z) - Binding Dynamics in Rotating Features [72.80071820194273]
本稿では,特徴間のアライメントを明示的に計算し,それに応じて重みを調整する「コサイン結合」機構を提案する。
これにより、自己注意と生物学的神経プロセスに直接接続し、回転する特徴に現れるオブジェクト中心の表現の基本的なダイナミクスに光を当てることができます。
論文 参考訳(メタデータ) (2024-02-08T12:31:08Z) - A Unified Framework for Discovering Discrete Symmetries [17.687122467264487]
対称性を尊重する関数を対称性のクラスから学習する問題を考察する。
我々は、幅広いサブグループにわたる対称性の発見を可能にする統一的なフレームワークを開発する。
論文 参考訳(メタデータ) (2023-09-06T10:41:30Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Self-adjoint extension schemes and modern applications to quantum
Hamiltonians [55.2480439325792]
モノグラフは、過去数年間、両方の著者が、抽象演算子理論と量子力学への応用の両方において中心的な主題について行った、学部・大学院・セミナーの以前の講義ノートから、改訂および拡張された資料を含んでいる。
数種類のモデルが議論され、これは今日、数学物理学への新たな関心または新たな関心を受けており、特に、ある興味を持つ作用素を自己随伴的に実現するという観点から考察されている。
論文 参考訳(メタデータ) (2022-01-25T09:45:16Z) - Frame Averaging for Equivariant Shape Space Learning [85.42901997467754]
形状空間学習に対称性を組み込む自然な方法は、形状空間(エンコーダ)への写像と形状空間(デコーダ)からの写像が関連する対称性に同値であることを問うことである。
本稿では,2つのコントリビューションを導入することで,エンコーダとデコーダの等価性を組み込む枠組みを提案する。
論文 参考訳(メタデータ) (2021-12-03T06:41:19Z) - K\"ahler Geometry of Quiver Varieties and Machine Learning [0.0]
我々は、フレーム表現のモジュラー空間を用いた機械学習におけるニューラルネットワークの代数幾何学的定式化を開発する。
複素射影空間から構築された多変数活性化関数に対する普遍近似定理を証明する。
論文 参考訳(メタデータ) (2021-01-27T15:32:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。