論文の概要: Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures
- arxiv url: http://arxiv.org/abs/2501.02931v2
- Date: Tue, 14 Jan 2025 10:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-16 02:44:49.010721
- Title: Self-Attention as a Parametric Endofunctor: A Categorical Framework for Transformer Architectures
- Title(参考訳): パラメトリックエンドファンクタとしての自己認識 - トランスフォーマーアーキテクチャのカテゴリ化フレームワーク
- Authors: Charles O'Neill,
- Abstract要約: 我々は,自己意識の線形成分に着目したカテゴリー理論フレームワークを開発した。
クエリ、キー、値マップは自然に2-圏 $mathbfPara(Vect)$ のパラメトリック 1-同型を定義することを示す。
複数の自己アテンション層を積み重ねると、このエンドファウンタ上の自由モナドが構築される。
- 参考スコア(独自算出の注目度): 0.0
- License:
- Abstract: Self-attention mechanisms have revolutionised deep learning architectures, yet their core mathematical structures remain incompletely understood. In this work, we develop a category-theoretic framework focusing on the linear components of self-attention. Specifically, we show that the query, key, and value maps naturally define a parametric 1-morphism in the 2-category $\mathbf{Para(Vect)}$. On the underlying 1-category $\mathbf{Vect}$, these maps induce an endofunctor whose iterated composition precisely models multi-layer attention. We further prove that stacking multiple self-attention layers corresponds to constructing the free monad on this endofunctor. For positional encodings, we demonstrate that strictly additive embeddings correspond to monoid actions in an affine sense, while standard sinusoidal encodings, though not additive, retain a universal property among injective (faithful) position-preserving maps. We also establish that the linear portions of self-attention exhibit natural equivariance to permutations of input tokens, and show how the "circuits" identified in mechanistic interpretability can be interpreted as compositions of parametric 1-morphisms. This categorical perspective unifies geometric, algebraic, and interpretability-based approaches to transformer analysis, making explicit the underlying structures of attention. We restrict to linear maps throughout, deferring the treatment of nonlinearities such as softmax and layer normalisation, which require more advanced categorical constructions. Our results build on and extend recent work on category-theoretic foundations for deep learning, offering deeper insights into the algebraic structure of attention mechanisms.
- Abstract(参考訳): 自己認識機構はディープラーニングアーキテクチャに革命をもたらしたが、その中心となる数学的構造はいまだに完全には理解されていない。
本研究では,自己意識の線形成分に着目したカテゴリー理論フレームワークを開発する。
具体的には、2-圏 $\mathbf{Para(Vect)}$ において、クエリ、キー、および値写像がパラメトリック 1-同型を自然に定義することを示す。
基礎となる 1-圏 $\mathbf{Vect}$ 上で、これらの写像は、反復合成がマルチ層アテンションを正確にモデル化するエンドファウンタを誘導する。
さらに、複数の自己注意層を積み重ねることが、このエンドファンクター上の自由モナドを構成することに対応することを証明している。
位置エンコーディングでは、厳密な加法的埋め込みはアフィンの意味でのモノイド作用に対応するが、標準正弦波エンコーディングは加法的ではないが、単射(偽)位置保存写像の普遍性を保持する。
また、自己注意の線形部分は入力トークンの置換に自然な等値性を示し、機械的解釈可能性において識別される「回路」がパラメトリック1-型の合成としてどのように解釈できるかを示す。
この分類学的観点は、幾何学的、代数的、解釈可能性に基づくトランスフォーマー解析のアプローチを統一し、基本的な注意構造を明確にする。
我々は、より高度な分類的構成を必要とするソフトマックスや層正規化のような非線形処理を延期し、線形写像を至るところで制限する。
本研究は,Deep Learningのためのカテゴリ理論の基礎に関する最近の研究に基づいて,注目機構の代数的構造に関する深い洞察を提供するものである。
関連論文リスト
- Understanding Matrix Function Normalizations in Covariance Pooling through the Lens of Riemannian Geometry [63.694184882697435]
グローバル共分散プーリング(GCP)は、高レベルの表現の2階統計を利用して、ディープニューラルネットワーク(DNN)の性能を向上させることが実証されている。
本稿では、リーマン幾何学の観点から行列対数とパワーの包括的かつ統一的な理解を提供する。
論文 参考訳(メタデータ) (2024-07-15T07:11:44Z) - How Do Transformers Learn Topic Structure: Towards a Mechanistic
Understanding [56.222097640468306]
我々は、トランスフォーマーが「意味構造」を学ぶ方法の機械的理解を提供する
数学的解析とウィキペディアデータの実験を組み合わせることで、埋め込み層と自己保持層がトピック構造をエンコードしていることを示す。
論文 参考訳(メタデータ) (2023-03-07T21:42:17Z) - Understanding Imbalanced Semantic Segmentation Through Neural Collapse [81.89121711426951]
セマンティックセグメンテーションは自然に文脈的相関とクラス間の不均衡分布をもたらすことを示す。
機能中心にレギュレータを導入し、ネットワークが魅力ある構造に近い機能を学ぶことを奨励する。
我々の手法は、ScanNet200テストリーダーボードで1位にランクインし、新しい記録を樹立する。
論文 参考訳(メタデータ) (2023-01-03T13:51:51Z) - Mathematical Foundations for a Compositional Account of the Bayesian
Brain [0.0]
現代応用圏論のツールを用いて、近似推論のための関手意味論を提供する。
統計ゲームのフィブレーションを定義し、統計的推論の様々な問題を対応する部分として分類する。
我々は,自由エネルギー原理の下で,予測符号化ニューラルネットワークの構成構造を説明する関手を構築した。
論文 参考訳(メタデータ) (2022-12-23T18:58:17Z) - Equivariance with Learned Canonicalization Functions [77.32483958400282]
正規化を行うために小さなニューラルネットワークを学習することは、事前定義を使用することよりも優れていることを示す。
実験の結果,正準化関数の学習は多くのタスクで同変関数を学習する既存の手法と競合することがわかった。
論文 参考訳(メタデータ) (2022-11-11T21:58:15Z) - Deep Invertible Approximation of Topologically Rich Maps between
Manifolds [17.60434807901964]
位相的に興味深い多様体間の写像を安定に近似できるニューラルネットワークの設計法を示す。
局所ビリプシッツ写像、被覆空間、局所同相写像の間の位相的平行性を利用して、$mathcalT circ p circ MathcalE$ という形の新しいネットワークが局所微分同相の普遍近似器であることが分かる。
また、分子の分子イメージングを対称性で処理するためのアーキテクチャの拡張の可能性についても概説する。
論文 参考訳(メタデータ) (2022-10-02T17:14:43Z) - Intersection Regularization for Extracting Semantic Attributes [72.53481390411173]
本稿では,ネットワーク抽出した特徴が意味属性のセットと一致するように,教師付き分類の問題を考える。
例えば、鳥類のイメージを種に分類することを学ぶとき、動物学者が鳥類を分類するために使用する特徴の出現を観察したい。
本稿では,複数層パーセプトロン(MLP)と並列決定木を併用した,離散的なトップレベルアクティベーションを持つニューラルネットワークのトレーニングを提案する。
論文 参考訳(メタデータ) (2021-03-22T14:32:44Z) - Categories of Br\`egman operations and epistemic (co)monads [0.0]
我々は、適切な反射的バナッハ空間の凸閉集合を対象として、非線形後量子推論のための分類的枠組みを構築する。
これはチェンコフの状態空間間の線型正の写像の圏の研究プログラムの非線形凸解析アナログを提供する。
ブレグマン的アプローチは、この設定の特別なケースを提供することを示す。
論文 参考訳(メタデータ) (2021-03-13T23:10:29Z) - Building powerful and equivariant graph neural networks with structural
message-passing [74.93169425144755]
本稿では,2つのアイデアに基づいた,強力かつ同変なメッセージパッシングフレームワークを提案する。
まず、各ノードの周囲の局所的コンテキスト行列を学習するために、特徴に加えてノードの1ホット符号化を伝搬する。
次に,メッセージのパラメトリゼーション手法を提案する。
論文 参考訳(メタデータ) (2020-06-26T17:15:16Z) - Equivariant Maps for Hierarchical Structures [17.931059591895984]
階層構造の対称性は、ビルディングブロックの対称性の「死積」であることを示す。
点雲を酸化することにより、データに翻訳と置換の対称性の階層を課す。
私たちは、Semantic3D、S3DIS、vKITTIに関する最新の技術について報告します。
論文 参考訳(メタデータ) (2020-06-05T18:42:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。